你是否曾经遇到过这种情况:想用AI助手分析某个电商网站的产品价格,或者追踪新闻网站上的实时报道,结果发现AI无法直接访问这些网页。更麻烦的是,有些网站需要加载JavaScript才能显示内容,还有反爬虫机制和地域限制。手动复制粘贴不仅效率低,而且无法规模化。
现在有一个专业的解决方案可以解决这个难题。oxylabs-mcp是Oxylabs官方推出的MCP服务器,它为AI模型提供了一条通往真实互联网的通道。通过这个工具,AI可以像人一样浏览任何网页,渲染动态内容,甚至绕过反爬机制。你只需要告诉AI要获取什么数据,它就会自动完成整个采集和清理过程,直接把结构化的信息呈现在你面前。
项目基本信息
| 信息项 | 详情 |
|---|---|
| 项目名称 | oxylabs-mcp |
| GitHub地址 | https://github.com/oxylabs/oxylabs-mcp |
| 项目描述 | Official Oxylabs MCP integration |
| 作者 | oxylabs |
| 开源协议 | MIT License |
| 开源状态 | 公开状态 |
| Languages | Python 95.7%, HTML 2.3%, Makefile 1.2%, Dockerfile 0.8% |
| 支持平台 | Windows / macOS / Linux |
| 最后更新 | 2026-04-23 |
一、项目介绍
oxylabs-mcp是一个官方MCP服务器,它把Oxylabs强大的网页采集能力封装成了AI可以调用的工具。这个项目本质上是一个桥梁,连接了AI模型(如Claude、Cursor等)和Oxylabs的Web Scraper API以及AI Studio服务。
这个服务器提供了两套核心工具集,总共八个具体的工具:
基于Web Scraper API的传统采集工具
universal_scraper: 通用网页采集器,可以抓取任何公开网页的内容google_search_scraper: 专门用于提取Google搜索结果amazon_search_scraper: 采集亚马逊搜索结果页面的数据amazon_product_scraper: 提取单个亚马逊产品的详细信息
基于AI Studio的智能采集工具
ai_scraper: 使用AI能力从任意URL提取数据,输出JSON或Markdown格式ai_crawler: 根据你的提示词,智能爬取整个网站的多个页面ai_browser_agent: 像真人一样控制浏览器,可以返回Markdown、JSON、HTML甚至截图ai_search: 联网搜索并智能提取相关URL的内容
这些工具的覆盖面很广,从简单的单页抓取到复杂的自动化浏览器操作都可以实现。而且Oxylabs提供了两种认证方式:传统的用户名密码(用于Web Scraper API)和API密钥(用于AI Studio),你可以根据自己的需求选择开通相应的服务。
二、核心优势
专业级别的网页采集能力
Oxylabs是网页采集领域的专业服务商,他们的基础设施能够应对各种复杂场景。这个MCP服务器继承了这些能力:可以渲染JavaScript,可以绕过Cloudflare等反爬系统,支持从195+个国家/地区的IP地址发出请求。普通开发者很难自己搭建这样的系统。
AI友好的数据输出
这个工具最懂AI需要什么。它不是简单地返回原始HTML,而是自动清理内容,转换成干净的Markdown或结构化的JSON。这些格式可以直接喂给LLM进行理解和分析,不需要再做额外的预处理。
灵活的工具组合
你可以根据任务的复杂度选择合适的工具。简单的静态页面用universal_scraper就够了;需要处理动态内容或者结构化数据时,用ai_scraper会更智能;如果要爬取整个网站或者模拟人机交互,ai_crawler和ai_browser_agent就派上用场了。
官方的稳定性和更新保障
作为Oxylabs官方维护的项目,它有持续的更新保证。从GitHub的提交记录看,最近一次更新就在2026年4月23日,版本迭代很活跃。而且提供了多种安装方式(uvx、uv、Smithery),适配不同的使用习惯。
智能的认证与工具暴露机制
服务器会根据你提供的认证信息自动决定暴露哪些工具。只提供Web Scraper API的账号密码,就只显示四个基础采集工具;只提供AI Studio的API Key,就显示四个AI工具;两者都提供,则全部显示。这种设计避免了无用的工具占用界面。
三、适用场景
市场情报与竞品分析
零售品牌可以用它来监控竞争对手的产品价格、库存和评论。例如,你可以让AI“每天定时抓取亚马逊上某款竞品的价格和排名变化”,oxylabs-mcp能绕过电商网站的反爬机制,稳定地提供数据。
AI训练数据的规模化采集
如果你在训练一个垂直领域的模型,需要大量来自特定网站的高质量文本。可以组合使用ai_crawler和ai_scraper来自动爬取整个文档站点或者论坛,并把内容转换成干净的Markdown格式,直接作为训练语料。
实时新闻与舆情监测
新闻聚合应用或者公关公司可以用universal_scraper来监控多个新闻网站的最新报道。由于Oxylabs支持全球的IP节点,甚至可以采集某些有地域限制的新闻网站。
学术研究与数据分析
研究人员需要采集公开数据进行分析时,可以用这些工具来自动化数据收集过程。例如分析不同国家电商平台的价格差异,或者统计社交媒体上的讨论趋势。Oxylabs的代理池能提供来自不同地理位置的视角。
自动化工作流中的网页交互
ai_browser_agent是一个特别有意思的工具。你可以让AI“登录某个网站,导航到特定页面,然后截图保存”。这让它不仅仅是一个采集器,更是一个可以执行复杂浏览器操作的自动化助手。
四、安装教程
前置准备
在使用oxylabs-mcp之前,你需要满足两个条件。首先,确保系统安装了Python环境(3.8或更高版本)。其次,你需要至少拥有以下一种Oxylabs服务的认证信息:
- Oxylabs Web Scraper API的账号和密码(提供1周免费试用)
- Oxylabs AI Studio的API密钥(提供1000免费积分)
你可以访问Oxylabs官网注册试用账号。完成注册后,在账户后台找到对应的认证信息并记录下来。
安装uv包管理器(推荐方式)
Oxylabs推荐使用uv来管理Python环境和运行这个MCP服务器。uv是一个快速的Python包管理器,安装很简单。
对于macOS和Linux系统,在终端中运行:
curl -LsSf https://astral.sh/uv/install.sh | sh对于Windows系统,在PowerShell中运行:
powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"安装完成后,可以运行uv --version来验证是否成功。
配置到Claude Desktop
这是最常用的使用场景。首先找到Claude Desktop的配置文件:
- macOS:
~/Library/Application Support/Claude/claude_desktop_config.json - Windows:
%APPDATA%\Claude\claude_desktop_config.json
用文本编辑器打开这个JSON文件,添加以下内容。注意根据你拥有的认证信息,保留对应的环境变量,删除不需要的。如果你只有AI Studio的API密钥,就只保留OXYLABS_AI_STUDIO_API_KEY那一行。
{
"mcpServers": {
"oxylabs": {
"command": "uvx",
"args": ["oxylabs-mcp"],
"env": {
"OXYLABS_USERNAME": "你的WebScraper用户名",
"OXYLABS_PASSWORD": "你的WebScraper密码",
"OXYLABS_AI_STUDIO_API_KEY": "你的AIStudio API密钥"
}
}
}
}请务必将示例中的文字替换成你真实的认证信息。如果某项服务你没有开通,请直接删除对应的那一行配置,不要留空值。
保存文件后,完全退出并重启Claude Desktop。现在你就可以在聊天界面中调用Oxylabs的工具了。
配置到Cursor AI编辑器
如果你使用Cursor作为AI编码助手,配置方法类似。打开Cursor,进入Settings → Cursor Settings → MCP。点击“Add new global MCP server”,输入以下配置:
{
"mcpServers": {
"oxylabs": {
"command": "uvx",
"args": ["oxylabs-mcp"],
"env": {
"OXYLABS_USERNAME": "你的用户名",
"OXYLABS_PASSWORD": "你的密码",
"OXYLABS_AI_STUDIO_API_KEY": "你的API密钥"
}
}
}
}通过Smithery一键安装(最简单)
如果你不想手动配置文件,可以通过Smithery服务来自动完成。访问 https://smithery.ai/server/@oxylabs/oxylabs-mcp ,点击“Auto”按钮,按照提示授权即可。Smithery会处理认证信息的传递和配置注入。
五、使用示例
配置完成后,你就可以在AI助手中用自然语言来驱动这些工具了。以下是一些实际的使用案例。
示例一:抓取单个网页为Markdown
这是最基础的操作。假设你想让AI分析一篇网页文章,可以这样说:
“Scrape the content of https://blog.example.com/article-123 and return it as markdown”
AI会调用universal_scraper或ai_scraper工具,几秒钟后返回清理过的Markdown格式内容。你可以接着要求它“基于这个内容写一段摘要”。
示例二:监控Google搜索结果
想要了解某个关键词的搜索排名变化,可以这样命令:
“Search Google for 'best AI coding tools 2026' and give me the top 10 results with titles and URLs”
系统会调用google_search_scraper,返回结构化的搜索结果。由于Oxylabs支持从不同地理位置发出请求,你甚至可以得到特定国家/地区的搜索结果。
示例三:抓取电商产品数据
对于电商分析师来说,这个功能很实用:
“Get the product information for ASIN B0C1234XYZ from Amazon, including price, rating, and availability”
AI会使用amazon_product_scraper,返回产品标题、价格、评分、库存状态等关键数据。而且由于Oxylabs的代理网络,可以绕过亚马逊的反爬机制,稳定获取数据。
示例四:AI驱动的智能爬虫
当你需要从多个相关页面收集信息时,ai_crawler就派上用场了。你可以用自然的语言描述需求:
“Crawl the React documentation site starting from https://react.dev/learn, find all pages about hooks, and return their content as markdown files”
AI会根据你的描述决定爬取哪些页面,并只返回相关内容,而不是整个网站的镜像。
示例五:浏览器自动化与截图
最强大的工具是ai_browser_agent,它可以模拟真人操作浏览器。例如:
“Go to Google Maps, search for 'coffee shops near Central Park', take a screenshot of the results page, and return the top 5 names and addresses”
AI会控制一个真实的浏览器,执行导航、搜索、截图等一系列操作,最后返回你需要的数据。这对于需要交互才能访问的内容非常有效。
六、常见问题
工具调用失败,返回认证错误
这通常是因为环境变量没有正确设置。请检查你的配置文件,确保认证信息是真实有效的,并且没有多余的空格。另外注意:如果你没有某项服务的账号,必须删除对应的环境变量行。保留一个空字符串或者占位符会导致工具暴露但无法工作。
网页抓取结果不完整
有些网站严重依赖JavaScript渲染,传统的HTTP请求获取不到完整内容。这种情况下,可以尝试使用ai_scraper或ai_browser_agent,它们会启动真实的浏览器环境来渲染页面。另外,检查一下目标网站是否有反爬机制,Oxylabs通常能够处理,但某些极度敏感的网站可能需要调整请求参数。
遇到速率限制或配额问题
免费试用账号通常有调用次数或并发限制。如果你超过了限额,工具会返回错误信息。这时可以考虑升级到付费套餐,或者优化你的调用频率,合并多个请求。另外,ai_crawler在爬取多个页面时会依次请求,不会一次性全部发出,有助于避免触发限制。
在Windows上运行时出现路径错误
建议使用uvx方式运行,它对Windows的兼容性最好。如果你要手动指定Python路径,确保路径中没有空格,或者用短路径名。另外,可以尝试在命令提示符中先手动运行uvx oxylabs-mcp,看看是否有明显的错误输出。
如何选择使用哪个工具
这是一个常见的问题。简单来说:抓取单一静态页面用universal_scraper;需要智能解析结构化内容用ai_scraper;爬取多个页面用ai_crawler;需要执行点击、登录等交互操作用ai_browser_agent。对于谷歌和亚马逊这两个特定目标,使用专用的scraper工具效率更高。
日志信息能帮我排查问题
服务器会在notifications/message事件中输出详细的日志,包括请求参数、作业ID和状态、错误信息等。如果你在配置文件中启用了日志,这些信息会显示在客户端的通知面板中,对定位问题非常有帮助。
七、总结
oxylabs-mcp是一个专业级的网页采集解决方案与AI生态的结合。它把Oxylabs多年积累的采集基础设施变成了一套AI可以理解并调用的工具集。对于需要从互联网获取公开数据来增强AI应用能力的开发者来说,这个项目解决了从“想法”到“数据”之间的所有技术难题。
最让人印象深刻的是它的工具设计。八个工具覆盖了从简单到复杂的各种场景,而且AI Studio系列工具非常智能,你甚至不需要了解底层API的参数,只需要用自然语言描述目标即可。这种“声明式”的采集方式,大大降低了使用门槛。
当然,这不是一个完全免费的方案。Oxylabs是商业服务,虽然提供试用积分,但大量使用需要付费。不过考虑到它所解决的问题的复杂性(反爬、渲染、代理、解析),这个成本对于企业和专业用户来说是值得的。如果你只是偶尔抓取几个页面,试用额度可能就足够了。
总的来说,oxylabs-mcp是目前MCP生态中在网页采集领域最成熟、最专业的解决方案之一。如果你是开发者,正在构建需要联网获取数据的AI应用,它值得你认真考虑。
I wish there was a tool specifically for social media scraping. That would be a huge market.
The version updates are frequent. The team pushed two updates just this month for dependency fixes.
For non-technical users, the Smithery Oauth flow is a lifesaver. No command line needed.
The ai_scraper output as JSON is perfect for feeding into data pipelines. Very considerate design.
Be careful with the ai_crawler on large sites. It can rack up credits quickly without proper prompts.