你是否曾经遇到过这种情况:想用AI助手分析某个电商网站的产品价格,或者追踪新闻网站上的实时报道,结果发现AI无法直接访问这些网页。更麻烦的是,有些网站需要加载JavaScript才能显示内容,还有反爬虫机制和地域限制。手动复制粘贴不仅效率低,而且无法规模化。

现在有一个专业的解决方案可以解决这个难题。oxylabs-mcp是Oxylabs官方推出的MCP服务器,它为AI模型提供了一条通往真实互联网的通道。通过这个工具,AI可以像人一样浏览任何网页,渲染动态内容,甚至绕过反爬机制。你只需要告诉AI要获取什么数据,它就会自动完成整个采集和清理过程,直接把结构化的信息呈现在你面前。

项目基本信息

信息项详情
项目名称oxylabs-mcp
GitHub地址https://github.com/oxylabs/oxylabs-mcp
项目描述Official Oxylabs MCP integration
作者oxylabs
开源协议MIT License
开源状态公开状态
LanguagesPython 95.7%, HTML 2.3%, Makefile 1.2%, Dockerfile 0.8%
支持平台Windows / macOS / Linux
最后更新2026-04-23

一、项目介绍

oxylabs-mcp是一个官方MCP服务器,它把Oxylabs强大的网页采集能力封装成了AI可以调用的工具。这个项目本质上是一个桥梁,连接了AI模型(如Claude、Cursor等)和Oxylabs的Web Scraper API以及AI Studio服务。

这个服务器提供了两套核心工具集,总共八个具体的工具:

基于Web Scraper API的传统采集工具

  • universal_scraper: 通用网页采集器,可以抓取任何公开网页的内容
  • google_search_scraper: 专门用于提取Google搜索结果
  • amazon_search_scraper: 采集亚马逊搜索结果页面的数据
  • amazon_product_scraper: 提取单个亚马逊产品的详细信息

基于AI Studio的智能采集工具

  • ai_scraper: 使用AI能力从任意URL提取数据,输出JSON或Markdown格式
  • ai_crawler: 根据你的提示词,智能爬取整个网站的多个页面
  • ai_browser_agent: 像真人一样控制浏览器,可以返回Markdown、JSON、HTML甚至截图
  • ai_search: 联网搜索并智能提取相关URL的内容

这些工具的覆盖面很广,从简单的单页抓取到复杂的自动化浏览器操作都可以实现。而且Oxylabs提供了两种认证方式:传统的用户名密码(用于Web Scraper API)和API密钥(用于AI Studio),你可以根据自己的需求选择开通相应的服务。

二、核心优势

专业级别的网页采集能力

Oxylabs是网页采集领域的专业服务商,他们的基础设施能够应对各种复杂场景。这个MCP服务器继承了这些能力:可以渲染JavaScript,可以绕过Cloudflare等反爬系统,支持从195+个国家/地区的IP地址发出请求。普通开发者很难自己搭建这样的系统。

AI友好的数据输出

这个工具最懂AI需要什么。它不是简单地返回原始HTML,而是自动清理内容,转换成干净的Markdown或结构化的JSON。这些格式可以直接喂给LLM进行理解和分析,不需要再做额外的预处理。

灵活的工具组合

你可以根据任务的复杂度选择合适的工具。简单的静态页面用universal_scraper就够了;需要处理动态内容或者结构化数据时,用ai_scraper会更智能;如果要爬取整个网站或者模拟人机交互,ai_crawlerai_browser_agent就派上用场了。

官方的稳定性和更新保障

作为Oxylabs官方维护的项目,它有持续的更新保证。从GitHub的提交记录看,最近一次更新就在2026年4月23日,版本迭代很活跃。而且提供了多种安装方式(uvx、uv、Smithery),适配不同的使用习惯。

智能的认证与工具暴露机制

服务器会根据你提供的认证信息自动决定暴露哪些工具。只提供Web Scraper API的账号密码,就只显示四个基础采集工具;只提供AI Studio的API Key,就显示四个AI工具;两者都提供,则全部显示。这种设计避免了无用的工具占用界面。

三、适用场景

市场情报与竞品分析

零售品牌可以用它来监控竞争对手的产品价格、库存和评论。例如,你可以让AI“每天定时抓取亚马逊上某款竞品的价格和排名变化”,oxylabs-mcp能绕过电商网站的反爬机制,稳定地提供数据。

AI训练数据的规模化采集

如果你在训练一个垂直领域的模型,需要大量来自特定网站的高质量文本。可以组合使用ai_crawlerai_scraper来自动爬取整个文档站点或者论坛,并把内容转换成干净的Markdown格式,直接作为训练语料。

实时新闻与舆情监测

新闻聚合应用或者公关公司可以用universal_scraper来监控多个新闻网站的最新报道。由于Oxylabs支持全球的IP节点,甚至可以采集某些有地域限制的新闻网站。

学术研究与数据分析

研究人员需要采集公开数据进行分析时,可以用这些工具来自动化数据收集过程。例如分析不同国家电商平台的价格差异,或者统计社交媒体上的讨论趋势。Oxylabs的代理池能提供来自不同地理位置的视角。

自动化工作流中的网页交互

ai_browser_agent是一个特别有意思的工具。你可以让AI“登录某个网站,导航到特定页面,然后截图保存”。这让它不仅仅是一个采集器,更是一个可以执行复杂浏览器操作的自动化助手。

四、安装教程

前置准备

在使用oxylabs-mcp之前,你需要满足两个条件。首先,确保系统安装了Python环境(3.8或更高版本)。其次,你需要至少拥有以下一种Oxylabs服务的认证信息:

  • Oxylabs Web Scraper API的账号和密码(提供1周免费试用)
  • Oxylabs AI Studio的API密钥(提供1000免费积分)

你可以访问Oxylabs官网注册试用账号。完成注册后,在账户后台找到对应的认证信息并记录下来。

安装uv包管理器(推荐方式)

Oxylabs推荐使用uv来管理Python环境和运行这个MCP服务器。uv是一个快速的Python包管理器,安装很简单。

对于macOS和Linux系统,在终端中运行:

curl -LsSf https://astral.sh/uv/install.sh | sh

对于Windows系统,在PowerShell中运行:

powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"

安装完成后,可以运行uv --version来验证是否成功。

配置到Claude Desktop

这是最常用的使用场景。首先找到Claude Desktop的配置文件:

  • macOS: ~/Library/Application Support/Claude/claude_desktop_config.json
  • Windows: %APPDATA%\Claude\claude_desktop_config.json

用文本编辑器打开这个JSON文件,添加以下内容。注意根据你拥有的认证信息,保留对应的环境变量,删除不需要的。如果你只有AI Studio的API密钥,就只保留OXYLABS_AI_STUDIO_API_KEY那一行。

{
  "mcpServers": {
    "oxylabs": {
      "command": "uvx",
      "args": ["oxylabs-mcp"],
      "env": {
        "OXYLABS_USERNAME": "你的WebScraper用户名",
        "OXYLABS_PASSWORD": "你的WebScraper密码",
        "OXYLABS_AI_STUDIO_API_KEY": "你的AIStudio API密钥"
      }
    }
  }
}

请务必将示例中的文字替换成你真实的认证信息。如果某项服务你没有开通,请直接删除对应的那一行配置,不要留空值。

保存文件后,完全退出并重启Claude Desktop。现在你就可以在聊天界面中调用Oxylabs的工具了。

配置到Cursor AI编辑器

如果你使用Cursor作为AI编码助手,配置方法类似。打开Cursor,进入Settings → Cursor Settings → MCP。点击“Add new global MCP server”,输入以下配置:

{
  "mcpServers": {
    "oxylabs": {
      "command": "uvx",
      "args": ["oxylabs-mcp"],
      "env": {
        "OXYLABS_USERNAME": "你的用户名",
        "OXYLABS_PASSWORD": "你的密码",
        "OXYLABS_AI_STUDIO_API_KEY": "你的API密钥"
      }
    }
  }
}

通过Smithery一键安装(最简单)

如果你不想手动配置文件,可以通过Smithery服务来自动完成。访问 https://smithery.ai/server/@oxylabs/oxylabs-mcp ,点击“Auto”按钮,按照提示授权即可。Smithery会处理认证信息的传递和配置注入。

五、使用示例

配置完成后,你就可以在AI助手中用自然语言来驱动这些工具了。以下是一些实际的使用案例。

示例一:抓取单个网页为Markdown

这是最基础的操作。假设你想让AI分析一篇网页文章,可以这样说:

“Scrape the content of https://blog.example.com/article-123 and return it as markdown”

AI会调用universal_scraperai_scraper工具,几秒钟后返回清理过的Markdown格式内容。你可以接着要求它“基于这个内容写一段摘要”。

示例二:监控Google搜索结果

想要了解某个关键词的搜索排名变化,可以这样命令:

“Search Google for 'best AI coding tools 2026' and give me the top 10 results with titles and URLs”

系统会调用google_search_scraper,返回结构化的搜索结果。由于Oxylabs支持从不同地理位置发出请求,你甚至可以得到特定国家/地区的搜索结果。

示例三:抓取电商产品数据

对于电商分析师来说,这个功能很实用:

“Get the product information for ASIN B0C1234XYZ from Amazon, including price, rating, and availability”

AI会使用amazon_product_scraper,返回产品标题、价格、评分、库存状态等关键数据。而且由于Oxylabs的代理网络,可以绕过亚马逊的反爬机制,稳定获取数据。

示例四:AI驱动的智能爬虫

当你需要从多个相关页面收集信息时,ai_crawler就派上用场了。你可以用自然的语言描述需求:

“Crawl the React documentation site starting from https://react.dev/learn, find all pages about hooks, and return their content as markdown files”

AI会根据你的描述决定爬取哪些页面,并只返回相关内容,而不是整个网站的镜像。

示例五:浏览器自动化与截图

最强大的工具是ai_browser_agent,它可以模拟真人操作浏览器。例如:

“Go to Google Maps, search for 'coffee shops near Central Park', take a screenshot of the results page, and return the top 5 names and addresses”

AI会控制一个真实的浏览器,执行导航、搜索、截图等一系列操作,最后返回你需要的数据。这对于需要交互才能访问的内容非常有效。

六、常见问题

工具调用失败,返回认证错误

这通常是因为环境变量没有正确设置。请检查你的配置文件,确保认证信息是真实有效的,并且没有多余的空格。另外注意:如果你没有某项服务的账号,必须删除对应的环境变量行。保留一个空字符串或者占位符会导致工具暴露但无法工作。

网页抓取结果不完整

有些网站严重依赖JavaScript渲染,传统的HTTP请求获取不到完整内容。这种情况下,可以尝试使用ai_scraperai_browser_agent,它们会启动真实的浏览器环境来渲染页面。另外,检查一下目标网站是否有反爬机制,Oxylabs通常能够处理,但某些极度敏感的网站可能需要调整请求参数。

遇到速率限制或配额问题

免费试用账号通常有调用次数或并发限制。如果你超过了限额,工具会返回错误信息。这时可以考虑升级到付费套餐,或者优化你的调用频率,合并多个请求。另外,ai_crawler在爬取多个页面时会依次请求,不会一次性全部发出,有助于避免触发限制。

在Windows上运行时出现路径错误

建议使用uvx方式运行,它对Windows的兼容性最好。如果你要手动指定Python路径,确保路径中没有空格,或者用短路径名。另外,可以尝试在命令提示符中先手动运行uvx oxylabs-mcp,看看是否有明显的错误输出。

如何选择使用哪个工具

这是一个常见的问题。简单来说:抓取单一静态页面用universal_scraper;需要智能解析结构化内容用ai_scraper;爬取多个页面用ai_crawler;需要执行点击、登录等交互操作用ai_browser_agent。对于谷歌和亚马逊这两个特定目标,使用专用的scraper工具效率更高。

日志信息能帮我排查问题

服务器会在notifications/message事件中输出详细的日志,包括请求参数、作业ID和状态、错误信息等。如果你在配置文件中启用了日志,这些信息会显示在客户端的通知面板中,对定位问题非常有帮助。

七、总结

oxylabs-mcp是一个专业级的网页采集解决方案与AI生态的结合。它把Oxylabs多年积累的采集基础设施变成了一套AI可以理解并调用的工具集。对于需要从互联网获取公开数据来增强AI应用能力的开发者来说,这个项目解决了从“想法”到“数据”之间的所有技术难题。

最让人印象深刻的是它的工具设计。八个工具覆盖了从简单到复杂的各种场景,而且AI Studio系列工具非常智能,你甚至不需要了解底层API的参数,只需要用自然语言描述目标即可。这种“声明式”的采集方式,大大降低了使用门槛。

当然,这不是一个完全免费的方案。Oxylabs是商业服务,虽然提供试用积分,但大量使用需要付费。不过考虑到它所解决的问题的复杂性(反爬、渲染、代理、解析),这个成本对于企业和专业用户来说是值得的。如果你只是偶尔抓取几个页面,试用额度可能就足够了。

总的来说,oxylabs-mcp是目前MCP生态中在网页采集领域最成熟、最专业的解决方案之一。如果你是开发者,正在构建需要联网获取数据的AI应用,它值得你认真考虑。

标签: 内容抓取

已有 33 条评论

    1. ChristopherJackson ChristopherJackson

      Has anyone tested this against heavily protected sites like LinkedIn? Curious about the success rate.

    2. BarbaraWhite BarbaraWhite

      I wish the amazon scraper could also extract reviews and questions. The product data is great but limited.

    3. DanielHarris DanielHarris

      The ai_crawler saved me days of work. I needed to collect documentation from an entire site and it did it in minutes.

    4. KarenMartin KarenMartin

      One downside: the response time can be 5-10 seconds for ai_crawler. But that's expected for complex operations.

    5. PaulRobinson PaulRobinson

      The error handling is solid. When a site blocked me, the tool returned a clear message instead of crashing.