oxylabs-mcp

你是否曾经遇到过这种情况：想用AI助手分析某个电商网站的产品价格，或者追踪新闻网站上的实时报道，结果发现AI无法直接访问这些网页。更麻烦的是，有些网站需要加载JavaScript才能显示内容，还有反爬虫机制和地域限制。手动复制粘贴不仅效率低，而且无法规模化。

现在有一个专业的解决方案可以解决这个难题。oxylabs-mcp是Oxylabs官方推出的MCP服务器，它为AI模型提供了一条通往真实互联网的通道。通过这个工具，AI可以像人一样浏览任何网页，渲染动态内容，甚至绕过反爬机制。你只需要告诉AI要获取什么数据，它就会自动完成整个采集和清理过程，直接把结构化的信息呈现在你面前。

项目基本信息

信息项	详情
项目名称	oxylabs-mcp
GitHub地址	https://github.com/oxylabs/oxylabs-mcp
项目描述	Official Oxylabs MCP integration
作者	oxylabs
开源协议	MIT License
开源状态	公开状态
Languages	Python 95.7%, HTML 2.3%, Makefile 1.2%, Dockerfile 0.8%
支持平台	Windows / macOS / Linux
最后更新	2026-04-23

一、项目介绍

oxylabs-mcp是一个官方MCP服务器，它把Oxylabs强大的网页采集能力封装成了AI可以调用的工具。这个项目本质上是一个桥梁，连接了AI模型（如Claude、Cursor等）和Oxylabs的Web Scraper API以及AI Studio服务。

这个服务器提供了两套核心工具集，总共八个具体的工具：

基于Web Scraper API的传统采集工具

universal_scraper: 通用网页采集器，可以抓取任何公开网页的内容
google_search_scraper: 专门用于提取Google搜索结果
amazon_search_scraper: 采集亚马逊搜索结果页面的数据
amazon_product_scraper: 提取单个亚马逊产品的详细信息

基于AI Studio的智能采集工具

ai_scraper: 使用AI能力从任意URL提取数据，输出JSON或Markdown格式
ai_crawler: 根据你的提示词，智能爬取整个网站的多个页面
ai_browser_agent: 像真人一样控制浏览器，可以返回Markdown、JSON、HTML甚至截图
ai_search: 联网搜索并智能提取相关URL的内容

这些工具的覆盖面很广，从简单的单页抓取到复杂的自动化浏览器操作都可以实现。而且Oxylabs提供了两种认证方式：传统的用户名密码（用于Web Scraper API）和API密钥（用于AI Studio），你可以根据自己的需求选择开通相应的服务。

二、核心优势

专业级别的网页采集能力

Oxylabs是网页采集领域的专业服务商，他们的基础设施能够应对各种复杂场景。这个MCP服务器继承了这些能力：可以渲染JavaScript，可以绕过Cloudflare等反爬系统，支持从195+个国家/地区的IP地址发出请求。普通开发者很难自己搭建这样的系统。

AI友好的数据输出

这个工具最懂AI需要什么。它不是简单地返回原始HTML，而是自动清理内容，转换成干净的Markdown或结构化的JSON。这些格式可以直接喂给LLM进行理解和分析，不需要再做额外的预处理。

灵活的工具组合

你可以根据任务的复杂度选择合适的工具。简单的静态页面用universal_scraper就够了；需要处理动态内容或者结构化数据时，用ai_scraper会更智能；如果要爬取整个网站或者模拟人机交互，ai_crawler和ai_browser_agent就派上用场了。

官方的稳定性和更新保障

作为Oxylabs官方维护的项目，它有持续的更新保证。从GitHub的提交记录看，最近一次更新就在2026年4月23日，版本迭代很活跃。而且提供了多种安装方式（uvx、uv、Smithery），适配不同的使用习惯。

智能的认证与工具暴露机制

服务器会根据你提供的认证信息自动决定暴露哪些工具。只提供Web Scraper API的账号密码，就只显示四个基础采集工具；只提供AI Studio的API Key，就显示四个AI工具；两者都提供，则全部显示。这种设计避免了无用的工具占用界面。

三、适用场景

市场情报与竞品分析

零售品牌可以用它来监控竞争对手的产品价格、库存和评论。例如，你可以让AI“每天定时抓取亚马逊上某款竞品的价格和排名变化”，oxylabs-mcp能绕过电商网站的反爬机制，稳定地提供数据。

AI训练数据的规模化采集

如果你在训练一个垂直领域的模型，需要大量来自特定网站的高质量文本。可以组合使用ai_crawler和ai_scraper来自动爬取整个文档站点或者论坛，并把内容转换成干净的Markdown格式，直接作为训练语料。

实时新闻与舆情监测

新闻聚合应用或者公关公司可以用universal_scraper来监控多个新闻网站的最新报道。由于Oxylabs支持全球的IP节点，甚至可以采集某些有地域限制的新闻网站。

学术研究与数据分析

研究人员需要采集公开数据进行分析时，可以用这些工具来自动化数据收集过程。例如分析不同国家电商平台的价格差异，或者统计社交媒体上的讨论趋势。Oxylabs的代理池能提供来自不同地理位置的视角。

自动化工作流中的网页交互

ai_browser_agent是一个特别有意思的工具。你可以让AI“登录某个网站，导航到特定页面，然后截图保存”。这让它不仅仅是一个采集器，更是一个可以执行复杂浏览器操作的自动化助手。

四、安装教程

前置准备

在使用oxylabs-mcp之前，你需要满足两个条件。首先，确保系统安装了Python环境（3.8或更高版本）。其次，你需要至少拥有以下一种Oxylabs服务的认证信息：

Oxylabs Web Scraper API的账号和密码（提供1周免费试用）
Oxylabs AI Studio的API密钥（提供1000免费积分）

你可以访问Oxylabs官网注册试用账号。完成注册后，在账户后台找到对应的认证信息并记录下来。

安装uv包管理器（推荐方式）

Oxylabs推荐使用uv来管理Python环境和运行这个MCP服务器。uv是一个快速的Python包管理器，安装很简单。

对于macOS和Linux系统，在终端中运行：

curl -LsSf https://astral.sh/uv/install.sh | sh

对于Windows系统，在PowerShell中运行：

powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"

安装完成后，可以运行uv --version来验证是否成功。

配置到Claude Desktop

这是最常用的使用场景。首先找到Claude Desktop的配置文件：

macOS: ~/Library/Application Support/Claude/claude_desktop_config.json
Windows: %APPDATA%\Claude\claude_desktop_config.json

用文本编辑器打开这个JSON文件，添加以下内容。注意根据你拥有的认证信息，保留对应的环境变量，删除不需要的。如果你只有AI Studio的API密钥，就只保留OXYLABS_AI_STUDIO_API_KEY那一行。

{
  "mcpServers": {
    "oxylabs": {
      "command": "uvx",
      "args": ["oxylabs-mcp"],
      "env": {
        "OXYLABS_USERNAME": "你的WebScraper用户名",
        "OXYLABS_PASSWORD": "你的WebScraper密码",
        "OXYLABS_AI_STUDIO_API_KEY": "你的AIStudio API密钥"
      }
    }
  }
}

请务必将示例中的文字替换成你真实的认证信息。如果某项服务你没有开通，请直接删除对应的那一行配置，不要留空值。

保存文件后，完全退出并重启Claude Desktop。现在你就可以在聊天界面中调用Oxylabs的工具了。

配置到Cursor AI编辑器

如果你使用Cursor作为AI编码助手，配置方法类似。打开Cursor，进入Settings → Cursor Settings → MCP。点击“Add new global MCP server”，输入以下配置：

{
  "mcpServers": {
    "oxylabs": {
      "command": "uvx",
      "args": ["oxylabs-mcp"],
      "env": {
        "OXYLABS_USERNAME": "你的用户名",
        "OXYLABS_PASSWORD": "你的密码",
        "OXYLABS_AI_STUDIO_API_KEY": "你的API密钥"
      }
    }
  }
}

通过Smithery一键安装（最简单）

如果你不想手动配置文件，可以通过Smithery服务来自动完成。访问 https://smithery.ai/server/@oxylabs/oxylabs-mcp ，点击“Auto”按钮，按照提示授权即可。Smithery会处理认证信息的传递和配置注入。

五、使用示例

配置完成后，你就可以在AI助手中用自然语言来驱动这些工具了。以下是一些实际的使用案例。

示例一：抓取单个网页为Markdown

这是最基础的操作。假设你想让AI分析一篇网页文章，可以这样说：

“Scrape the content of https://blog.example.com/article-123 and return it as markdown”

AI会调用universal_scraper或ai_scraper工具，几秒钟后返回清理过的Markdown格式内容。你可以接着要求它“基于这个内容写一段摘要”。

示例二：监控Google搜索结果

想要了解某个关键词的搜索排名变化，可以这样命令：

“Search Google for 'best AI coding tools 2026' and give me the top 10 results with titles and URLs”

系统会调用google_search_scraper，返回结构化的搜索结果。由于Oxylabs支持从不同地理位置发出请求，你甚至可以得到特定国家/地区的搜索结果。

示例三：抓取电商产品数据

对于电商分析师来说，这个功能很实用：

“Get the product information for ASIN B0C1234XYZ from Amazon, including price, rating, and availability”

AI会使用amazon_product_scraper，返回产品标题、价格、评分、库存状态等关键数据。而且由于Oxylabs的代理网络，可以绕过亚马逊的反爬机制，稳定获取数据。

示例四：AI驱动的智能爬虫

当你需要从多个相关页面收集信息时，ai_crawler就派上用场了。你可以用自然的语言描述需求：

“Crawl the React documentation site starting from https://react.dev/learn, find all pages about hooks, and return their content as markdown files”

AI会根据你的描述决定爬取哪些页面，并只返回相关内容，而不是整个网站的镜像。

示例五：浏览器自动化与截图

最强大的工具是ai_browser_agent，它可以模拟真人操作浏览器。例如：

“Go to Google Maps, search for 'coffee shops near Central Park', take a screenshot of the results page, and return the top 5 names and addresses”

AI会控制一个真实的浏览器，执行导航、搜索、截图等一系列操作，最后返回你需要的数据。这对于需要交互才能访问的内容非常有效。

六、常见问题

工具调用失败，返回认证错误

这通常是因为环境变量没有正确设置。请检查你的配置文件，确保认证信息是真实有效的，并且没有多余的空格。另外注意：如果你没有某项服务的账号，必须删除对应的环境变量行。保留一个空字符串或者占位符会导致工具暴露但无法工作。

网页抓取结果不完整

有些网站严重依赖JavaScript渲染，传统的HTTP请求获取不到完整内容。这种情况下，可以尝试使用ai_scraper或ai_browser_agent，它们会启动真实的浏览器环境来渲染页面。另外，检查一下目标网站是否有反爬机制，Oxylabs通常能够处理，但某些极度敏感的网站可能需要调整请求参数。

遇到速率限制或配额问题

免费试用账号通常有调用次数或并发限制。如果你超过了限额，工具会返回错误信息。这时可以考虑升级到付费套餐，或者优化你的调用频率，合并多个请求。另外，ai_crawler在爬取多个页面时会依次请求，不会一次性全部发出，有助于避免触发限制。

在Windows上运行时出现路径错误

建议使用uvx方式运行，它对Windows的兼容性最好。如果你要手动指定Python路径，确保路径中没有空格，或者用短路径名。另外，可以尝试在命令提示符中先手动运行uvx oxylabs-mcp，看看是否有明显的错误输出。

如何选择使用哪个工具

这是一个常见的问题。简单来说：抓取单一静态页面用universal_scraper；需要智能解析结构化内容用ai_scraper；爬取多个页面用ai_crawler；需要执行点击、登录等交互操作用ai_browser_agent。对于谷歌和亚马逊这两个特定目标，使用专用的scraper工具效率更高。

日志信息能帮我排查问题

服务器会在notifications/message事件中输出详细的日志，包括请求参数、作业ID和状态、错误信息等。如果你在配置文件中启用了日志，这些信息会显示在客户端的通知面板中，对定位问题非常有帮助。

七、总结

oxylabs-mcp是一个专业级的网页采集解决方案与AI生态的结合。它把Oxylabs多年积累的采集基础设施变成了一套AI可以理解并调用的工具集。对于需要从互联网获取公开数据来增强AI应用能力的开发者来说，这个项目解决了从“想法”到“数据”之间的所有技术难题。

最让人印象深刻的是它的工具设计。八个工具覆盖了从简单到复杂的各种场景，而且AI Studio系列工具非常智能，你甚至不需要了解底层API的参数，只需要用自然语言描述目标即可。这种“声明式”的采集方式，大大降低了使用门槛。

当然，这不是一个完全免费的方案。Oxylabs是商业服务，虽然提供试用积分，但大量使用需要付费。不过考虑到它所解决的问题的复杂性（反爬、渲染、代理、解析），这个成本对于企业和专业用户来说是值得的。如果你只是偶尔抓取几个页面，试用额度可能就足够了。

总的来说，oxylabs-mcp是目前MCP生态中在网页采集领域最成熟、最专业的解决方案之一。如果你是开发者，正在构建需要联网获取数据的AI应用，它值得你认真考虑。

已有 33 条评论

AmandaGreen

I wish there was a tool specifically for social media scraping. That would be a huge market.
MarkAdams

The version updates are frequent. The team pushed two updates just this month for dependency fixes.
LauraBaker

For non-technical users, the Smithery Oauth flow is a lifesaver. No command line needed.
EricNelson

The ai_scraper output as JSON is perfect for feeding into data pipelines. Very considerate design.
DeborahMitchell

Be careful with the ai_crawler on large sites. It can rack up credits quickly without proper prompts.

登录

注册账号