想象一下,你正在用AI助手分析一家公司的商业模式。你需要从它的官网获取产品介绍,从新闻网站收集媒体报道,从论坛抓取用户评价,甚至还要搜索竞争对手的信息。手动打开十几个网页,复制粘贴内容,然后再整理给AI,这个过程既繁琐又容易遗漏。

现在,有一个专业的解决方案可以把这一切自动化。olostep-mcp-server是一个MCP服务器,它连接了Olostep这个被顶级AI公司使用的网页采集基础设施。配置好之后,你只需要用自然语言告诉AI你的需求,比如“帮我抓取这个网站的所有博客文章,提取标题和发布日期”,它就会自动完成从发现URL到提取内容的整个流程。

项目基本信息

信息项详情
项目名称olostep-mcp-server
GitHub地址https://github.com/olostep/olostep-mcp-server
项目描述MCP server for Olostep — the web scraping, crawling, and search infrastructure used by top AI companies. Gives any MCP-compatible AI agent the ability to scrape, crawl, batch-extract, and search the web in real time.
作者olostep
开源协议MIT License
开源状态公开状态
LanguagesTypeScript 78.8%, JavaScript 11.6%, Shell 7.1%, Dockerfile 2.5%
支持平台Windows / macOS / Linux
最后更新2026-04-22

一、项目介绍

olostep-mcp-server是一个MCP协议的服务器实现,它把Olostep强大的网页采集能力封装成了AI可以直接调用的工具。Olostep本身是一个专业的网页采集、爬取和搜索基础设施,被许多顶级AI公司所使用。而这个MCP服务器则是连接AI模型(如Claude、Cursor等)和Olostep服务的桥梁。

这个服务器提供了十个核心工具,覆盖了从简单抓取到复杂爬虫的各种场景:

scrape_website:抓取单个网页的内容。你可以选择输出格式(HTML、Markdown、JSON或纯文本),可以指定地理位置(例如从美国IP访问),还可以设置等待时间让JavaScript页面完全加载。此外,它还支持使用预定义的解析器,比如专门解析亚马逊产品页的@olostep/amazon-product

search_web:执行网络搜索并返回结构化的结果。这不是AI生成的答案,而是基于解析器的原始搜索结果,适合需要客观数据而不是AI总结的场景。

answers:这是AI驱动的智能搜索。你提出一个问题或任务,它会搜索网络并用AI生成带引用来源的答案。最强大的是,你可以用json参数指定输出的结构,比如“返回一个包含公司名称和市值的列表”,它就会返回格式化的JSON。

batch_scrape_urls:批量抓取,一次可以处理多达1万个URL。每个URL都可以有一个自定义的ID,方便你后续识别。提交后会返回一个batch_id,你需要用另一个工具来获取结果。

get_batch_results:查询批量抓取任务的状态并获取结果。因为批量任务可能耗时较长,它是异步处理的。

create_crawl:启动一个自动化的爬虫任务。给它一个起始URL,它会自动发现链接并爬取整个网站,你可以限制最大页面数。返回一个crawl_id用于后续查询。

get_crawl_results:查询爬虫任务的状态并获取爬取到的页面内容。爬虫是异步运行的,你需要用这个工具轮询结果。

create_map:发现网站上的所有URL。你可以用搜索查询来过滤,或者用包含/排除模式来限定范围。比如只提取博客部分,排除管理后台。

get_webpage_content:这是一个简化版的抓取工具,专门用于快速获取Markdown格式的内容。它不会返回JSON metadata,直接给你干净的文本。

get_website_urls:在一个网站内搜索相关URL,并按相关性排序。非常适合在深入抓取之前先发现目标页面。

这些工具组合在一起,等于给AI装上了一套完整的网页采集工具箱。从单页抓取到全站爬虫,从简单搜索到AI问答,从少量数据到万级批量,都能应对。

二、核心优势

企业级的基础设施

Olostep本身就是被顶级AI公司信任的采集服务商。使用这个MCP服务器,你等于站在了巨人的肩膀上。不需要自己维护代理池、处理反爬策略、管理请求队列,这些复杂的事情都交给了专业服务。

多种部署方式的灵活性

这个项目提供了非常灵活的连接方式。你可以使用Olostep托管的远程端点(https://mcp.olostep.com/mcp),零安装直接使用,通过Bearer token认证。也可以本地运行,支持npx一键执行、npm全局安装,还有官方Docker镜像。无论你喜欢轻量级还是完全本地化,都有对应的选项。

异步任务的完善设计

批量抓取和全站爬虫都可能需要较长时间。这个服务器的设计很周到:提交任务后立即返回一个ID,然后你通过另一个工具来轮询状态。这种模式避免了长时间等待导致的超时,也让你可以在任务完成后才处理结果。

AI友好的输出格式

它非常懂AI需要什么。Markdown是默认的输出格式,干净且结构清晰。answers工具甚至可以让你自定义JSON输出结构,这让后续的数据处理变得异常简单。你告诉AI“给我一个包含标题、价格、库存的列表”,它就能直接返回可用的JSON。

精准的网站映射能力

create_map和get_website_urls这两个工具很有特色。它们不是为了抓取内容,而是为了发现内容的位置。在你决定大规模爬取之前,可以先探索网站的URL结构,用搜索查询找出最相关的页面,甚至可以基于URL模式进行筛选。这节省了大量的带宽和处理时间。

三、适用场景

AI训练数据的规模化采集

如果你在训练一个垂直领域的语言模型,需要大量特定类型的数据,可以用batch_scrape_urls一次性提交数千个URL。配合预定义的解析器,可以自动提取出所需的结构化信息,高效地构建训练数据集。

实时信息的检索与问答

answers工具特别适合需要最新信息的场景。你可以让AI“搜索过去24小时内关于某个产品的负面评价,并总结主要问题”。它会实时搜索网络,生成带引用的答案。这对于舆情监测、竞品分析等场景非常有用。

全站文档的备份与迁移

当你想把一个开源的文档站点完整保存到本地时,可以用create_crawl从文档首页开始爬取。设置好max_pages和过滤器,它就能把整个文档树抓取下来,转换成Markdown格式,然后你可以直接导入到Obsidian或Notion中。

电商数据的监控

配合Amazon等网站的专用解析器,你可以定期抓取产品页面的价格、库存、评分等信息。batch_scrape_urls很适合这种场景:维护一个产品URL列表,每天提交一次批量任务,然后分析价格变化趋势。

SEO与内容策略研究

用create_map可以完整地发现一个竞争对手网站的所有公开URL。然后你可以分析他们的内容结构、博客发布频率、哪些页面获得了最多的链接(通过页面间的引用关系判断)。这些数据对于制定SEO策略很有价值。

法律与合规性的监测

律师事务所或合规部门可以用search_web和answers来监控特定法规的变更、相关案件的新闻报道。设置好关键词和国家/地区,就可以持续获取相关信息。

四、安装教程

前置准备

在使用之前,你需要一个Olostep API密钥。访问Olostep官网(www.olostep.com)注册账号,在控制台中获取API密钥。Olostep通常提供免费试用额度,你可以先测试功能。

最推荐的方式:使用远程端点(零安装)

这是最简单的方法,不需要在本地安装任何东西。只需要在你使用的客户端中配置MCP服务器指向远程端点。

对于Cursor用户,在项目的根目录下创建或编辑.cursor/mcp.json文件:

{
  "mcpServers": {
    "olostep": {
      "url": "https://mcp.olostep.com/mcp",
      "headers": {
        "Authorization": "Bearer YOUR_API_KEY_HERE"
      }
    }
  }
}

对于Claude Desktop用户,编辑配置文件(macOS位于~/Library/Application Support/Claude/claude_desktop_config.json,Windows位于%APPDATA%\Claude\claude_desktop_config.json):

{
  "mcpServers": {
    "mcp-server-olostep": {
      "command": "npx",
      "args": ["-y", "olostep-mcp"],
      "env": {
        "OLOSTEP_API_KEY": "YOUR_API_KEY_HERE"
      }
    }
  }
}

保存文件后,完全退出并重启Claude Desktop。

对于VS Code用户,在项目根目录下创建.vscode/mcp.json

{
  "servers": {
    "olostep": {
      "type": "http",
      "url": "https://mcp.olostep.com/mcp",
      "headers": {
        "Authorization": "Bearer YOUR_API_KEY_HERE"
      }
    }
  }
}

使用Docker(适合喜欢容器化的用户)

如果你已经安装Docker,可以通过以下命令拉取并运行:

docker pull olostep/mcp-server
docker run -i --rm -e OLOSTEP_API_KEY="your-api-key" olostep/mcp-server

然后在客户端的配置中,使用docker命令来启动服务器。以Claude Desktop为例:

{
  "mcpServers": {
    "olostep": {
      "command": "docker",
      "args": [
        "run", "-i", "--rm",
        "-e", "OLOSTEP_API_KEY=YOUR_API_KEY_HERE",
        "olostep/mcp-server"
      ]
    }
  }
}

使用npx(无需安装包)

如果你有Node.js环境,可以用npx直接运行,跳过本地安装步骤。在Claude Desktop的配置中:

{
  "mcpServers": {
    "olostep": {
      "command": "npx",
      "args": ["-y", "olostep-mcp"],
      "env": {
        "OLOSTEP_API_KEY": "YOUR_API_KEY_HERE"
      }
    }
  }
}

对于Windows PowerShell,环境变量的设置方式稍有不同,但npx命令是一样的。

通过Smithery一键安装

Smithery是一个MCP服务器的市场。对于Claude Desktop用户,你可以在终端中运行:

npx -y @smithery/cli install @olostep/olostep-mcp-server --client claude

它会自动完成下载和配置。

五、使用示例

配置完成后,你就可以在AI助手中用自然语言调用这些工具了。注意,你不需要手动编写JSON参数,只需要描述你的需求,AI会自动选择合适的工具并填充参数。

示例一:抓取单个网页

你可以这样告诉AI:

“Scrape the content of https://docs.olostep.com/introduction in markdown format”

AI会调用scrape_website工具,返回干净的Markdown内容。你接着可以说:“把这个内容保存成一个本地文件”,AI会响应。

示例二:用AI答案进行研究

“Use the answers tool to research: What are the main features of Olostep MCP server compared to other scraping solutions? Return the answer as JSON with an array of features, each containing a name and a description.”

这里你指定了输出格式,answers工具会返回类似下面的结构:

{
  "features": [
    {
      "name": "Batch scraping",
      "description": "Can scrape up to 10,000 URLs simultaneously"
    }
  ]
}

示例三:批量抓取产品信息

假设你有一个CSV文件,里面是100个产品的URL。你可以这样请求:

“I have a list of 100 product URLs from Amazon. Please use batch_scrape_urls to scrape them all with the Amazon product parser. Use markdown as the output format, and assign the ASIN as the custom_id for each URL.”

AI会构造一个批量任务提交给Olostep,返回一个batch_id。然后你可以继续问:“What is the status of batch job [batch_id]?” 来查询进度。

示例四:发现并爬取整个网站

你想完整地爬取一个文档站点,但不确定它的URL结构。你可以分两步走:

“First, use create_map to discover all URLs under https://example.com/docs. Only include URLs that match the pattern '/docs/**' and exclude anything with '/api/'. Then, based on the map results, create a crawl starting from the root of the docs section with max_pages set to 50.”

AI会先调用create_map探索站点结构,然后用create_crawl启动爬虫,最后你再用get_crawl_results获取内容。

示例五:搜索并分析

对于快速的信息检索,可以用search_web获取原始结果,或者用answers获取AI加工过的答案:

“Search the web for 'latest trends in serverless computing 2026' and give me the top 5 results with titles and URLs.”

或者更高级的:

“Use answers to find out the current market share of major cloud providers. Return the result as a JSON object with provider names as keys and market share percentages as values.”

六、常见问题

API Key无效或认证失败

请确认你在配置中正确设置了OLOSTEP_API_KEY环境变量或Authorization头。注意不要有多余的空格。另外,检查一下你的Olostep账户是否还有剩余额度,免费试用可能有限制。

抓取或搜索没有返回结果

可能的原因有几个。目标网站可能封锁了Olostep的IP(虽然Olostep会轮换代理,但极少数网站可能有特别严格的封锁)。也可能是等待时间设置太短,JavaScript页面没有完全加载。对于SPA应用,尝试增加wait_before_scraping参数到2000毫秒或更多。另外,检查一下URL是否完整且可公开访问。

批量任务或爬虫任务一直处于处理中状态

batch_scrape_urls和create_crawl是异步任务,提交后需要轮询结果。大型任务可能需要几分钟甚至更长时间。建议使用get_batch_resultsget_crawl_results每隔10-30秒查询一次状态。对于超过1万URL的批量任务,可能需要更长时间。

answers返回的结果不符合预期的JSON结构

answers工具的json参数既接受一个JSON Schema对象,也接受一段自然语言描述。如果你给了自然语言描述,AI会尽力理解并生成相应的结构,但可能不够精确。为了稳定获得特定结构,建议提供一个示例JSON对象作为json参数的值。

{
  "json": {
    "company": "string",
    "revenue": "number",
    "growth_rate": "string"
  }
}

create_map返回的URL数量很少或不相关

检查search_query是否准确。这个查询是用来排序URL相关性的,map工具会返回整个网站的URL但按相关性排序。如果你想获取所有URL,可以省略search_query参数。另外,include_url_patternsexclude_url_patterns支持glob模式,比如/blog/*匹配博客列表页,/blog/**匹配所有博客文章。

在不同客户端之间切换配置很麻烦

建议使用远程端点方式(https://mcp.olostep.com/mcp),因为所有客户端都支持HTTP类型的MCP服务器。你只需要复制同样的URL和Authorization头配置,不需要重复设置环境变量或构建步骤。

七、总结

olostep-mcp-server是目前MCP生态中功能最完整、最专业的网页采集解决方案之一。它把Olostep强大的采集能力与AI模型无缝地连接起来,让“AI自主获取实时网络信息”这个愿景变成了现实。

我最欣赏的是这个项目的设计思路。它没有试图把一切功能都塞进一个单一的工具,而是提供了十个语义清晰、各司其职的工具。从简单的单页抓取到复杂的全站爬虫,从同步查询到异步批处理,每个场景都有对应的最佳工具。而且它充分考虑了AI的使用习惯,Markdown输出、自定义JSON结构、远程零安装端点,这些都是为了让人与AI的交互更顺畅。

当然,这不是一个完全免费的方案。Olostep是商业服务,虽然提供免费试用额度,但大规模使用需要付费。不过考虑到它所解决的问题的复杂性(动态渲染、反爬绕过、全球代理、智能解析),这个成本对于需要可靠网页采集能力的团队来说是完全合理的。而且MCP服务器本身是开源的(ISC许可证),你可以在自己的基础设施上运行它。

如果你是AI应用开发者,正在寻找一种让AI获取实时网络信息的方式,或者你是数据科学家,需要自动化采集网络数据,olostep-mcp-server值得你花时间研究。

标签: 内容抓取

已有 33 条评论

    1. AlexJohnson AlexJohnson

      This is the most comprehensive MCP scraper I've seen. The batch scraping of 10k URLs is insane.

    2. SarahMiller SarahMiller

      The remote endpoint setup took me 2 minutes. No local installation is such a time saver.

    3. MikeBrown MikeBrown

      I tested the answers tool with custom JSON schema and it returned perfectly structured data. Game changer for my data pipeline.

    4. EmilyWilson EmilyWilson

      The create_crawl feature is awesome but be careful with max_pages. I accidentally crawled 500 pages on my first try.

    5. DavidLee DavidLee

      Does this work with Chinese websites? The geo-routing to US might not help for sites that block foreign IPs.