你是否曾经希望AI能够直接识别图像内容,描述图片中的物体、场景和文字,而无需手动输入描述?今天要介绍的开源项目Claude Vision & GPT-4 Vision图像识别工具,正是为了实现这个目标而设计的。它使用Anthropic Claude Vision和OpenAI GPT-4 Vision API提供图像识别功能,支持多种图像格式,并通过Tesseract OCR提供可选的文本提取。

项目基本信息

信息项详情
项目名称Claude Vision & GPT-4 Vision图像识别工具
GitHub地址https://github.com/mario-andreschak/mcp-image-recognition
项目描述使用Anthropic Claude Vision和OpenAI GPT-4 Vision API提供图像识别功能,支持多种图像格式,并通过Tesseract OCR提供可选的文本提取。
作者mario-andreschak
开源协议MIT License
开源状态公开状态
LanguagesPython
支持平台Windows / macOS / Linux
最后更新2026-04-23

一、项目介绍

Claude Vision & GPT-4 Vision图像识别工具是一个MCP服务器,让AI能够识别和分析图像内容。它支持多种图像格式(JPEG、PNG、GIF、WebP),提供可配置的主备提供方,并可选使用Tesseract OCR进行文本提取。

这个服务器提供了两个核心工具:

  • describe_image:通过Base64编码的图像进行描述
  • describe_image_from_file:通过图像文件路径进行描述

二、核心优势

双模型支持

支持Anthropic Claude Vision和OpenAI GPT-4 Vision。

主备切换

可配置主提供方和备用提供方,提高可靠性。

OCR文本提取

可选使用Tesseract OCR提取图像中的文字。

多格式支持

支持JPEG、PNG、GIF、WebP等多种格式。

OpenRouter集成

可通过OpenRouter访问更多模型。

三、适用场景

图像内容理解

让AI理解图片中的物体、场景、人物情绪。

文档OCR识别

从图片中提取文字内容。

无障碍辅助

为视障用户描述图像内容。

内容审核

分析图像内容是否符合规范。

四、安装教程

系统要求

工具用途下载/安装方式
Python运行环境[https://python.org/] (版本要求:3.8 或更高)
Tesseract OCR文本提取(可选)Windows/Linux/macOS安装
API密钥Anthropic或OpenAI分别从各平台获取
MCP客户端如Claude Desktop、Cursor等根据客户端官网下载

安装步骤

第一步:克隆项目并配置环境

git clone https://github.com/mario-andreschak/mcp-image-recognition.git
cd mcp-image-recognition
cp .env.example .env

第二步:编辑.env文件

ANTHROPIC_API_KEY=你的Anthropic密钥
OPENAI_API_KEY=你的OpenAI密钥
VISION_PROVIDER=anthropic  # 或 openai
FALLBACK_PROVIDER=openai   # 可选备用
ENABLE_OCR=true            # 可选OCR

第三步:构建项目

build.bat  # Windows
# Linux/Mac: 手动运行 python -m image_recognition_server.server

第四步:启动服务器

python -m image_recognition_server.server

五、使用示例

示例1:通过文件路径识别

用户指令:“描述这张图片的内容”

AI会调用describe_image_from_file工具:

{
  "file_path": "/path/to/image.jpg"
}

示例2:通过Base64识别

{
  "image_base64": "base64编码的图像数据",
  "mime_type": "image/jpeg"
}

示例3:使用OpenRouter

配置.env

OPENAI_API_KEY=你的OpenRouter密钥
OPENAI_BASE_URL=https://openrouter.ai/api/v1
OPENAI_MODEL=anthropic/claude-3.5-sonnet:beta
VISION_PROVIDER=openai

六、配置选项

变量描述默认值
ANTHROPIC_API_KEYAnthropic API密钥-
OPENAI_API_KEYOpenAI API密钥-
VISION_PROVIDER主视觉提供方anthropic
FALLBACK_PROVIDER备用提供方-
ENABLE_OCR启用OCR文本提取false
OPENAI_MODELOpenAI模型gpt-4o-mini

七、常见问题

问题1:API密钥无效

解决方案:检查Anthropic或OpenAI API密钥是否正确。

问题2:OCR不工作

解决方案:安装Tesseract OCR,设置ENABLE_OCR=true。

问题3:图像格式不支持

解决方案:转换为支持的格式(JPEG、PNG、GIF、WebP)。

问题4:主备切换

解决方案:主提供方失败时自动切换到备用。

问题5:OpenRouter配置

解决方案:设置OPENAI_BASE_URL和正确的模型格式。

八、总结

Claude Vision & GPT-4 Vision图像识别工具是一个让AI能够识别和分析图像内容的MCP服务器,支持双模型和OCR。

这个项目的最大价值在于:

  1. 双模型支持:Claude和OpenAI视觉
  2. 主备切换:提高可靠性
  3. OCR集成:提取图像文字
  4. 多格式支持:JPEG、PNG、GIF等
  5. MIT许可证:可自由使用

如果你需要让AI识别图像内容,Claude Vision & GPT-4 Vision图像识别工具是一个非常实用的选择。

标签: 开发者工具

已有 34 条评论

    1. UlyssesUse UlyssesUse

      作为AI开发者,这个工具很实用。

    2. VeraVerify VeraVerify

      希望未来能支持视频分析。

    3. WillWait WillWait

      已经加星,期待功能完善。

    4. XenaXray XenaXray

      MIT协议开源,可以自由使用。

    5. YaleYarn YaleYarn

      和纯视觉API相比,这个更AI原生。