你是否曾经希望AI能够直接识别图像内容,描述图片中的物体、场景和文字,而无需手动输入描述?今天要介绍的开源项目Claude Vision & GPT-4 Vision图像识别工具,正是为了实现这个目标而设计的。它使用Anthropic Claude Vision和OpenAI GPT-4 Vision API提供图像识别功能,支持多种图像格式,并通过Tesseract OCR提供可选的文本提取。
项目基本信息
| 信息项 | 详情 |
|---|---|
| 项目名称 | Claude Vision & GPT-4 Vision图像识别工具 |
| GitHub地址 | https://github.com/mario-andreschak/mcp-image-recognition |
| 项目描述 | 使用Anthropic Claude Vision和OpenAI GPT-4 Vision API提供图像识别功能,支持多种图像格式,并通过Tesseract OCR提供可选的文本提取。 |
| 作者 | mario-andreschak |
| 开源协议 | MIT License |
| 开源状态 | 公开状态 |
| Languages | Python |
| 支持平台 | Windows / macOS / Linux |
| 最后更新 | 2026-04-23 |
一、项目介绍
Claude Vision & GPT-4 Vision图像识别工具是一个MCP服务器,让AI能够识别和分析图像内容。它支持多种图像格式(JPEG、PNG、GIF、WebP),提供可配置的主备提供方,并可选使用Tesseract OCR进行文本提取。
这个服务器提供了两个核心工具:
describe_image:通过Base64编码的图像进行描述describe_image_from_file:通过图像文件路径进行描述
二、核心优势
双模型支持
支持Anthropic Claude Vision和OpenAI GPT-4 Vision。
主备切换
可配置主提供方和备用提供方,提高可靠性。
OCR文本提取
可选使用Tesseract OCR提取图像中的文字。
多格式支持
支持JPEG、PNG、GIF、WebP等多种格式。
OpenRouter集成
可通过OpenRouter访问更多模型。
三、适用场景
图像内容理解
让AI理解图片中的物体、场景、人物情绪。
文档OCR识别
从图片中提取文字内容。
无障碍辅助
为视障用户描述图像内容。
内容审核
分析图像内容是否符合规范。
四、安装教程
系统要求
| 工具 | 用途 | 下载/安装方式 |
|---|---|---|
| Python | 运行环境 | [https://python.org/] (版本要求:3.8 或更高) |
| Tesseract OCR | 文本提取(可选) | Windows/Linux/macOS安装 |
| API密钥 | Anthropic或OpenAI | 分别从各平台获取 |
| MCP客户端 | 如Claude Desktop、Cursor等 | 根据客户端官网下载 |
安装步骤
第一步:克隆项目并配置环境
git clone https://github.com/mario-andreschak/mcp-image-recognition.git
cd mcp-image-recognition
cp .env.example .env第二步:编辑.env文件
ANTHROPIC_API_KEY=你的Anthropic密钥
OPENAI_API_KEY=你的OpenAI密钥
VISION_PROVIDER=anthropic # 或 openai
FALLBACK_PROVIDER=openai # 可选备用
ENABLE_OCR=true # 可选OCR第三步:构建项目
build.bat # Windows
# Linux/Mac: 手动运行 python -m image_recognition_server.server第四步:启动服务器
python -m image_recognition_server.server五、使用示例
示例1:通过文件路径识别
用户指令:“描述这张图片的内容”
AI会调用describe_image_from_file工具:
{
"file_path": "/path/to/image.jpg"
}示例2:通过Base64识别
{
"image_base64": "base64编码的图像数据",
"mime_type": "image/jpeg"
}示例3:使用OpenRouter
配置.env:
OPENAI_API_KEY=你的OpenRouter密钥
OPENAI_BASE_URL=https://openrouter.ai/api/v1
OPENAI_MODEL=anthropic/claude-3.5-sonnet:beta
VISION_PROVIDER=openai六、配置选项
| 变量 | 描述 | 默认值 |
|---|---|---|
| ANTHROPIC_API_KEY | Anthropic API密钥 | - |
| OPENAI_API_KEY | OpenAI API密钥 | - |
| VISION_PROVIDER | 主视觉提供方 | anthropic |
| FALLBACK_PROVIDER | 备用提供方 | - |
| ENABLE_OCR | 启用OCR文本提取 | false |
| OPENAI_MODEL | OpenAI模型 | gpt-4o-mini |
七、常见问题
问题1:API密钥无效
解决方案:检查Anthropic或OpenAI API密钥是否正确。
问题2:OCR不工作
解决方案:安装Tesseract OCR,设置ENABLE_OCR=true。
问题3:图像格式不支持
解决方案:转换为支持的格式(JPEG、PNG、GIF、WebP)。
问题4:主备切换
解决方案:主提供方失败时自动切换到备用。
问题5:OpenRouter配置
解决方案:设置OPENAI_BASE_URL和正确的模型格式。
八、总结
Claude Vision & GPT-4 Vision图像识别工具是一个让AI能够识别和分析图像内容的MCP服务器,支持双模型和OCR。
这个项目的最大价值在于:
- 双模型支持:Claude和OpenAI视觉
- 主备切换:提高可靠性
- OCR集成:提取图像文字
- 多格式支持:JPEG、PNG、GIF等
- MIT许可证:可自由使用
如果你需要让AI识别图像内容,Claude Vision & GPT-4 Vision图像识别工具是一个非常实用的选择。
AI识别图片内容,很强大。
713查看量,这个项目很实用。
支持Claude和OpenAI双模型。
主备切换提高可靠性。
OCR提取文字很实用。