Claude Vision & GPT-4 Vision图像识别工具

你是否曾经希望AI能够直接识别图像内容，描述图片中的物体、场景和文字，而无需手动输入描述？今天要介绍的开源项目Claude Vision & GPT-4 Vision图像识别工具，正是为了实现这个目标而设计的。它使用Anthropic Claude Vision和OpenAI GPT-4 Vision API提供图像识别功能，支持多种图像格式，并通过Tesseract OCR提供可选的文本提取。

项目基本信息

信息项	详情
项目名称	Claude Vision & GPT-4 Vision图像识别工具
GitHub地址	https://github.com/mario-andreschak/mcp-image-recognition
项目描述	使用Anthropic Claude Vision和OpenAI GPT-4 Vision API提供图像识别功能，支持多种图像格式，并通过Tesseract OCR提供可选的文本提取。
作者	mario-andreschak
开源协议	MIT License
开源状态	公开状态
Languages	Python
支持平台	Windows / macOS / Linux
最后更新	2026-04-23

一、项目介绍

Claude Vision & GPT-4 Vision图像识别工具是一个MCP服务器，让AI能够识别和分析图像内容。它支持多种图像格式（JPEG、PNG、GIF、WebP），提供可配置的主备提供方，并可选使用Tesseract OCR进行文本提取。

这个服务器提供了两个核心工具：

describe_image：通过Base64编码的图像进行描述
describe_image_from_file：通过图像文件路径进行描述

二、核心优势

双模型支持

支持Anthropic Claude Vision和OpenAI GPT-4 Vision。

主备切换

可配置主提供方和备用提供方，提高可靠性。

OCR文本提取

可选使用Tesseract OCR提取图像中的文字。

多格式支持

支持JPEG、PNG、GIF、WebP等多种格式。

OpenRouter集成

可通过OpenRouter访问更多模型。

三、适用场景

图像内容理解

让AI理解图片中的物体、场景、人物情绪。

文档OCR识别

从图片中提取文字内容。

无障碍辅助

为视障用户描述图像内容。

内容审核

分析图像内容是否符合规范。

四、安装教程

系统要求

工具	用途	下载/安装方式
Python	运行环境	[https://python.org/] （版本要求：3.8 或更高）
Tesseract OCR	文本提取（可选）	Windows/Linux/macOS安装
API密钥	Anthropic或OpenAI	分别从各平台获取
MCP客户端	如Claude Desktop、Cursor等	根据客户端官网下载

安装步骤

第一步：克隆项目并配置环境

git clone https://github.com/mario-andreschak/mcp-image-recognition.git
cd mcp-image-recognition
cp .env.example .env

第二步：编辑.env文件

ANTHROPIC_API_KEY=你的Anthropic密钥
OPENAI_API_KEY=你的OpenAI密钥
VISION_PROVIDER=anthropic  # 或 openai
FALLBACK_PROVIDER=openai   # 可选备用
ENABLE_OCR=true            # 可选OCR

第三步：构建项目

build.bat  # Windows
# Linux/Mac: 手动运行 python -m image_recognition_server.server

第四步：启动服务器

python -m image_recognition_server.server

五、使用示例

示例1：通过文件路径识别

用户指令：“描述这张图片的内容”

AI会调用describe_image_from_file工具：

{
  "file_path": "/path/to/image.jpg"
}

示例2：通过Base64识别

{
  "image_base64": "base64编码的图像数据",
  "mime_type": "image/jpeg"
}

示例3：使用OpenRouter

配置.env：

OPENAI_API_KEY=你的OpenRouter密钥
OPENAI_BASE_URL=https://openrouter.ai/api/v1
OPENAI_MODEL=anthropic/claude-3.5-sonnet:beta
VISION_PROVIDER=openai

六、配置选项

变量	描述	默认值
ANTHROPIC_API_KEY	Anthropic API密钥	-
OPENAI_API_KEY	OpenAI API密钥	-
VISION_PROVIDER	主视觉提供方	anthropic
FALLBACK_PROVIDER	备用提供方	-
ENABLE_OCR	启用OCR文本提取	false
OPENAI_MODEL	OpenAI模型	gpt-4o-mini

七、常见问题

问题1：API密钥无效

解决方案：检查Anthropic或OpenAI API密钥是否正确。

问题2：OCR不工作

解决方案：安装Tesseract OCR，设置ENABLE_OCR=true。

问题3：图像格式不支持

解决方案：转换为支持的格式（JPEG、PNG、GIF、WebP）。

问题4：主备切换

解决方案：主提供方失败时自动切换到备用。

问题5：OpenRouter配置

解决方案：设置OPENAI_BASE_URL和正确的模型格式。

八、总结

Claude Vision & GPT-4 Vision图像识别工具是一个让AI能够识别和分析图像内容的MCP服务器，支持双模型和OCR。

这个项目的最大价值在于：

双模型支持：Claude和OpenAI视觉
主备切换：提高可靠性
OCR集成：提取图像文字
多格式支持：JPEG、PNG、GIF等
MIT许可证：可自由使用

如果你需要让AI识别图像内容，Claude Vision & GPT-4 Vision图像识别工具是一个非常实用的选择。

登录

注册账号