你是否曾想过,如果AI助手不仅能帮你聊天、写代码,还能像真人一样直接操作你的电脑屏幕,会是怎样的体验?它可以帮你自动填写表单、批量处理文件、执行重复的软件测试,甚至在你离开时帮你完成一局游戏。ScreenPilot正是这样一款工具,它为大型语言模型装上了“眼睛”和“双手”,开启了全图形界面自动化的新篇章。
项目基本信息
| 信息项 | 详情 |
|---|---|
| 项目名称 | ScreenPilot |
| GitHub地址 | https://github.com/Mtehabsim/ScreenPilot |
| 项目描述 | Tool that allows the AI to control your device in the same way you do, enabling automation for everything! |
| 作者 | Mtehabsim |
| 开源协议 | Unknown |
| 开源状态 | 公开状态 |
| Languages | Python |
| 支持平台 | Windows / macOS / Linux |
| 最后更新 | 2026-03-25 |
一、项目介绍
ScreenPilot是一个基于模型上下文协议(MCP)的服务器,其核心使命是充当AI模型的“眼睛”和“双手”。它提供了一套完整的屏幕自动化工具包,使LLM能够通过捕获屏幕内容、分析界面元素,并模拟鼠标和键盘操作,来直接与任何图形用户界面进行交互。
核心能力解析
ScreenPilot的功能围绕“看”与“做”展开。在“看”的方面,它通过屏幕捕获功能,让AI能够获取当前屏幕的截图和相关信息。在“做”的方面,它提供了精确的控制能力:
- 鼠标控制:支持移动鼠标到指定坐标、执行左/右键单击、双击等操作。
- 键盘输入:能模拟真人打字、按下特定按键或组合快捷键。
- 滚动操作:可控制界面在不同方向滚动或滚动到特定位置。
更进阶的是,ScreenPilot还提供了元素检测能力,能检查特定UI元素是否存在于屏幕上,并等待其出现。它还支持动作序列,允许AI将多个操作组合成一个连贯的任务流来执行。这些功能共同赋予了AI前所未有的设备操控自由度。
二、核心优势
- 强大的图形界面操控力:ScreenPilot的核心优势在于它让AI突破了命令行的限制,获得了与人类同等的GUI操作能力。这使得自动化不再局限于API接口,而是可以覆盖所有有图形界面的软件。
- 与Claude桌面端无缝集成:项目设计之初就考虑了与Claude AI Desktop的深度协作。通过简单的配置文件修改,就能将ScreenPilot作为MCP服务器接入Claude,让强大的Claude模型直接获得屏幕操控的超能力。
- 功能全面且实用:从基础的鼠标键盘模拟到高级的元素检测和动作序列,ScreenPilot提供的工具集覆盖了绝大多数常见的自动化需求,使其不仅仅是一个概念验证,而是具有实际生产力价值的工具。
- 100% Python实现:项目完全使用Python编写,这为广大的Python开发者提供了极佳的可读性和可修改性。你可以轻松地理解其工作原理,并根据自己的特定需求进行二次开发和功能扩展。
三、适用场景
- 软件自动化测试:无需编写复杂的测试脚本,你可以用自然语言让AI操作软件界面,执行回归测试或探索性测试,自动发现UI层面的问题。
- 重复性办公任务处理:例如,定期从特定网页或内部系统截取数据并填入Excel表格、批量整理文件、自动登录多个账号执行检查等,ScreenPilot可以把你从繁琐的重复劳动中解放出来。
- 教育与演示:教师或技术分享者可以事先“教会”AI一套操作流程,然后在课堂上通过语音指令让AI实时演示软件操作,使教学更加生动直观。
- 辅助功能与趣味实验:对于行动不便的用户,可以通过语音指令控制电脑。开发者也可以用它来做一些有趣的项目,比如让AI自己玩一些简单的图形界面游戏。
四、安装教程
环境准备
ScreenPilot的运行依赖Python环境,请确保你的系统满足要求。
| 工具 | 用途 | 下载/安装方式 |
|---|---|---|
| Python | 运行环境 | [https://python.org/] (版本要求:3.12 或以上) |
| Git | 下载项目代码 | [https://git-scm.com/] |
| Claude AI Desktop | MCP客户端 | 需自行下载安装Claude桌面版应用程序 |
详细安装步骤
请严格按照以下步骤操作,以确保ScreenPilot能被正确配置。
第一步:克隆项目到本地
打开终端或命令提示符,执行以下命令将代码仓库下载到你的计算机:
git clone https://github.com/Mtehabsim/ScreenPilot.git第二步:进入项目目录
cd ScreenPilot第三步:创建并激活虚拟环境
为了避免依赖冲突,建议在虚拟环境中运行项目。
# 创建虚拟环境
python -m venv venv
# 激活虚拟环境 (Windows)
venv\Scripts\activate
# 激活虚拟环境 (macOS / Linux)
source venv/bin/activate第四步:安装项目依赖
ScreenPilot所需的Python库已列在 requirements.txt 文件中,使用pip一键安装:
pip install -r requirements.txt第五步:配置Claude Desktop
这是连接AI与ScreenPilot的关键步骤。
- 打开Claude AI Desktop应用程序。
- 在菜单栏中,依次点击
File->Settings->Developer->Edit Config。 - 系统会打开一个名为
claude_desktop_config.json的配置文件。将以下JSON代码块粘贴到文件中。
{
"mcpServers": {
"device-controll": {
"command": "pathToEnv\\venv\\Scripts\\python.exe",
"args": [
"pathToProject\\ScreenPilot\\main.py"
]
}
}
}第六步:修改配置文件路径
这是安装过程中最关键的一步,你必须将上述配置中的占位符替换为你自己电脑上的绝对路径。
- 将
pathToEnv\\venv\\Scripts\\python.exe替换为你的虚拟环境中Python解释器的完整路径。例如:C:\\Users\\你的用户名\\ScreenPilot\\venv\\Scripts\\python.exe。 - 将
pathToProject\\ScreenPilot\\main.py替换为项目主文件的完整路径。例如:C:\\Users\\你的用户名\\ScreenPilot\\main.py。
注意:Windows路径中的反斜杠\在JSON中需要转义为\\。
第七步:保存并重启Claude
- 保存
claude_desktop_config.json文件。 - 完全退出Claude AI Desktop(在菜单栏选择
File->Exit)。 - 重新启动Claude AI Desktop。此时,ScreenPilot MCP服务器应该已经成功加载。
五、使用示例
安装完成后,你就可以在Claude Desktop中通过自然语言指挥AI操作你的电脑了。以下是一些实际对话示例。
示例一:打开记事本并输入文字
用户: 打开记事本,并输入 "Hello from ScreenPilot!"
AI的思考与操作:
AI会通过ScreenPilot执行一系列动作:
- 调用键盘工具,模拟按下
Win键(或macOS的Command+Space)。 - 输入 "notepad" 并按下
Enter键打开记事本。 - 调用文字输入工具,键入 "Hello from ScreenPilot!"。
示例二:检查特定元素并点击
用户: 检查屏幕上是否出现"确定"按钮,如果有就点击它。
AI的思考与操作:
AI可能会先调用屏幕捕获工具获取当前屏幕图像,然后利用其视觉能力或OCR功能分析图像中是否存在文字"确定"。如果检测到,则会调用鼠标工具,移动到该文字所在的坐标区域并执行单击操作。
示例三:执行一系列自动化操作
用户: 打开浏览器,访问github.com,然后在页面中查找 "Mtehabsim/ScreenPilot" 仓库的链接并点击。
AI的思考与操作:
AI将把这个复杂指令分解为ScreenPilot可执行的动作序列:
- 模拟快捷键打开浏览器。
- 在地址栏输入
github.com并回车。 - 等待页面加载完成(元素检测)。
- 定位到搜索框,输入 "Mtehabsim/ScreenPilot" 并回车。
- 在搜索结果页面中找到对应的仓库链接并点击。
通过这些示例可以看出,你只需用自然语言描述意图,ScreenPilot就能将AI的规划能力转化为对图形界面的精确操作。
六、常见问题
问:我按照步骤配置了,但Claude里提示找不到ScreenPilot工具怎么办?
答:请仔细检查以下几点:
- JSON格式:确认
claude_desktop_config.json文件中的大括号、引号和逗号均为英文半角符号,且没有缺失或多余。 - 绝对路径:再次确认
command和args中的路径是正确无误的绝对路径,且路径中确实存在python.exe和main.py文件。路径中的反斜杠必须转义。 - 重启:修改配置后,必须通过
File -> Exit完全退出Claude,而不是只点击关闭按钮。
问:运行后,AI无法准确点击到我描述的文字或按钮怎么办?
答:这是一个普遍挑战。目前AI对屏幕元素的理解主要依赖于图像分析和OCR(光学字符识别),其准确度受屏幕分辨率、字体、背景复杂度等因素影响。如果遇到点击不准的情况,可以尝试给AI更精确的指令,例如:“点击屏幕右上角的红色‘X’按钮”,或者“在坐标(100, 200)附近查找‘提交’按钮并点击”。
问:使用ScreenPilot时,我需要一直保持Claude桌面端在前台吗?
答:不需要。ScreenPilot的鼠标和键盘模拟作用于整个操作系统层面。即使Claude窗口在后台,它发出的指令(如打开记事本、在浏览器中操作)依然会正常执行,你会在屏幕上看到这些操作的发生。
问:这个工具安全吗?我应该注意什么?
答:ScreenPilot赋予了AI极大的设备控制权,因此在使用时需保持谨慎。建议:
- 在虚拟机或测试机中初次尝试,以避免对工作环境造成意外影响。
- 执行敏感操作(如删除文件、发送邮件)前,留意AI的计划并在执行前进行确认。
- 不要在不信任的AI模型或网络环境中使用此工具。
七、总结
ScreenPilot是一个充满潜力和乐趣的开源项目,它巧妙地将MCP协议与经典的UI自动化技术结合,为AI赋予了实体化的操作能力。虽然它还处于早期阶段,但其清晰的目标、实用的功能以及与Claude Desktop的无缝集成,已经向我们展示了未来人机交互的一种全新范式。
对于追求自动化极致的开发者、热衷于探索AI边界的极客,或仅仅是想体验一把“指挥”AI操作电脑乐趣的用户来说,ScreenPilot都是一个值得你动手尝试的优秀工具。
看演示视频里操作很流畅,怎么我实际用起来有点卡卡的?是电脑配置问题还是网络延迟?
应该不是网络问题,MCP服务器是在本地运行的。卡顿可能因为截图和图像分析比较耗资源,CPU会飙高。
我用的是M1芯片的Mac,运行起来很丝滑。可能是Windows上的某些依赖库性能差点,或者是杀毒软件在扫描。
总而言之,这是一个瑕不掩瑜的酷炫项目。它让我们瞥见了AI作为通用操作代理的可能性,非常期待它的未来发展。