ScreenPilot

你是否曾想过，如果AI助手不仅能帮你聊天、写代码，还能像真人一样直接操作你的电脑屏幕，会是怎样的体验？它可以帮你自动填写表单、批量处理文件、执行重复的软件测试，甚至在你离开时帮你完成一局游戏。ScreenPilot正是这样一款工具，它为大型语言模型装上了“眼睛”和“双手”，开启了全图形界面自动化的新篇章。

项目基本信息

信息项	详情
项目名称	ScreenPilot
GitHub地址	https://github.com/Mtehabsim/ScreenPilot
项目描述	Tool that allows the AI to control your device in the same way you do, enabling automation for everything!
作者	Mtehabsim
开源协议	Unknown
开源状态	公开状态
Languages	Python
支持平台	Windows / macOS / Linux
最后更新	2026-03-25

一、项目介绍

ScreenPilot是一个基于模型上下文协议（MCP）的服务器，其核心使命是充当AI模型的“眼睛”和“双手”。它提供了一套完整的屏幕自动化工具包，使LLM能够通过捕获屏幕内容、分析界面元素，并模拟鼠标和键盘操作，来直接与任何图形用户界面进行交互。

核心能力解析

ScreenPilot的功能围绕“看”与“做”展开。在“看”的方面，它通过屏幕捕获功能，让AI能够获取当前屏幕的截图和相关信息。在“做”的方面，它提供了精确的控制能力：

鼠标控制：支持移动鼠标到指定坐标、执行左/右键单击、双击等操作。
键盘输入：能模拟真人打字、按下特定按键或组合快捷键。
滚动操作：可控制界面在不同方向滚动或滚动到特定位置。

更进阶的是，ScreenPilot还提供了元素检测能力，能检查特定UI元素是否存在于屏幕上，并等待其出现。它还支持动作序列，允许AI将多个操作组合成一个连贯的任务流来执行。这些功能共同赋予了AI前所未有的设备操控自由度。

二、核心优势

强大的图形界面操控力：ScreenPilot的核心优势在于它让AI突破了命令行的限制，获得了与人类同等的GUI操作能力。这使得自动化不再局限于API接口，而是可以覆盖所有有图形界面的软件。
与Claude桌面端无缝集成：项目设计之初就考虑了与Claude AI Desktop的深度协作。通过简单的配置文件修改，就能将ScreenPilot作为MCP服务器接入Claude，让强大的Claude模型直接获得屏幕操控的超能力。
功能全面且实用：从基础的鼠标键盘模拟到高级的元素检测和动作序列，ScreenPilot提供的工具集覆盖了绝大多数常见的自动化需求，使其不仅仅是一个概念验证，而是具有实际生产力价值的工具。
100% Python实现：项目完全使用Python编写，这为广大的Python开发者提供了极佳的可读性和可修改性。你可以轻松地理解其工作原理，并根据自己的特定需求进行二次开发和功能扩展。

三、适用场景

软件自动化测试：无需编写复杂的测试脚本，你可以用自然语言让AI操作软件界面，执行回归测试或探索性测试，自动发现UI层面的问题。
重复性办公任务处理：例如，定期从特定网页或内部系统截取数据并填入Excel表格、批量整理文件、自动登录多个账号执行检查等，ScreenPilot可以把你从繁琐的重复劳动中解放出来。
教育与演示：教师或技术分享者可以事先“教会”AI一套操作流程，然后在课堂上通过语音指令让AI实时演示软件操作，使教学更加生动直观。
辅助功能与趣味实验：对于行动不便的用户，可以通过语音指令控制电脑。开发者也可以用它来做一些有趣的项目，比如让AI自己玩一些简单的图形界面游戏。

四、安装教程

环境准备

ScreenPilot的运行依赖Python环境，请确保你的系统满足要求。

工具	用途	下载/安装方式
Python	运行环境	[https://python.org/] （版本要求：3.12 或以上）
Git	下载项目代码	[https://git-scm.com/]
Claude AI Desktop	MCP客户端	需自行下载安装Claude桌面版应用程序

详细安装步骤

请严格按照以下步骤操作，以确保ScreenPilot能被正确配置。

第一步：克隆项目到本地
打开终端或命令提示符，执行以下命令将代码仓库下载到你的计算机：

git clone https://github.com/Mtehabsim/ScreenPilot.git

第二步：进入项目目录

cd ScreenPilot

第三步：创建并激活虚拟环境
为了避免依赖冲突，建议在虚拟环境中运行项目。

# 创建虚拟环境
python -m venv venv

# 激活虚拟环境 (Windows)
venv\Scripts\activate

# 激活虚拟环境 (macOS / Linux)
source venv/bin/activate

第四步：安装项目依赖
ScreenPilot所需的Python库已列在 requirements.txt 文件中，使用pip一键安装：

pip install -r requirements.txt

第五步：配置Claude Desktop
这是连接AI与ScreenPilot的关键步骤。

打开Claude AI Desktop应用程序。
在菜单栏中，依次点击 File -> Settings -> Developer -> Edit Config。
系统会打开一个名为 claude_desktop_config.json 的配置文件。将以下JSON代码块粘贴到文件中。

{
    "mcpServers": {
        "device-controll": {
            "command": "pathToEnv\\venv\\Scripts\\python.exe",
            "args": [
                "pathToProject\\ScreenPilot\\main.py"
            ]
        }
    }
}

第六步：修改配置文件路径
这是安装过程中最关键的一步，你必须将上述配置中的占位符替换为你自己电脑上的绝对路径。

将 pathToEnv\\venv\\Scripts\\python.exe 替换为你的虚拟环境中Python解释器的完整路径。例如：C:\\Users\\你的用户名\\ScreenPilot\\venv\\Scripts\\python.exe。
将 pathToProject\\ScreenPilot\\main.py 替换为项目主文件的完整路径。例如：C:\\Users\\你的用户名\\ScreenPilot\\main.py。
注意：Windows路径中的反斜杠 \ 在JSON中需要转义为 \\。

第七步：保存并重启Claude

保存 claude_desktop_config.json 文件。
完全退出Claude AI Desktop（在菜单栏选择 File -> Exit）。
重新启动Claude AI Desktop。此时，ScreenPilot MCP服务器应该已经成功加载。

五、使用示例

安装完成后，你就可以在Claude Desktop中通过自然语言指挥AI操作你的电脑了。以下是一些实际对话示例。

示例一：打开记事本并输入文字

用户: 打开记事本，并输入 "Hello from ScreenPilot!"

AI的思考与操作:
AI会通过ScreenPilot执行一系列动作：

调用键盘工具，模拟按下 Win 键（或macOS的 Command+Space）。
输入 "notepad" 并按下 Enter 键打开记事本。
调用文字输入工具，键入 "Hello from ScreenPilot!"。

示例二：检查特定元素并点击

用户: 检查屏幕上是否出现"确定"按钮，如果有就点击它。

AI的思考与操作:
AI可能会先调用屏幕捕获工具获取当前屏幕图像，然后利用其视觉能力或OCR功能分析图像中是否存在文字"确定"。如果检测到，则会调用鼠标工具，移动到该文字所在的坐标区域并执行单击操作。

示例三：执行一系列自动化操作

用户: 打开浏览器，访问github.com，然后在页面中查找 "Mtehabsim/ScreenPilot" 仓库的链接并点击。

AI的思考与操作:
AI将把这个复杂指令分解为ScreenPilot可执行的动作序列：

模拟快捷键打开浏览器。
在地址栏输入 github.com 并回车。
等待页面加载完成（元素检测）。
定位到搜索框，输入 "Mtehabsim/ScreenPilot" 并回车。
在搜索结果页面中找到对应的仓库链接并点击。

通过这些示例可以看出，你只需用自然语言描述意图，ScreenPilot就能将AI的规划能力转化为对图形界面的精确操作。

六、常见问题

问：我按照步骤配置了，但Claude里提示找不到ScreenPilot工具怎么办？

答：请仔细检查以下几点：

JSON格式：确认 claude_desktop_config.json 文件中的大括号、引号和逗号均为英文半角符号，且没有缺失或多余。
绝对路径：再次确认 command 和 args 中的路径是正确无误的绝对路径，且路径中确实存在 python.exe 和 main.py 文件。路径中的反斜杠必须转义。
重启：修改配置后，必须通过 File -> Exit 完全退出Claude，而不是只点击关闭按钮。

问：运行后，AI无法准确点击到我描述的文字或按钮怎么办？

答：这是一个普遍挑战。目前AI对屏幕元素的理解主要依赖于图像分析和OCR（光学字符识别），其准确度受屏幕分辨率、字体、背景复杂度等因素影响。如果遇到点击不准的情况，可以尝试给AI更精确的指令，例如：“点击屏幕右上角的红色‘X’按钮”，或者“在坐标(100, 200)附近查找‘提交’按钮并点击”。

问：使用ScreenPilot时，我需要一直保持Claude桌面端在前台吗？

答：不需要。ScreenPilot的鼠标和键盘模拟作用于整个操作系统层面。即使Claude窗口在后台，它发出的指令（如打开记事本、在浏览器中操作）依然会正常执行，你会在屏幕上看到这些操作的发生。

问：这个工具安全吗？我应该注意什么？

答：ScreenPilot赋予了AI极大的设备控制权，因此在使用时需保持谨慎。建议：

在虚拟机或测试机中初次尝试，以避免对工作环境造成意外影响。
执行敏感操作（如删除文件、发送邮件）前，留意AI的计划并在执行前进行确认。
不要在不信任的AI模型或网络环境中使用此工具。

七、总结

ScreenPilot是一个充满潜力和乐趣的开源项目，它巧妙地将MCP协议与经典的UI自动化技术结合，为AI赋予了实体化的操作能力。虽然它还处于早期阶段，但其清晰的目标、实用的功能以及与Claude Desktop的无缝集成，已经向我们展示了未来人机交互的一种全新范式。

对于追求自动化极致的开发者、热衷于探索AI边界的极客，或仅仅是想体验一把“指挥”AI操作电脑乐趣的用户来说，ScreenPilot都是一个值得你动手尝试的优秀工具。

登录

注册账号