UI-TARS 桌面版

你是否曾经希望AI能够像人类一样控制电脑，通过自然语言完成各种操作？今天要介绍的开源项目UI-TARS桌面版，正是为了实现这个目标而设计的。它是一款基于视觉语言模型的图形用户界面代理应用程序，允许用户通过自然语言控制计算机，支持跨平台操作，并提供精确的鼠标和键盘控制、截图与视觉识别功能。

项目基本信息

信息项	详情
项目名称	UI-TARS 桌面版
GitHub地址	https://github.com/bytedance/UI-TARS-desktop
项目描述	UI-TARS 桌面版是一款基于视觉语言模型的图形用户界面代理应用程序，允许用户通过自然语言控制计算机。
作者	bytedance
开源协议	Apache 2.0
开源状态	公开状态
Languages	TypeScript, Python
支持平台	Windows / macOS / Browser
最后更新	2026-04-23

一、项目介绍

UI-TARS桌面版是字节跳动开源的GUI代理应用程序，基于UI-TARS视觉语言模型。它允许用户使用自然语言控制计算机，提供精确的鼠标和键盘控制、截图与视觉识别功能。

这个应用程序的核心特性包括：

由视觉语言模型驱动的自然语言控制
截图和视觉识别支持
精确的鼠标和键盘控制
跨平台支持（Windows/MacOS/浏览器）
实时反馈和状态显示
私密且安全——完全本地处理

二、核心优势

自然语言控制

用说话的方式操作电脑，无需记忆快捷键。

视觉识别

模型能够理解屏幕上的内容并做出反应。

跨平台支持

支持Windows、macOS和浏览器环境。

本地处理

所有数据在本地处理，保护隐私安全。

实时反馈

操作过程中实时显示状态信息。

三、适用场景

自动化操作

让AI自动完成重复性的电脑操作。

辅助功能

帮助行动不便的用户操作电脑。

测试自动化

自动进行软件界面测试。

教学演示

展示AI控制电脑的能力。

四、安装与使用

快速开始

访问项目仓库的快速开始指南获取详细安装说明。

部署

支持云端部署，可参考部署文档。

SDK（实验性）

提供@ui-tars/sdk用于开发自定义自动化代理。

五、功能演示

示例1：打开VS Code自动保存

指令："请帮我打开VS Code的自动保存功能，并在VS Code设置中将自动保存操作延迟500毫秒。"

AI会自动：

打开VS Code
进入设置
找到自动保存选项
启用并设置延迟

示例2：查看GitHub问题

指令："你能帮我查看UI-TARS-Desktop项目在GitHub上的最新开放问题吗？"

AI会自动：

打开浏览器
导航到GitHub仓库
查看Issues页面

六、版本历史

v0.1.0（2025-04-17）：重新设计的代理界面，新的浏览器操作功能，支持高级UI-TARS-1.5模型
2025-02-20：发布UI TARS SDK
2025-01-23：增加云端部署支持

七、常见问题

问题1：什么是UI-TARS？

解决方案：UI-TARS是字节跳动的视觉语言模型，专门用于GUI自动化。

问题2：数据处理是否安全？

解决方案：完全本地处理，不发送数据到云端。

问题3：支持哪些操作系统？

解决方案：Windows、macOS和浏览器环境。

问题4：可以自定义操作吗？

解决方案：可通过SDK开发自定义代理。

问题5：模型文件多大？

解决方案：请参考官方文档获取具体信息。

八、总结

UI-TARS桌面版是一个让AI能够通过自然语言控制电脑的GUI代理应用程序，由字节跳动开源。

这个项目的最大价值在于：

自然语言控制：用说话操作电脑
视觉识别：理解屏幕内容
跨平台：Windows、macOS、浏览器
本地处理：保护隐私安全
实时反馈：状态实时显示

如果你希望用自然语言控制电脑，UI-TARS桌面版是一个非常创新的工具。

登录

注册账号