【速报】Hermes Agent 终于有了官方桌面版:AI Agent 开始从命令行走向真正的工作台

最近 Nous Research 正式推出了 Hermes Desktop,也就是 Hermes Agent 的官方桌面版。

部分朋友可能对 Hermes Agent 还比较陌生,我简单介绍一下背景。前段时间,「小龙虾」(OpenClaw)这个 AI 个人助理工具火了一阵,Hermes Agent 是类似的助理工具。我当时对比了两者之后,毫不犹豫选择了 Hermes,此后再没用过 OpenClaw。Hermes 的配置和交互更人性化,支持自学习和持久记忆,也兼容多种 IM 工具和 TUI,迭代节奏一直很快。

让我印象最深的一点是:Hermes 会把完成过的工作沉淀成 skill,下次遇到类似任务时主动复用。用起来更像一个积极主动的团队成员,而不只是一个工具。

桌面版出现之前,Hermes 的门槛在哪里

在桌面版推出之前,Hermes Agent 和小龙虾一样,本质上还是一个给技术用户准备的工具。用户至少要对 CLI、TUI 有基础,才能开始配置。配置文件、provider、API key、gateway、toolset、MCP、dashboard,每一项都是单独的门槛。对喜欢折腾的人来说,这些是高自由度;对普通用户来说,根本不知道从哪里下手。

因此,大多数只熟悉图形界面、习惯点击「下一步」的用户,基本上是无缘这类工具的。

不是另一个聊天客户端

理解 Hermes Desktop,首先要避开一个误区:它不是独立做了一个 ChatGPT 或 Codex 的替代品。

Hermes Desktop 用的是同一个 Hermes Agent core。CLI、TUI、Gateway、Desktop 不是几套割裂的系统,而是同一个 Agent 的不同入口。它们共享配置、API key、session、skill、memory。你可以在命令行里开启一个任务,再到桌面版继续查看;也可以在桌面版配置模型、管理 skill,再回到其他入口继续用。

严格来说,Hermes Desktop 是一个 agent 客户端,更接近 Codex 而不是 ChatGPT。Agent 会执行一系列动作,在获得授权后控制浏览器或文件系统,最终达成用户目标。对话 chatbot 只是 agent 的一个子集。

桌面版降低的是操作成本

虽然 Hermes Desktop 的主界面依然以会话为中心,但它不只是给你一个输入框加一串回答。

左侧导航用于管理多个 agent 会话,中间是对话区,可以看到 streaming response 和工具调用过程,右侧有 preview rail,可以并排查看网页、文件和工具输出。同时内置文件浏览器,让你不用离开 App 就能看到 agent 正在读写哪些项目文件。

这类设计看似普通,但对 AI Agent 非常关键。Agent 和普通聊天机器人的差别,正是它会「做事」——读文件、写文件、搜索网页、执行脚本、调用工具。如果这些动作全部藏在黑箱里,用户很难建立信任;如果每一步都要去看终端日志,普通用户又受不了。桌面版把 agent 的工作过程可视化,降低的正是这部分操作成本。

设置终于不再全靠 YAML 和命令行

我一直觉得,AI Agent 工具要进入日常工作流,最大的门槛不是模型能力,而是配置体验。

选 provider、配置模型、决定启用哪些工具、管理 API key、连接 MCP server、设置 gateway——如果这些全部散落在命令行参数和配置文件里,用户很快就会放弃。

Hermes Desktop 这次把这些配置都放进了 UI:provider、model、tools、credentials、MCP servers、gateway、session management,都可以在桌面端直接管理。

当然,这并不代表它变成了「下载就能无脑使用」的产品。复杂的配置仍然需要一定的专业背景,必要时还是得手动处理配置文件和命令行——毕竟它们本来就是一体的。但至少门槛从「必须会命令行」降到了「理解系统基本结构即可」。这已经是很大的变化。

Windows 用户也被照顾到了

这是我很在意的一点。

很多开源 AI Agent 项目,名义上支持跨平台,实际上主要面向 Linux / macOS,Windows 用户不是被要求装 WSL,就是在各种依赖里折腾半天。

我在 Windows 10 上测试了 Hermes Desktop 的原生支持:不需要 WSL、Cygwin 或 Docker,安装器会自动处理 Python、Node.js、PortableGit、ripgrep、ffmpeg 等依赖,放在用户目录下,不需要管理员权限。整体体验和 macOS 下几乎一致。

一个 AI agent 工具,如果只在 Linux 服务器上体验好,它更像是服务器基础设施;如果能在 Windows 和 macOS 桌面上跑起来,它才有机会成为个人工作流的一部分。Windows 和 macOS 互为竞争对手,是对用户最好的状态。一个 agent app 只有覆盖两边,才算完整。

我真正感兴趣的是持久记忆和 skill

现在很多 AI 产品都在讲 agent,但大多数实际还是一次性对话:给一个任务,做一次,做完结束。下次还要重新解释背景、偏好和注意事项。

Hermes Agent 更有意思的地方,是它强调 persistent memory 和自动生成的 skill。它不只是记住聊天记录,而是把解决问题的方法沉淀成可复用的 skill。

从生产力工具的角度看,这个方向比「一次性更聪明」重要得多。真实工作里,很多任务不是全新的,而是反复出现的——整理某类资料、生成某类报告、检查某类文件、定期做研究、把信息推送到某个渠道。如果 agent 每次都重新理解一遍,本质上还是高级聊天;如果它能把流程固化下来,下次自动套用,它才开始接近一个工作系统。

Hermes Desktop 把 skill、cron、profile、messaging、agents 和 command center 这些管理入口放进桌面端,本质上是把「长期运行的 AI 工作系统」搬到了用户更容易触达的位置。

我在 AI 普及之前就有这样的认识:真正的效率来自归纳。一类事情做多了,会形成工作流;工作流用多了,会沉淀成自动化工具。用现在的视角来看,这就是 agent 的 skill 迭代逻辑。

适合谁用

先泼一点冷水:Hermes Desktop 目前不是面向完全零基础用户的产品。

技术门槛之外,更主要的问题是它的能力边界太宽。Hermes 可以连接不同模型,调用工具,读写文件,跑浏览器自动化,执行定时任务,接 messaging gateway,连接远程 backend……

如果日常事务还没有复杂到需要 AI 介入,或者完全不想归纳自己的工作流,目前的 agent 工具帮不了太多。

我觉得 Hermes Desktop 目前最适合三类人。

第一类,已经在用 Claude Code、Codex、Cursor、OpenHands、OpenWebUI、n8n、MCP 工具的人。他们理解 AI 工具调用和自动化的价值,只是需要一个更完整的 agent 工作台。

第二类,研究型创作者、技术写作者、独立顾问、产品研究人员。他们经常需要收集资料、阅读网页、整理文件、生成报告、沉淀流程。Hermes 的 memory、skill、定时任务和多入口交互,可能会逐渐成为一套长期积累的个人研究助理。

第三类,有自部署习惯的人。比如愿意在本地机器、家用服务器、VPS 或 Tailscale 网络里跑自己工具的人,希望数据和流程尽量掌握在自己手里。Hermes 的整体方向和这类用户的偏好比较契合。

如果你只是想找一个简单的问答工具,ChatGPT、豆包、千问这类会更直接。

最后

Hermes Desktop 的发布,在某种意义上标志着开源 AI Agent 正在进入下一个阶段。

第一阶段是命令行和开发者工具,大家关心的是能不能跑、能不能调工具、能不能自动执行任务,它更像是 AI 基础设施。

第二阶段是桌面工作台,大家关心的是能不能看清楚它在做什么,能不能管理多个任务,能不能控制权限,能不能把经验沉淀下来,能不能长期陪伴一个项目。这才是逐渐面向最终用户的接口。

Hermes Desktop 目前仍然有些粗糙,也仍然需要用户理解不少 AI Agent 基础概念。但未来已经在地平线上浮现——下一个操作系统、下一个 Office、下一个浏览器,这种量级的应用框架已经有了雏形。无论最终是不是 Hermes,这个方向都值得认真关注。

留下评论