当 AI 语音输入法等工具开始「看」我的屏幕，它是更聪明了，还是更危险了？

我之前介绍过我一些表现非常出色的 AI 语音输入法。我当时提到是：性能出色，但隐私还要谨慎留意。现在有越来越多的证据表明，一些 AI 语音输入法（确切的说，已经超出了输入法的权限），正在看我们的屏幕，从而获得更准确的「上下文」，提供更好的语音识别和内容生成。

通过给屏幕截图，分析上面出现过的内容，然后再结合我们的语音，AI 显然可以给出更准确的识别结果。比方说，我正在写一篇关于笔记工具的文章，当 AI 输入法看到了我屏幕上的文章时，再听到我说 Notion，Obsidian 时会给出更好的识别，这是单纯语音识别难以做到的。

有各家 AI工具厂商已经明示或暗示了用户：

比如 ChatGPT 桌面端明显在强调「chat about … anything on your screen」，并提供截图工具让我们把当前屏幕内容交给它分析。
Microsoft 的 Copilot Vision 也走同一路线，官方描述就是「让 Vision 看见屏幕上打开的浏览器窗口或 App」，然后基于画面给我们步骤式指导。
而在「AI 语音输入/听写」圈子里，Superwhisper 这类工具把它叫做 Context Awareness，明确列出多种上下文来源（应用的情况/选中的文本/剪贴板等）。
Wispr Flow 甚至直接写在页面上：会用「limited screen context」来保证在消息和邮件里把不常见的人名拼对。

但「屏幕」一旦它变成模型的上下文来源，风险可能远比想象的要大，尤其是那些采用云端模型的AI 工具，基本上自己做的任何事情毫无隐私可言，等于提供了在别人面前裸奔的条件。

「主动看」还是「偷偷看」

我把常见做法粗暴分成三档，方便大家判断自己在用的 AI输入工具处在哪一档：

1）显式截屏/手动投喂（相对可控）

典型是桌面端的「Take Screenshot」：我点一下，选一个窗口或区域，再发给 AI。
这档的关键是：我知道自己交出了什么。

但显然会比较麻烦，所谓的「摩擦」比较大。

2）读取活动 App/输入框内容（危险从这里开始）

很多「跨 App 听写」工具为了让你在任何地方都能说话输入，会用系统级权限去读当前画面的输入框、选中内容，甚至还会在后台看看剪贴板等。Superwhisper 文档里就把这些上下文来源写得很清楚。
这类能力常常依赖操作系统权限，比如： macOS 的辅助功能/权限体系，或者 Android 的无障碍（Accessibility）能力。

3）持续快照/时间线式记录（最危险）

这类不是「为了当下输入更准」，而是把整个屏幕历史当作可检索的记忆库。典型例子：

Windows 以前提起的的 Recall（下图）：以「snapshots」方式保存用户做过什么，并提供暂停/开关等控制。
macOS 的 Rewind 这类「记录一切」App：媒体报道过它的核心卖点就是记录你在 Mac 上看过/做过的内容以便回溯搜索。

也不是「会不会上传云端」这么简单

很多产品会强调「本地处理」「不上传云端」。这当然重要，但远远不够。因为风险分布在三个层面：采集、存储、传输/处理。下面是我认为最要命的几类：

1）输入 A，AI 顺手把 B 也带走了

语音输入的真实场景是碎片化的：我们可能在回复 Slack，旁边开着客户合同、工资单、2FA 验证码、病历报告。
一旦工具获取的是「活动窗口」甚至「屏幕画面」，就很容易把没打算分享的东西当成上下文一起打包，生成隐私敏感的内容。

2）权限不可逆的「心理麻痹」

macOS 对屏幕录制权限的描述其实已经很清楚：可以控制哪些 App 允许录屏，而且如果允许第三方 App 录屏，它收集到的信息受对方条款和隐私政策约束。
很多用户第一次弹窗会认真看，几次之后就只想点「允许」了。之后它就长期存在，直到哪天想起来才去关。

3）企业/客户数据合规直接爆炸

在公司电脑上开会、写 PRD、看工单、处理客户资料，如果语音输入法/助手有屏幕上下文权限，那就是把「屏幕上出现过的一切」纳入了第三方软件的处理范围。
哪怕它声称不上传，光是「采集能力」和「潜在外发路径」就足够让很多组织的合规部门头大。

4）很难验证「它到底抓了什么」

最糟糕的一点：很多工具不会给我们一个「将要发送的上下文预览」，或者一个审计日志。
没有预览就没有可审计性。只能相信它的自我描述，而这在软件世界里属于最奢侈也最不靠谱的信任方式。「零留存」「不保存」「不滥用」「不作恶」…… 我现在是一个字都不相信，我只看对方的信用等级和作恶的后果来决定。对于一家新兴的小公司，尤其拿了点融资急于想证明自己的那种，完全不用给它任何隐私信用，这是最理智的。

我自己的取舍：把「上下文」当成高危权限对待

我并不反对上下文。相反，我之前文章就承认，现在的 AI 识别效果真的很理想：拼写准确、指代清晰、语气更贴合场景。像 Wispr Flow 这种「用有限屏幕上下文拼对名字」的思路，本质上就是在追求极低的输入摩擦。

但我的原则是：

默认关闭一切「自动屏幕上下文」（尤其是持续型、全局型）。
需要上下文时，用「选中文本」代替「整屏/整窗口」。
只在「我能接受泄露」的场景主动启用，比如写公开内容、写无敏感信息的草稿。
某些企业环境建议直接一刀切：公司机器不装、不授权，别拿同事和客户当实验材料。

另外，除了「看屏幕」，键盘记录，扫剪贴板，扫本地文件都是非常危险的行为。不能因为只要是AI需要「上下文」就能以此为借口，随便乱来。这种事情已经不是单纯的工具使用原则了，可能有更广泛的参考意义。如果有人以让我方便的名义，任意收集我的隐私，嘴上还说为我好，我就十分警惕。是否要「牺牲隐私换取效率」，这点大家自行决定，但我的建议是要谨慎。

最后

AI 语音输入法要变好，理解语境「上下文」的确是很重要的。
但屏幕的隐私程度太高了。而且未必有能审计的系统。如果一个 AI 工具必须靠「持续看屏幕」才能显得聪明，那它多半不是聪明，只是单纯想多看些屏幕。

最后，我个人已经完全卸载了这类需要收集屏幕信息并发送到云端的AI 输入法。这种不能审计的系统，在我不明确已知的情况下收集信息，背后又是一些拿了融资随时可以跑路的小公司，我认为这些都是危险的特征信号，不值得大家冒这个险，AI 大有有可为，但不是用在这个上面。

至于大家怎么想，见仁见智，欢迎告诉我。