v0.1 · Private Alpha 仅限 macOS 14+ · Apple Silicon

按住 说话,
电脑替你跑完剩下的

voice-ptt 是给 Claude Code 用户的 ambient 语音 OS—— 你说一句,它抓屏、调 MCP、跨 Gmail / Calendar / Reminders 真做事。 本地跑,不上云,除了那一次 LLM 调用。

三个场景 · 三个按键

一个按键一种用法,
都不打断你手里的活。

fn ⌥ left
01 — Dictate

按住 ⌥ Left 听写

Notion、Cursor、微信、终端——哪里能输入就哪里能说。松开键自动识别,Gemini Flash 顺一遍口语,直接粘到光标位置。不切应用,不弹窗口。

1
"建个日历提醒明天 3 点开会并给张三发邮件"
calendar.create · 明天 15:00 · 产品评审
contacts.find · 张三 <zhang@...>
gmail.draft · 主题:明天 3 点会议
回车发送 · esc 丢弃
02 — Act

按住 ⌥ Right 对话

接 Claude Agent SDK + MCP。跨 Gmail / Calendar / Reminders / Linear 真建事件——不是"我帮你写段话",是真的去按那个按钮。执行前一行日志,逐项给你看。

voice-ptt · ambient
看你在 Linear 上改了 3 个 bug 标题,要不要顺手把它们打包成一个 PR 描述发给 review 频道?
忽略 去做 ↵
基于过去 47 分钟本地屏幕记忆 · 不出设备
03 — Ambient

它主动在看,不主动在烦

每小时一次读屏,本地记下你在干什么。到某个节点主动弹一句"要不要顺手做 XX"——不接就默默记下,不催你第二遍。记忆永远在你这台机子上。

为什么现在做

Claude Code 把对话式编程搬到了每个开发者的桌上。
但我们还缺一个真正 ambient 的语音入口——不用打开一个"AI app",不用先切到对话窗口,不用等它反应。

voice-ptt 的赌注是:下一代操作界面不是聊天框,是一个键。按住,说。松开,它已经做完了。剩下的交给肌肉记忆。

技术栈 · 不藏着

哪里跑在本地,
哪里调 API,一行一行列清楚。

ASR 豆包流式识别 · 低延迟、中英混说不掉字 Cloud
Text Cleanup Gemini 2.5 Flash · 去嗯、去重复、保留术语 Cloud
Agent Loop Claude Agent SDK · MCP · 持久连接,T2 首响应 <5s Cloud
Screen Capture macOS Accessibility API + Vision · 双路读屏,失败自动兜底 Local
Memory Store SQLite + vec 索引 · 屏幕记忆只在本机 Local
Shell Swift · 原生菜单栏 App · 单进程 ~40MB Local
License MIT · 代码开源,插件体系随后开放 OSS
Waitlist

先到先发邀请码。

Alpha 每周放 50 个名额。选一个你最想先用上的场景——我们按票数决定下一个迭代重点。

已加入 1,284 名开发者
{/* TODO: 此处替换为 Tally / Airtable embed · data-tally-src="https://tally.so/embed/xxx" */}

收到了,你排在第

我们会往 发邀请码。

VPTT-—
FAQ

四个你肯定会问的。

不会。读屏的原始截图、OCR 结果、向量索引全部写进你本机的 ~/Library/Application Support/voice-ptt,SQLite 文件你随时能删。只有在你按住按键、明确要 agent 做事时,相关上下文才会作为 prompt 的一部分发给 Claude。ASR 例外——语音流必须走豆包云端识别,但我们不留录音。
App 本身免费,代码 MIT。你自己接 Anthropic / 豆包 / Gemini 的 API key,账单你付,走你的配额。我们不做 usage-based 抽成,后面可能出一个"托管版"给不想自己配 key 的人,带一点月费,但核心功能永远免费开源。
Alpha 期间仓库会公开但不收外部 PR——先把架构稳住。Beta 转入正式开放贡献,MCP 插件体系同步放出。想先看代码的可以在 waitlist 备注里写 #源码早鸟,我们会给你开一个只读 preview。
暂时没有。屏幕感知和全局热键这套东西在 macOS 上成本最低,我们先把一端做扎实。Windows 在规划里但没排期,Linux 看社区意愿——如果有人想 fork 一个 x11/wayland 版,我们给架构支持。