项目

讲「是什么」的同时亮出「我真做了什么」。以下按实践记录方式呈现，链接到 GitHub。

VoiceSpark 已完成

随时待命的灵感捕捉器：把你说的、以及你正在听的（YouTube / 播客 / 网课）即时转成可搜索、可编辑的文字。

做了什么: 一个轻量的网页工具，专注个人灵感捕捉与学习笔记——不是冗长的会议录音，而是 30 秒到 5 分钟的「碎片」。可同时录麦克风和系统声音、边看边记；转写后自动复制、可编辑、按历史搜索，也支持连续自动捕捉。
怎么做: 纯前端（原生 HTML/CSS/JS + Web Audio / MediaRecorder，IndexedDB 本地存储，可装成 PWA）配 FastAPI 后端，转写走 Google Speech-to-Text，坚持隐私优先：音频只在转写时上传、不留存。最大的坑都在浏览器音频上——尤其 iOS/Safari 对系统声音支持有限，移动端录音稳定性来回打磨了很多版。
结果: 已上线并持续维护（v1.0）。
日期: 2026-01

PickupAI 已暂停

面向澳洲 tradie 的 24/7 AI 电话接待：自动接听来电、用自然对话收集工单、把线索短信发给老板。

做了什么: 一个多租户的 AI 电话接待系统：Twilio 接入来电与短信，OpenAI Realtime 实时语音对话收集工单信息，配老板端线索仪表盘、管理后台、Stripe 订阅与 14 天试用、落地页与演示流程，还写了一批免费获客的抓取脚本。
怎么做: TypeScript / Node + Express，SQLite（PostgreSQL 备份），Docker 化部署在 Railway。难点在实时语音的延迟与打断处理，以及澳洲号码的合规（地址 / 监管 bundle）。
结果: 功能基本跑通，但综合权衡市场与投入产出后暂停，目前没有继续推进的计划。公开出来，作为一次完整的「从 0 搭 AI 语音 SaaS」的实践记录。
日期: 2026-04