車廂裡的耳機,像一盞小燈
傍晚的車廂很安靜,靜到連鞋底摩擦地板的聲音都顯得不好意思。螢幕一排排亮著:有人滑短影片,有人回訊息,有人盯著一張小小的地圖,像在確認自己還在同一個城市裡。
我把手機放回口袋,耳機裡卻還有人聲回來。
那不是旁邊的人。也不是電話。
我在這裡先說清楚幾件事,免得後面被誤讀:我說的 typeless,不是以後完全不用字;我說的即時互動,不是只要快,而是要像接話;我說的輕量終端,也不是買更便宜的硬體,而是把介面變薄、把互動變近。
我常常用兩顆太陽來想這件事。一顆在外面,是協定、排程、帳單與延遲;一顆在裡面,是猶豫、呼吸、還有那種不想被打擾的沉默。
它們本來離得很遠。
這幾年,我感覺它們在靠近。
不是不打字,而是把意圖還給生活
typeless 最常被誤解成一句口號:以後都用說的,不用打字。
但它真正想推翻的不是鍵盤。
是角色。
我發現自己常常不是在跟電腦說話,而是在替電腦翻譯自己。把情緒翻成句子,把意圖翻成欄位,把生活翻成表單。鍵盤把人變成一種輸入裝置,像把整個世界壓成一排字元。
typeless 不是不打字,而是讓打字不再是唯一入口。
語音在這裡很務實:你不必先停下手邊的事,才能把意圖送進去。
這很像把打字那層摩擦拿掉。
但互動真正的下一步,通常不是把輸入變快。
而是讓你不再需要把事情拆成那麼多步。
我對 Zero UI 又警惕又著迷。它聽起來像要把螢幕消滅,但我更在意的是另一件事:它想拿掉的,是「我得先進介面」那種儀式感。
不是我不用鍵盤。
是鍵盤先退到背景了。
延遲,像一句話裡的停頓
如果 typeless 的入口是語音,那麼即時互動的靈魂其實是延遲。
人類對話不是排隊系統。你慢一點,人就覺得你不在。
語音模式與即時互動的差異
很多人把語音模式和即時互動混在一起談,但它們的差別,往往比名稱差別更大。
下面這張表的語氣有點冷,不過它提醒我一件事:這不是有沒有語音的差別,而是你有沒有把延遲當成介面的一部分。
| 維度 | 語音模式(典型:ASR -> LLM -> TTS 管線) | 即時互動模式(典型:speech-to-speech 串流) |
|---|---|---|
| 互動節奏 | 多為等你說完再回,較像語音版表單 | 支援串流回應與插話,更接近接話節奏 |
| 架構核心 | 多段服務串接,延遲會逐段累積 | 單一會話處理音訊輸入輸出,減少模型拼接成本 |
| 連線形態 | 常見 HTTP 請求(可附文字串流) | 常見 WebRTC/WebSocket 長連線 |
| 延遲目標 | 能用即可,常落在完整回合級延遲 | 追求接近真人對話的停頓感 |
| turn detection | 以 endpointing 判斷你講完了 | 以 VAD 與上下文判斷輪替,容許插話 |
| 成本型態 | 成本分散在 ASR/TTS/LLM 三段 | 音訊串流與長連線把成本改寫成每分鐘 |
| 隱私面 | 可能同時上傳音訊與逐字稿 | 更依賴資料最小化與保留期設計 |
一條管線,一條會話
flowchart LR
subgraph A[語音模式:多段式管線]
micA((Mic)) --> asrA[ASR: speech->text]
asrA --> llmA[LLM: reason/generate]
llmA --> ttsA[TTS: text->speech]
ttsA --> spkA((Speaker))
end
subgraph B[即時互動:Realtime 串流會話]
micB((Mic)) --> webrtcB[WebRTC/WebSocket]
webrtcB --> sessionB[Realtime session + turn detection]
sessionB --> outB[streaming audio/text/events]
outB --> uiB((Speaker/Screen))
end
即時互動不是語音版聊天室。
它是把停頓也算進規格裡。
從 Siri 到 Realtime,一條變短的路
回頭看語音助理那段歷史,我覺得它一直在追一件事:把指令變成對話。
真正讓我起雞皮疙瘩的,通常不是模型忽然懂更多,而是回得夠快,快到我忘了自己在等。
這條路其實很長:從手機裡的 Siri,到客廳裡的 Alexa,再到今天被開發者直接整合進產品的即時語音 API。
timeline
title 從語音助理到即時互動
2011 : Siri 進入主流手機
2014 : Echo / Alexa 打開家用語音助理市場
2016 : Google Assistant 擴張多裝置互動
2022 : 對話式 LLM 大眾化
2023 : 可聽可說的 AI 互動成為日常功能
2024 : 即時語音 API 開始被產品化
2025 : Realtime 能力成熟,進入可營運階段
這不是單一功能迭代。
這是介面定義被重寫。
終端變得更輕,系統變得更近
當你真的開始做語音產品,會發現介面有兩層:一層是看得見的 UI,一層是看不見的鏈路。
輕量化終端的重點,通常不在螢幕大小。
在誰先把那些不該上雲的事做掉。
低延遲先從音訊開始
編碼、帶寬與延遲會直接改寫體感。會議室裡你可能覺得還好,一進捷運,斷在哪裡會立刻現形。
然後是沉默。
VAD 做得好,像懂你呼吸;做不好,就像一個永遠搶話的人。
常用與敏感的先留在端上
想把互動做得像對話,不可能把所有事都丟到雲端等回來。
喚醒、降噪、關鍵字、簡單命令可以在端上完成;複雜推理、工具呼叫、長上下文可以留在雲端。
不是為了炫技。
是為了讓技術退到背景。
demo 撐不過一週的那種難
語音系統從來不缺驚艷 demo,缺的是一週後還可靠、三個月後還省成本、半年後還能維護的版本。
真正難的通常是細節:turn detection、噪音環境、長連線穩定性、狀態管理、評測回圈。
我最常提醒自己的一句話是:
這不是把語音接上去就好。
這是把對話接上去。
當你說話,資料也在說話
我很喜歡語音互動帶來的自由:手是空的,眼睛是空的,腦子也像空了一點。
但它也帶來新的緊張:你一說話,就等於把自己的一部分交出去。
不是每個場景都適合 typeless。這不是技術限制,而是人性。
不是每種聲音都被聽見
語音辨識的偏誤,最後會變成可及性的偏誤。拿走鍵盤不等於自動公平,它可能只是把不公平換了一個出口。
留下來的只有必要的
在語音產品裡,資料最小化不是法務欄位,而是產品決策。
預設不保存、能端上就端上、用 VAD 避免收進無意義背景音、給清楚的保留期與刪除機制,這些都不是附加題,是基本題。
會被問責的不只是錯答案
當 AI 被放進醫療、教育、金融、公共服務,它就不再只是「一個很酷的功能」。
它會被問責,也應該被問責。
我最在意的其實不是能不能做到無介面。
而是:當介面退後,使用者還剩下多少選擇權?
車廂又靜下來的時候
我後來常常在同一段路上重播同一個畫面:手機在口袋裡,耳機還在,世界很小,聲音很近。
我還不知道 typeless 會不會變成主流。
我只知道,當對話真的走進來,最先被改寫的通常不是鍵盤,而是我願意交出多少自己。
延伸閱讀
- OpenAI 相關發布:語音模式、Realtime API、即時語音模型演進。
- Apple Siri 與語音助理主流化歷程。
- 人類對話輪替研究與互動延遲文獻。
- ITU-T 與 IETF 的語音與編碼標準。
- NIST AI 風險治理與隱私相關框架。
- Weiser 的 ubiquitous computing 經典文章。
封面圖生成提示詞(1:1,雨夜通勤、偏首圖常用調性)
一張雨夜城市街景(東亞城市感),冷色調、霓虹反射在濕地板上。
畫面中一位通勤者戴著耳機,手上拿著手機但沒有打字;手機螢幕是一條細緻的波形與「正在對話」的微光提示。
遠景有模糊的高樓與路牌,整體像電影劇照,寫實但帶一點未來感。
不要出現明顯品牌標誌,不要出現可識別的人臉細節,留白、安靜、可作為文章首圖。