3 min read
鍵盤退後一步,對話走進來

車廂裡的耳機,像一盞小燈

傍晚的車廂很安靜,靜到連鞋底摩擦地板的聲音都顯得不好意思。螢幕一排排亮著:有人滑短影片,有人回訊息,有人盯著一張小小的地圖,像在確認自己還在同一個城市裡。

我把手機放回口袋,耳機裡卻還有人聲回來。

那不是旁邊的人。也不是電話。

我在這裡先說清楚幾件事,免得後面被誤讀:我說的 typeless,不是以後完全不用字;我說的即時互動,不是只要快,而是要像接話;我說的輕量終端,也不是買更便宜的硬體,而是把介面變薄、把互動變近。

我常常用兩顆太陽來想這件事。一顆在外面,是協定、排程、帳單與延遲;一顆在裡面,是猶豫、呼吸、還有那種不想被打擾的沉默。

它們本來離得很遠。

這幾年,我感覺它們在靠近。

不是不打字,而是把意圖還給生活

typeless 最常被誤解成一句口號:以後都用說的,不用打字。

但它真正想推翻的不是鍵盤。

是角色。

我發現自己常常不是在跟電腦說話,而是在替電腦翻譯自己。把情緒翻成句子,把意圖翻成欄位,把生活翻成表單。鍵盤把人變成一種輸入裝置,像把整個世界壓成一排字元。

typeless 不是不打字,而是讓打字不再是唯一入口。

語音在這裡很務實:你不必先停下手邊的事,才能把意圖送進去。

這很像把打字那層摩擦拿掉。

但互動真正的下一步,通常不是把輸入變快。

而是讓你不再需要把事情拆成那麼多步。

我對 Zero UI 又警惕又著迷。它聽起來像要把螢幕消滅,但我更在意的是另一件事:它想拿掉的,是「我得先進介面」那種儀式感。

不是我不用鍵盤。

是鍵盤先退到背景了。

延遲,像一句話裡的停頓

如果 typeless 的入口是語音,那麼即時互動的靈魂其實是延遲。

人類對話不是排隊系統。你慢一點,人就覺得你不在。

語音模式與即時互動的差異

很多人把語音模式和即時互動混在一起談,但它們的差別,往往比名稱差別更大。

下面這張表的語氣有點冷,不過它提醒我一件事:這不是有沒有語音的差別,而是你有沒有把延遲當成介面的一部分。

維度語音模式(典型:ASR -> LLM -> TTS 管線)即時互動模式(典型:speech-to-speech 串流)
互動節奏多為等你說完再回,較像語音版表單支援串流回應與插話,更接近接話節奏
架構核心多段服務串接,延遲會逐段累積單一會話處理音訊輸入輸出,減少模型拼接成本
連線形態常見 HTTP 請求(可附文字串流)常見 WebRTC/WebSocket 長連線
延遲目標能用即可,常落在完整回合級延遲追求接近真人對話的停頓感
turn detection以 endpointing 判斷你講完了以 VAD 與上下文判斷輪替,容許插話
成本型態成本分散在 ASR/TTS/LLM 三段音訊串流與長連線把成本改寫成每分鐘
隱私面可能同時上傳音訊與逐字稿更依賴資料最小化與保留期設計

一條管線,一條會話

flowchart LR
  subgraph A[語音模式:多段式管線]
    micA((Mic)) --> asrA[ASR: speech->text]
    asrA --> llmA[LLM: reason/generate]
    llmA --> ttsA[TTS: text->speech]
    ttsA --> spkA((Speaker))
  end

  subgraph B[即時互動:Realtime 串流會話]
    micB((Mic)) --> webrtcB[WebRTC/WebSocket]
    webrtcB --> sessionB[Realtime session + turn detection]
    sessionB --> outB[streaming audio/text/events]
    outB --> uiB((Speaker/Screen))
  end

即時互動不是語音版聊天室。

它是把停頓也算進規格裡。

從 Siri 到 Realtime,一條變短的路

回頭看語音助理那段歷史,我覺得它一直在追一件事:把指令變成對話。

真正讓我起雞皮疙瘩的,通常不是模型忽然懂更多,而是回得夠快,快到我忘了自己在等。

這條路其實很長:從手機裡的 Siri,到客廳裡的 Alexa,再到今天被開發者直接整合進產品的即時語音 API。

timeline
  title 從語音助理到即時互動
  2011 : Siri 進入主流手機
  2014 : Echo / Alexa 打開家用語音助理市場
  2016 : Google Assistant 擴張多裝置互動
  2022 : 對話式 LLM 大眾化
  2023 : 可聽可說的 AI 互動成為日常功能
  2024 : 即時語音 API 開始被產品化
  2025 : Realtime 能力成熟,進入可營運階段

這不是單一功能迭代。

這是介面定義被重寫。

終端變得更輕,系統變得更近

當你真的開始做語音產品,會發現介面有兩層:一層是看得見的 UI,一層是看不見的鏈路。

輕量化終端的重點,通常不在螢幕大小。

在誰先把那些不該上雲的事做掉。

低延遲先從音訊開始

編碼、帶寬與延遲會直接改寫體感。會議室裡你可能覺得還好,一進捷運,斷在哪裡會立刻現形。

然後是沉默。

VAD 做得好,像懂你呼吸;做不好,就像一個永遠搶話的人。

常用與敏感的先留在端上

想把互動做得像對話,不可能把所有事都丟到雲端等回來。

喚醒、降噪、關鍵字、簡單命令可以在端上完成;複雜推理、工具呼叫、長上下文可以留在雲端。

不是為了炫技。

是為了讓技術退到背景。

demo 撐不過一週的那種難

語音系統從來不缺驚艷 demo,缺的是一週後還可靠、三個月後還省成本、半年後還能維護的版本。

真正難的通常是細節:turn detection、噪音環境、長連線穩定性、狀態管理、評測回圈。

我最常提醒自己的一句話是:

這不是把語音接上去就好。
這是把對話接上去。

當你說話,資料也在說話

我很喜歡語音互動帶來的自由:手是空的,眼睛是空的,腦子也像空了一點。

但它也帶來新的緊張:你一說話,就等於把自己的一部分交出去。

不是每個場景都適合 typeless。這不是技術限制,而是人性。

不是每種聲音都被聽見

語音辨識的偏誤,最後會變成可及性的偏誤。拿走鍵盤不等於自動公平,它可能只是把不公平換了一個出口。

留下來的只有必要的

在語音產品裡,資料最小化不是法務欄位,而是產品決策。

預設不保存、能端上就端上、用 VAD 避免收進無意義背景音、給清楚的保留期與刪除機制,這些都不是附加題,是基本題。

會被問責的不只是錯答案

當 AI 被放進醫療、教育、金融、公共服務,它就不再只是「一個很酷的功能」。

它會被問責,也應該被問責。

我最在意的其實不是能不能做到無介面。

而是:當介面退後,使用者還剩下多少選擇權?

車廂又靜下來的時候

我後來常常在同一段路上重播同一個畫面:手機在口袋裡,耳機還在,世界很小,聲音很近。

我還不知道 typeless 會不會變成主流。

我只知道,當對話真的走進來,最先被改寫的通常不是鍵盤,而是我願意交出多少自己。

延伸閱讀

  • OpenAI 相關發布:語音模式、Realtime API、即時語音模型演進。
  • Apple Siri 與語音助理主流化歷程。
  • 人類對話輪替研究與互動延遲文獻。
  • ITU-T 與 IETF 的語音與編碼標準。
  • NIST AI 風險治理與隱私相關框架。
  • Weiser 的 ubiquitous computing 經典文章。
封面圖生成提示詞(1:1,雨夜通勤、偏首圖常用調性)
一張雨夜城市街景(東亞城市感),冷色調、霓虹反射在濕地板上。
畫面中一位通勤者戴著耳機,手上拿著手機但沒有打字;手機螢幕是一條細緻的波形與「正在對話」的微光提示。
遠景有模糊的高樓與路牌,整體像電影劇照,寫實但帶一點未來感。
不要出現明顯品牌標誌,不要出現可識別的人臉細節,留白、安靜、可作為文章首圖。