讓 Claude Code 學會把影片變逐字稿
本地預處理 + Groq Whisper 完整指南
一小時影片只花新台幣 1.3 元、隱私完全在自己手上、文末有一鍵複製包, 丟給你的 Claude Code 就能學會這套流程,以後說「幫我轉這個影片」它就會跑。
60 分鐘影片 1.3 元跑完逐字稿。三段管線拆解清楚:本地 ffmpeg 抽音訊(順便去靜音防幻聽)→ 雲端 Groq Whisper 轉文字 → Claude Code 看你想要的整理方式(6 選 1)。文末有 Skill 一鍵複製包、貼給 Claude 它就學會、之後說「轉這支影片」自動跑。
這篇示範怎麼把任何一支影片變成可以搜尋、可以摘要的文字檔。 你不用會寫程式,但需要裝過 Claude Code 跟 ffmpeg(文章內都會白話解釋)。 每個技術名詞首次出現都有黃色 box 解釋,看完就能照做。
把影片變成文字、其實是創作者的剛需
講課錄影、Podcast 訪談、客戶會議錄音、自己的 YouTube 草稿,這些「以聲音為主」的內容只要變成文字,
就能拿來做筆記、寫部落格、整理 SOP、訓練 AI、做 SEO。
問題是把影片變文字,常見的選擇都有點麻煩:
丟 YouTube 自動字幕:要先公開上傳、不能拿來處理機密內容、繁體中文準度普通。
找線上服務:每分鐘 1 到 3 元、檔案要上傳到別人伺服器、量大很燒錢。
人工聽打:60 分鐘影片要 300 到 500 元、隔天才能拿到。
用筆電本機跑 Whisper:免費、但 60 分鐘影片要等 20 到 40 分鐘、發熱、風扇狂轉。
這篇要介紹的是第五個選項:本地把影片濃縮成乾淨音訊、丟給 Groq 的雲端 Whisper API 跑、再由 Claude Code 串起來。 60 分鐘影片約 30 秒跑完、成本不到 1.5 元,而且你可以指揮 Claude Code 一次跑十支。
三段管線、Claude Code 當管家
把任務拆成三段,每段都有最適合的工具:影片變音訊用本地 ffmpeg(免費、快、處理雜訊)、 音訊變文字用雲端 Groq Whisper(便宜、快、辨識率高)、文字變筆記讓Claude Code 統籌。 你只要說一句話,三段它都會跑完。
Whisper 是 OpenAI 開源的語音辨識模型,可以把人類說話的聲音變成文字,繁體中文準度不錯。 它有很多家公司用同一份模型在跑(OpenAI、Groq、本地、雲端),差別在價格跟速度。 比喻:像同一台引擎,不同車廠裝在不同車殼上賣。我們挑「跑最快又最便宜」的那台。
Groq 是一家做「超快 AI 推論」的公司。他們自製專用晶片(不是 GPU),跑同樣的 AI 模型比一般雲端快 5 到 10 倍。 Whisper 在 Groq 上的速度是實際時間的 228 倍,意思是 60 分鐘的音訊大約 16 秒就跑完。 比喻:別人廚房用瓦斯爐、Groq 用工業電磁爐,同樣的菜十分之一時間出餐。
因為 Groq 免費版只接受 25 MB 以下的檔案。一支 60 分鐘的 4K 影片可能 2 GB、必須先壓縮成音訊才能丟。 順便處理掉開頭結尾的靜音段、可以大幅減少 AI 幻聽(後面會解釋)。
把幾種主流選擇放一起比
用 60 分鐘影片當基準、實際比一輪:
| 選項 | 單價 | 60 分鐘成本 | 速度 | 備註 |
|---|---|---|---|---|
| Groq Whisper Large v3 Turbo | $0.04 / 小時 | 約 1.3 元台幣 | 16 秒 | 檔案上限 25 MB(免費)/ 100 MB(付費) |
| OpenAI Whisper API | $0.006 / 分鐘 | 約 11 元台幣 | 2 到 4 分鐘 | 9 倍貴、20 倍慢 |
| 本地跑 Whisper(自己電腦) | 免費 | 0 元 | 20 到 40 分鐘 | 筆電發熱、無法批次 |
| 線上聽打服務(人工) | 5 到 10 元 / 分鐘 | 300 到 600 元 | 隔天交件 | 準度高、但慢且貴 |
| YouTube 自動字幕 | 免費 | 0 元 | 5 到 15 分鐘 | 要公開上傳、繁中準度低 |
Groq 不是「全方位最強」的選擇,但對「要常常處理、要快、要便宜、要保密」的人是甜蜜點。 如果你一年只轉三次影片,YouTube 自動字幕就夠; 如果你每週要處理好幾支、又不想公開,Groq 是目前最划算的選擇。
每一段在做什麼、為什麼這樣設計
這節是「為什麼」的部分,看完你會懂指令在做什麼、不只是複製貼上。
影片有畫面 + 聲音兩條軌道,逐字稿只需要聲音那條。用 ffmpeg 把聲音抽出來、同時做三件事:壓低位元率、轉單聲道、去掉開頭結尾的靜音。
ffmpeg 是處理音訊、影片、字幕的免費工具,所有專業剪輯軟體背後幾乎都靠它。Mac 用
brew install ffmpeg、Windows 用 winget install ffmpeg 就能裝。
比喻:像 Photoshop 但給聲音影片用,而且是免費的。
位元率 = 每秒鐘用多少資料量描述聲音。kbps 是「千位元每秒」。 128 kbps 是 Spotify 一般音樂的水準、32 kbps 是電話品質。對 AI 語音辨識來說 32 kbps 完全夠用,但檔案會變小 4 倍。 比喻:拍照解析度。Whisper 只要看清楚字,不需要視網膜螢幕等級。
16 kHz 是取樣頻率,意思是「一秒鐘量 16,000 次聲音波形」。Whisper 內部就是用這個頻率訓練的,丟更高的會浪費、丟更低的會失真。 mono 是單聲道,把左右聲道合併成一條(你在講話、不需要立體環繞音)。
實際指令長這樣:
ffmpeg -i input.mp4 -vn \
-af "silenceremove=start_periods=1:start_duration=0.5:start_threshold=-40dB,areverse,silenceremove=start_periods=1:start_duration=0.5:start_threshold=-40dB,areverse" \
-acodec libmp3lame -ab 32k -ar 16000 -ac 1 audio.mp3 -y
分段解釋:
-vn = 不要影像(video none)、
-af "silenceremove..." = 去靜音(後面解釋)、
-ab 32k = 32 kbps 位元率、
-ar 16000 = 16 kHz 取樣率、
-ac 1 = 單聲道。
把音訊開頭跟結尾的靜音段(超過 0.5 秒、低於 -40 分貝)切掉。 中間用了一個聰明的 trick:先切開頭、把音訊反向播放、再切「現在的開頭」(其實是原本的結尾)、再反回來。 為什麼要這樣做?因為 Whisper 遇到長時間靜音會「幻聽」,自己生出根本沒人說的句子。 比喻:像你在安靜房間裡幻聽到聲音。AI 也會,先把安靜段刪掉就清淨。
音訊檔(< 25 MB)丟給 Groq API、選 whisper-large-v3-turbo 模型、繁中語言、加一個防幻聽 prompt,幾秒鐘拿回文字。
API 是「程式跟雲端服務溝通的窗口」。你給它檔案、它回你結果。API Key 是身份證,告訴對方「這次的費用算我頭上」。 Groq 的 API Key 在 console.groq.com 註冊就能拿到、新帳號有免費額度。
不一樣。Whisper 的 prompt 是「給 AI 看的單字提示」,告訴它「這段音訊裡可能會出現這些專有名詞」。 這是防止人名、公司名、術語被聽錯的關鍵。不要寫太長,超過 200 字 Whisper 會自動忽略前面的音訊。 比喻:跟新來的速記員說「待會的會議裡會提到『領先時代』、『張總』、『SaaS』,要寫對」。
Python 範例(其實 Claude Code 會幫你寫,這只是讓你看懂在做什麼):
from groq import Groq import os client = Groq(api_key=os.environ["GROQ_API_KEY"]) with open("audio.mp3", "rb") as f: result = client.audio.transcriptions.create( file=("audio.mp3", f.read()), model="whisper-large-v3-turbo", language="zh", prompt="繁體中文。可能出現:你的人名、品牌、術語", response_format="text" ) # 把 result 存成 transcript.txt open("transcript.txt", "w").write(result)
prompt 太長、開頭一段會被吃掉。Whisper 把 prompt 算在「context」裡、超過上限會犧牲音訊開頭。建議 prompt 控制在 80 個字以內、只放關鍵詞。
Whisper 給你的是一整段沒有標點的純文字。實際能用的逐字稿還需要切段落、補標點、抓重點、列待辦。 這段 Claude Code 最擅長:你只要丟逐字稿、說「幫我整理成 5 段:重點 / 決議 / 待辦 / 疑問 / 下次行動」,它就會做。
更聰明的玩法:寫一個 Claude Code 的 Skill(指令包),以後說「幫我轉這個影片」、它會自動跑完三段、產出整理好的 markdown 筆記。 文末的「一鍵複製包」就是這個 Skill 的完整模板。
Skill 是 Claude Code 的「指令包」,把一連串重複動作打包成一個指令。 以後在對話框打
/transcribe 或說「幫我轉這支影片」、Claude 就會照 Skill 的劇本跑。
想深入了解 Skill 怎麼跨專案共用?看延伸閱讀的 跨專案 Skill 設計。
把任務拆成最適合的工具、再用 AI 串起來,是現在處理重複工作最划算的方式。 你今天學的不只是逐字稿、是一套可以套到很多任務的設計思維。
實際會花多少錢?
Groq Whisper Large v3 Turbo 官方價格 $0.04 / 小時、台幣換算用 33 計算:
(共 5 小時)
(重度使用)
對照一下:請人工聽打一支 60 分鐘影片要 300 到 600 元、整年算下來差好幾萬。 Groq 的成本基本上可以「忽略不計」,重點變成「你要怎麼把這些文字用好」。
Groq 有「最低 10 秒計費」,意思是不滿 10 秒的請求也算 10 秒。 所以丟一堆 5 秒小檔比丟一個 60 分鐘大檔貴很多。實務上不會碰到、但別亂切片。
看一段真實的 Before / After
拿一段 60 秒的會議片段示範。Whisper 給你的是純文字、Claude Code 整理後變成可以直接用的筆記。
好那今天我們討論一下下季的內容排程主要有三個議題第一個是 Podcast 第二季要不要繼續做老實說我覺得能量很好但是製作成本太高 第二個是電子報頻率現在兩週一封讀者抱怨太少了想改成每週第三個 是 YouTube Shorts 試水溫看看流量我覺得可以排在六月開始我們先 測四週再決定要不要正式投入資源好那就這樣決定 Podcast 暫停一季 電子報下個月開始每週發 Shorts 六月初開始試
📌 重點摘要
下季內容排程會議,決議調整三個 channel:Podcast 暫停、電子報加頻、YouTube Shorts 開始試水溫。
✅ 決議事項
· Podcast 第二季暫停一季(成本考量)
· 電子報改成每週一封
· YouTube Shorts 六月初試 4 週
📋 待辦清單
· 電子報排程從下個月開始
· Shorts 4 週後評估流量再決定是否正式投入
左邊是 Whisper 直接吐出來的純文字、沒有標點、沒有段落。右邊是丟給 Claude Code 整理後的結構化筆記。 這一步通常是實務上最值得花時間的一段,因為純文字逐字稿放在那邊沒人會看,整理過的筆記才是真的能用、能搜尋、能寫進 Notion。
跑之前先看一眼這幾個常見坑
這四個是我自己跑了上百支影片後最常踩、也最讓人卡住的問題。先掃過去、節省你之後 debug 的時間。
Groq API 免費版只接 25 MB 以下的檔案、影片動輒幾百 MB 直接丟會被拒。一定要先用 ffmpeg 抽音訊壓縮、60 分鐘影片壓完通常 12 到 15 MB。
Whisper 的 prompt 不是聊天用的、是給它的「詞彙提示」。超過 80 個字、開頭幾秒的音訊會被吃掉。 只放關鍵詞、不要寫整句、不要寫「請幫我準確逐字稿」這種廢話、它不吃這套。
跑 Python 腳本時直接報「API key not found」。API Key 不要寫死在程式碼裡(會被 commit 到 GitHub 外流)、
存進 ~/.zshrc 用環境變數讀。設完記得 source ~/.zshrc 或重開終端機才會生效。
很多人錄影前後留 10 到 30 秒空白等場控、Whisper 看到長靜音會自己幻聽出根本沒人說的句子(最常見的是「謝謝大家收看」「再見」)。
用文章裡的 silenceremove ffmpeg 寫法可以避免大部分情況。
🚫 順便提醒:Whisper prompt 絕對不做
- 不要寫整句、不要寫指令(「請忠實還原」「請加標點」都會被忽略)
- 不要塞超過 80 個中文字、會吃掉音訊開頭
- 不要每次都重寫 prompt、把你常用的人名 / 品牌 / 術語固定一份
- 不要在 prompt 放敏感資料、Groq 的 API 不保證不被用於改進模型
四件事先弄好,後面才能一鍵跑
這四件事各做一次就好、之後不用再碰。如果你已經有 Claude Code 跟 Python,這段大約 5 分鐘搞定。
1. 裝 ffmpeg
macOS(先裝 Homebrew):
Windows(PowerShell):
Linux(Debian / Ubuntu):
2. 拿一把 Groq API Key
到 console.groq.com 用 Google 登入、左側選 API Keys、按 Create、複製那串字串收好。 新帳號有免費額度可以先試。這串字千萬不要貼到 GitHub、Discord、Notion 公開頁面,等同信用卡號。
3. 把 Key 存進電腦(依你的 Shell 選一條)
不知道自己用哪個 Shell?打開終端機貼 echo $SHELL 看結果(macOS 新版預設 zsh、Linux 多半 bash)。
zsh(macOS Catalina 之後預設):
bash(多數 Linux / 舊版 macOS):
fish:
Windows PowerShell(永久生效):
4. 裝 Python 的 groq 套件
沒裝過 Python 的 Mac 用戶可以 brew install python 一起裝。
Shell 是你跟電腦溝通的「翻譯員」,你在終端機打的指令、由 Shell 解讀後告訴系統去做。 最常見的有 bash(老牌、Linux 預設)、zsh(macOS 從 Catalina 之後預設、語法跟 bash 幾乎一樣)、fish(語法現代、但跟 bash 不相容)、PowerShell(Windows 內建)。 比喻:像同樣是中文,台灣國語、廣東話、新加坡華語 用詞略有不同,會 bash 的人通常也能用 zsh、但 fish 跟 PowerShell 要重新學語法。
API Key 直接寫在 Python 程式裡會有兩個風險:(1) 一不小心 commit 到 GitHub 就外流、(2) 分享程式碼給別人 debug 時也跟著外流。 環境變數讓 Key 跟程式碼分開、程式只讀變數名、實際值留在你自己電腦上。 比喻:像信用卡號不寫在合約裡、只寫「依公司財務系統 ID 結算」。合約再多人傳閱也不會洩漏卡號。
環境變數安全嗎?做這幾件事更穩
老實說,環境變數不是「終極安全」只是「合理 minimum」。本機開發夠用、但要懂它的極限。
環境變數的真實狀態
環境變數其實是純文字存在你電腦的設定檔裡(~/.zshrc / ~/.bashrc 等)。
任何能登入你帳號的人、或拿到你硬碟備份的人、都看得到。所以它的安全性大致等同於「你電腦本身的安全」。
4 個務必要做的事
就算是「我只在本地跑、不會 commit」這種想法都要警惕。養成不寫死的習慣比省一行 code 重要。
如果你選用 .env 檔(很多 Python 專案會這樣)、務必在專案根目錄建 .gitignore 寫上 .env,避免 git 把它推上去。
用環境變數版的雖然沒這風險、但專案內任何含密碼的設定檔都該照辦。
Groq 後台可以對單把 Key 設「用量上限」。就算 Key 真的外流,最壞情況也只是浪費那幾塊美金,不會被刷爆。Anthropic、OpenAI 都有類似機制。
每個 API 平台都有 Revoke / Regenerate 按鈕。覺得 Key 不小心被截圖、貼到 LINE、發到 Threads?立刻去後台 revoke、產一把新的。動作快比掙扎要不要承認更重要。
想再升級一階?兩個推薦方向
方向 A · 用密碼管理工具的 CLI
1Password / Bitwarden 都有 CLI 工具,可以在跑 Python 腳本時即時注入 Key、用完不留在環境變數裡。
設定稍微麻煩、但連備份你的 ~/.zshrc 都不會帶到 Key。
方向 B · 用 macOS Keychain / Windows Credential Manager
系統內建的安全儲存區、需要密碼才能解鎖讀取。
macOS 用 security add-generic-password、Python 用 keyring 套件存取,
比裸的環境變數安全一階、但比商用 secret manager 簡單。
本機開發跟生產環境的處理方式不一樣。部署到 Zeabur / Vercel / Railway 等平台, 用平台後台的「環境變數設定」介面填、不要把 .env 上傳。 大型團隊則用 HashiCorp Vault、AWS Secrets Manager 這類專業工具集中管理。 但對「自己一個人跑逐字稿」這種規模、本機環境變數 + 後台額度限制完全夠。
把這套教給你的 Claude Code
前面 Setup 做完後、複製下面整段、貼到 Claude Code 對話框、按 Enter。它會幫你建好 Skill 檔、未來說「轉這支影片」就會跑。
主指令(複製貼進 Claude Code)
貼進去後 Claude Code 會幫你建好 ~/.claude/commands/transcribe-video.md 這個檔案。
之後不管打開哪個專案、只要說「幫我轉這支影片:~/Desktop/meeting.mp4」、它會跑完前兩段先給你純逐字稿、再問你要哪種整理方式(會議記錄、Podcast 章節、部落格草稿⋯)、整理完另存一個 .md 檔。
當你跑順了、可以再玩這些
這幾個是我自己跑出心得後陸續加上去的功能,你可以隨時回來挑一個試。
批次處理一整個資料夾
同樣的 Skill 改一下、丟 ~/Videos/2026-Q2/ 整個資料夾、Claude Code 會自動列出所有 mp4、一支一支跑、最後給你一份總表。
跑 20 支也只要 5 分鐘、總成本不到 10 元。
影片很長、超過 25 MB 怎麼辦
三條路:(1) 升級 Groq Dev tier(免費註冊就能升、上限變 100 MB);(2) 把 ffmpeg 那段位元率再壓低到 16 kbps(人聲還能聽);(3) 用 ffmpeg 切成 30 分鐘一段、逐段跑完再合併。 我自己 90 分鐘以上的訪談都用第三種、最穩。
幻聽偵測
跑完逐字稿、再叫 Claude 掃一遍:找重複超過 3 次的句子、整段相同的段落、明顯不合理的句子,標記出來人工複核。 我自己跑 80 分鐘訪談、平均會有 1 到 2 個小幻聽、提前抓出來才不會誤導後續分析。
多語混合(中英夾雜的訪談)
把 language="zh" 改成 language=None 讓 Whisper 自動偵測、
或者拆兩遍跑(一遍中文、一遍英文、再合併)。實測中英 5 比 5 的訪談、zh 模式準度大概 85%、auto 模式 90%。
跟 Notion / Google Drive 自動串接
讓 Skill 跑完不只存本地、自動寫進 Notion 頁面或 Google Drive 對應資料夾。 這部分要連 MCP(Model Context Protocol),是 Claude Code 的官方擴充機制。 搭配自己的工作流:影片進 Drive、逐字稿自動生、筆記自動寫進 Notion,整套幾乎是無人值守。
看完這篇你會的
拆任務、選對工具
不要找「一個工具搞定全部」。把影片轉逐字稿拆成三段、每段用最便宜最快的方法、再用 AI 串起來。這個思維能套到很多自動化任務。
本地預處理永遠值得
丟給雲端 API 之前先在自己電腦處理過、可以省錢(檔案小)、提高品質(去靜音防幻聽)、保住隱私(敏感片段可以先切掉)。
把 SOP 寫成 Skill
每次重複的事都該變成 Skill。一次寫好、未來幾百次都自動跑。Claude Code 的價值不在「幫你打字」、在「記住你的工作流」。
📚 引用來源
- Groq 官方價格頁:groq.com/pricing(Whisper Large v3 Turbo $0.04/hr、228x 速度因子)
- Groq Whisper API 規格:console.groq.com/docs/speech-to-text(檔案上限 25 MB / 100 MB、最低 10 秒計費)
- ffmpeg silenceremove filter:ffmpeg.org/ffmpeg-filters.html(去靜音官方語法)
- OpenAI Whisper 模型:openai.com/index/whisper(原始開源模型)