因為一些特殊原因 導致我需要開始接觸 Speech to text (STT) 這塊領域 完全對這方面不熟,於是乎就開始了收集資料之旅 有些推薦的教學影片如果有想知道STT如何實踐的,可以去看 李宏毅老師的影片 真的看完就豁然開朗了起來!!! 建議有興趣的可以去看看 這篇主要是怕自己忘記如何實踐Deep speech for 中文 因為在 discourse.mozilla.org 看了很多篇 慢慢整理 所以有了這篇的紀錄 來記錄自己的心路歷程 首先是數據的部份 訓練的語料庫我是用THCHS30的 open data (期待之後Common voice 出中文的資料集) 還有一些自己錄的音檔、TED的影片&字幕 等等 THCHS30的資料下載點: http://www.openslr.org/18/ 有興趣的人也是可以去下載 AISHELL 的資料 AISHELL 下載點: http://www.openslr.org/33/ 只是這兩個資料都需要稍稍整理一下 正文開始! 1. 需要建立自己的alphabet.txt 因為是中文 所以不能用Deep speech的alphabet.txt (因為裡面是a b c d) 所以需要添加自己的中文字(是字不是詞) 所有語料庫中 有出現過的字 都必須出現在這份檔案中 所以我就... 寫個小小的script 把所有transcript中的字都塞進去這裡面 因為中文字大概有幾萬個字吧...慢慢列是會要人命的... 當然網路上可能有大神們整理過的 找找看或許有吧 2. 建立 train, dev, test 三個資料夾 然後把音檔全部都丟丟進去 分配的比率 看個人喜好 我自己是 70 : 20 : 10 見仁見智 然後建立 train.csv, dev.csv, test.csv 這三個csv中,應該有三種資料 (依序):路徑、檔案大小(bytes)、音檔對應到的文字(transcript) 大概像是這樣子: wav_filename,wav_filesize,transcript data/thchs30_data/test/D11_750.wav,333356,東 北 軍 的 一 些 愛 國 將 士 馬 佔 山 李...