Arey Liu 隨筆紀錄

Mozilla Deep Speech 中文心得

因為一些特殊原因導致我需要開始接觸 Speech to text (STT) 這塊領域完全對這方面不熟，於是乎就開始了收集資料之旅有些推薦的教學影片如果有想知道STT如何實踐的，可以去看李宏毅老師的影片真的看完就豁然開朗了起來！！！建議有興趣的可以去看看這篇主要是怕自己忘記如何實踐Deep speech for 中文因為在 discourse.mozilla.org 看了很多篇慢慢整理所以有了這篇的紀錄來記錄自己的心路歷程首先是數據的部份訓練的語料庫我是用THCHS30的 open data (期待之後Common voice 出中文的資料集) 還有一些自己錄的音檔、TED的影片＆字幕等等 THCHS30的資料下載點： http://www.openslr.org/18/ 有興趣的人也是可以去下載 AISHELL 的資料 AISHELL 下載點： http://www.openslr.org/33/ 只是這兩個資料都需要稍稍整理一下正文開始！ 1. 需要建立自己的alphabet.txt 因為是中文所以不能用Deep speech的alphabet.txt （因為裡面是a b c d）所以需要添加自己的中文字(是字不是詞) 所有語料庫中有出現過的字都必須出現在這份檔案中所以我就... 寫個小小的script 把所有transcript中的字都塞進去這裡面因為中文字大概有幾萬個字吧...慢慢列是會要人命的... 當然網路上可能有大神們整理過的找找看或許有吧 2. 建立 train, dev, test 三個資料夾然後把音檔全部都丟丟進去分配的比率看個人喜好我自己是 70 : 20 : 10 見仁見智然後建立 train.csv, dev.csv, test.csv 這三個csv中，應該有三種資料 (依序)：路徑、檔案大小(bytes)、音檔對應到的文字(transcript) 大概像是這樣子： wav_filename,wav_filesize,transcript data/thchs30_data/test/D11_750.wav,333356,東北軍的一些愛國將士馬佔山李...

閱讀完整內容

Arey Liu 隨筆紀錄

搜尋此網誌

發表文章

Mozilla Deep Speech 中文心得