分類
软件

Mozilla的開源語音轉文字庫DeepSpeech

DeepSpeech 是一個開源的語音文字引擎,使用的是基於百度深度語音研究論文的機器學習技術訓練的模型。DeepSpeech 項目使用谷歌的 TensorFlow,以使實施更加容易。

#https://deepspeech.readthedocs.io/en/r0.9/?badge=latest
# 創建一個虛擬環境
virtualenv -p python3 $HOME/tmp/deepspeech-venv/
source $HOME/tmp/deepspeech-venv/bin/activate

# 安裝 DeepSpeech
pip3 install deepspeech

# 下載預編譯都英文模型文件
curl -LO https://github.com/mozilla/DeepSpeech/releases/download/v0.9.3/deepspeech-0.9.3-models.pbmm
curl -LO https://github.com/mozilla/DeepSpeech/releases/download/v0.9.3/deepspeech-0.9.3-models.scorer

# 下載測試音頻文件
curl -LO https://github.com/mozilla/DeepSpeech/releases/download/v0.9.3/audio-0.9.3.tar.gz
tar xvf audio-0.9.3.tar.gz

# 把音頻文件轉換成文字
deepspeech --model deepspeech-0.9.3-models.pbmm --scorer deepspeech-0.9.3-models.scorer --audio audio/2830-3980-0043.wav

使用 DeepSpeech 轉換法語

DeepSpeech 目前只預先訓練了英語和漢語普通話,如果要轉換法語,可以使用 Common Voice 下的 commonvoice-fr 中都模型。轉到發佈頁面,下載 model_tensorflow_fr.tar.xz 這個文件即可。實際使用中,你可能需要需要安裝 ffmpeg 和 vox 來轉換 mp3 格式都音頻文檔。轉換後的文字沒有段落,需要手動分段。

sudo dnf install ffmpeg sox
ffmpeg -i speech.mp3 speech.wav
deepspeech --model output_graph.pbmm --scorer kenlm.scorer --audio audio/speech.wav > speech.txt

如果想要把文字轉換成語音,可以使用Mozilla 的開源文字轉語音庫

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *