分類
其它

中文OCR與繁簡轉換

以看到的這條豆瓣廣播為例。保存圖片後打開Online OCR(遊客每小時可轉換15個文件),上傳圖片即可轉換為文本。對於標準字型的文本識別率還是蠻高的,但是換行時會有多餘的空格。人工刪除空個後打開這個繁體簡體轉換/編碼轉換,粘貼文本到輸入框,點擊轉換為繁體按鈕,即可轉換實現繁簡轉換。

在 Fedora39 上可以安裝 gImageReader 來執行 tesseract-ocr。PDF 文件也可以直接打開。用鼠標選取要識別的區域,右鍵選識別就可以了。

sudo dnf install gimagereader-gtk
#安裝簡體中文、繁體中文、繁體中文直排支持
sudo dnf install tesseract-langpack-chi_sim tesseract-langpack-chi_tra tesseract-langpack-chi_tra_vert tesseract-script-hans tesseract-script-hant tesseract-script-hant_vert

本文更新於 2024/04/18。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *