中文OCR與繁簡轉換

以看到的這條豆瓣廣播為例。保存圖片後打開Online OCR(遊客每小時可轉換15個文件)，上傳圖片即可轉換為文本。對於標準字型的文本識別率還是蠻高的，但是換行時會有多餘的空格。人工刪除空個後打開這個繁體簡體轉換/編碼轉換，粘貼文本到輸入框，點擊轉換為繁體按鈕，即可轉換實現繁簡轉換。

在 Fedora39 上可以安裝 gImageReader 來執行 tesseract-ocr。PDF 文件也可以直接打開。用鼠標選取要識別的區域，右鍵選識別就可以了。

sudo dnf install gimagereader-gtk
#安裝簡體中文、繁體中文、繁體中文直排支持
sudo dnf install tesseract-langpack-chi_sim tesseract-langpack-chi_tra tesseract-langpack-chi_tra_vert tesseract-script-hans tesseract-script-hant tesseract-script-hant_vert

本文更新於 2024/04/18。

發佈留言 取消回覆

發佈留言取消回覆