pdftotext是一個簡單的很多linux發行版都自帶的小工具,可以把pdf轉換成txt文本。它沒有使用ORC,所以只能轉換文本的pdf。可以通過設置起始坐標和截取的高度寬度來避開pdf文檔中的header和頁碼,命令如下:
pdftotext -x 50 -y 100 -H 550 -W 400 -nopgbrk -eol unix source.pdf
split是一個分割小工具,可以把大文件切成幾個小文件。下面這條命令將temp.txt分割成10KB一個的文件,並且不打斷原有的行(這個功能很好,我試過不用這個參數,結果漢字被硬生生分開到了兩個文件)。分割後的文件命名如temp_1.txt。
split -C 10KB -d temp.txt temp_