2011年8月19日金曜日

PDFからテキストを抽出する方法

PDFからテキストの抽出はlinuxのほうが簡単でしたので記録しときます。
私の環境(Ubuntu 11.04)では英語のPDFを以下のようにすることでtxtファイルに変換できました。

1.pdftotextをインストールする。

>sudo apt-get install pdftotext

2.PDFファイルをテキストファイルに変換する。

>pdftotext [PDFファイル名]

3.txtファイルが作成されるので確認する。

4.改行コードをWindows(CR+LF)にしたい場合は以下のようにperlスクリプトを実行する。

>perl -p -e 's/\n/\r\n/' [変換前].txt > [変換後].txt