PDFからテキストの抽出はlinuxのほうが簡単でしたので記録しときます。
私の環境(Ubuntu 11.04)では英語のPDFを以下のようにすることでtxtファイルに変換できました。
1.pdftotextをインストールする。
>sudo apt-get install pdftotext
2.PDFファイルをテキストファイルに変換する。
>pdftotext [PDFファイル名]
3.txtファイルが作成されるので確認する。
4.改行コードをWindows(CR+LF)にしたい場合は以下のようにperlスクリプトを実行する。
>perl -p -e 's/\n/\r\n/' [変換前].txt > [変換後].txt
0 件のコメント:
コメントを投稿