MENU
スポンサーリンク

【Python】PDFファイルからテキストを取り出す方法

2020 3/24
【Python】PDFファイルからテキストを取り出す方法

この記事の前提:対象のPDFファイルが文字情報を持っていること。

pdfminerをインストール

pdfminer.six」を使ってPDFファイルにあるテキスト情報を取り出します。

インストール

ターミナルを開いて下記コマンドを実行する。

$ pip3 install pdfminer.six

動作確認

下記コマンドをターミナルで実行。

$ python3 /Library/Frameworks/Python.framework/Versions/3.x/bin/pdf2txt.py sample.pdf

※macOSの場合

インストールが成功していれば、PDFファイルのテキストが標準出力に表示されます。

この記事を書いた人

Kaology は、私個人の経験や考えを基に発信している個人メディアです。

ブッシュクラフトやツーリング、タイニーハウス、読んだ本の話、ブログに関する話など、さまざまな内容をお届けしています。