この記事の前提:対象のPDFファイルが文字情報を持っていること。
pdfminerをインストール
「pdfminer.six」を使ってPDFファイルにあるテキスト情報を取り出します。
インストール
ターミナルを開いて下記コマンドを実行する。
$ pip3 install pdfminer.six
動作確認
下記コマンドをターミナルで実行。
$ python3 /Library/Frameworks/Python.framework/Versions/3.x/bin/pdf2txt.py sample.pdf
※macOSの場合
インストールが成功していれば、PDFファイルのテキストが標準出力に表示されます。