【Python】PDFをテキストに変換する方法

PDFの内容をコピペするのって大変。

Pythonを使えばPDF内の文字をテキストファイルに変換できる。

仕事でPDFの内容をまとめたいときや、AIに文字として入力したい時に役立つ。

avocado

avocadoです。X、Instagramやってます。お問い合わせはDMまで。

準備
Pythonのコード
最後に

準備

事前にライブラリをインストールしておきます。

pip install PyMuPDF

Pythonのコード

import fitz

pdf_path = '/Users/user_name/pdf/document_name.pdf’
txt_path = '/Users/user_name/output/output.txt'

def pdf_to_text(pdf_path, txt_path):
    # PDFファイルを開く
    pdf_document = fitz.open(pdf_path)
    
    # テキストを格納するリスト
    text = []
    
    # 各ページを処理
    for page_num in range(len(pdf_document)):
        page = pdf_document.load_page(page_num)
        text.append(page.get_text())
    
    # テキストをファイルに書き込む
    with open(txt_path, 'w', encoding='utf-8') as txt_file:
        txt_file.write("\n".join(text))

pdf_to_text(pdf_path, txt_path)

最後に

十数行のコードでサクッとできるのがPythonのいいところですよね。

ぜひ使ってみてください。