본문 바로가기
Programming/Python

[Python] PDF 파일에서 텍스트를 추출하는 방법

by 혀코 2022. 7. 11.

 

안녕하세요. 혀코입니다.

이번 시간에는 PDF에서 파일에서 텍스트만 추출하는 방법에 대해 알아보겠습니다.

 

PDF파일에서 텍스트를 추출하려면 python 라이브러리 중 하나인 PyPDF2가 설치되어 있어야 합니다.

Python PYPDF2 라이브러리를 설치합니다.

$ pip install PyPDF2

 

python 코드를 작성할 폴더안에 pdf 파일을 하나 다운로드 받아 놓습니다. 

그리고 다음 코드를 실행하면 PDF 파일에서 텍스트를 추출할 수 있습니다.

 

import PyPDF2
pdf = open("sample.pdf", "rb")
reader = PyPDF2.PdfFileReader(pdf)
page = reader.getPage(0)
print(page.extractText())

 

이렇게 PDF 파일에서 텍스트만 추출하는 방법에 대해서 알아봤습니다.

해당 정보가 유용하셨다면, 공감과 구독 부탁 드립니다.

감사합니다. :)

댓글