티스토리 뷰
반응형
#Python3
#!pip install pdfminer
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from io import StringIO
def pdf_to_text(pdfname):
# PDFMiner boilerplate
rsrcmgr = PDFResourceManager()
sio = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, sio, laparams=laparams)
interpreter = PDFPageInterpreter(rsrcmgr, device)
# Extract text
fp = open(fxx, 'rb')
for page in PDFPage.get_pages(fp):
interpreter.process_page(page)
fp.close()
# Get text from StringIO
text = sio.getvalue()
# Cleanup
device.close()
sio.close()
return text
반응형
'Devolopment > Python' 카테고리의 다른 글
python으로 CPU core 및 mac address 얻는 방법 (0) | 2022.06.20 |
---|---|
Python3 AES 암호화, 복호화 (0) | 2022.06.20 |
STRIP TAGS AND JAVASCRIPT FROM HTML PAGE, LEAVING ONLY SAFE TAGS (PYTHON RECIPE) (0) | 2020.03.17 |
python에서 두개의 dictionary를 하나로 합치는 방법 (0) | 2020.03.16 |
Python으로 만든 데몬을 시작/중지/재시작 시키는 쉘스크립트 예제. (0) | 2020.03.02 |
반응형
최근에 달린 댓글