gpt4 book ai didi

python - 无法使我的脚本以所需的格式打印输出

转载 作者:行者123 更新时间:2023-11-28 21:31:55 27 4
gpt4 key购买 nike

我正在尝试从 pdf 文件中提取文本的特定部分。我使用 PyPDF2 库来做到这一点。但是,当我执行下面的脚本时,我可以看到我想要抓取的内容正在笨拙地打印在控制台中。

到目前为止我已经写过:

import io
import PyPDF2
import requests

URL = 'http://www.ct.gov/hix/lib/hix/CT_DSG_-12132014_version_1.2_%28with_clarifications%29.pdf'

res = requests.get(URL)
f = io.BytesIO(res.content)
reader = PyPDF2.PdfFileReader(f)
contents = reader.getPage(0).extractText()
print(contents)

我的输出:

ACCESSHEALTHCTConnecticutAllPayersClaimsDatabaseDATASUBMISSIONGUIDE
December5,2013
Version1.2(withclarifications)

我希望抓取的输出如下:

ACCESS HEALTH CT
Connecticut All Payers Claims Database
DATA SUBMISSION GUIDE
December 5, 2013
Version 1.2 (with clarifications)

最佳答案

这是 pyPDF2 的问题,原因是 PyPDF 不读取换行符。或者您也可以pdftotext

简单干净,您可以循环页面或提取一页。

import io
import requests
import pdftotext
URL = 'http://www.ct.gov/hix/lib/hix/CT_DSG_-12132014_version_1.2_%28with_clarifications%29.pdf'
res = requests.get(URL)
f = io.BytesIO(res.content)
pdf = pdftotext.PDF(f)
print(pdf[0])
# Iterate over all the pages
# for page in pdf:
# print(page)

enter image description here

关于python - 无法使我的脚本以所需的格式打印输出,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57344233/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com