gpt4 book ai didi

python - PDFminer 空输出

转载 作者:太空狗 更新时间:2023-10-29 23:57:21 25 4
gpt4 key购买 nike

在处理 file 时使用 pdfminer (pdf2txt.py) 我收到空输出:

dan@work:~/project$ pdf2txt.py  docs/homericaeast.pdf 

dan@work:~/project$

有人能说说这个文件有什么问题吗?我该怎么做才能从中获取数据?

这是 dumppdf.py docs/homericaeast.pdf 输出:

<trailer>
<dict size="4">
<key>Info</key>
<value><ref id="2" /></value>
<key>Root</key>
<value><ref id="1" /></value>
<key>ID</key>
<value><list size="2">
<string size="16">on&#10;&#164;&#181;F&#164;5&#193;&#62;&#243;_&#253;v&#172;`</string>
<string size="16">on&#10;&#164;&#181;F&#164;5&#193;&#62;&#243;_&#253;v&#172;`</string>
</list></value>
<key>Size</key>
<value><number>27</number></value>
</dict>
</trailer>

<trailer>
<dict size="4">
<key>Info</key>
<value><ref id="2" /></value>
<key>Root</key>
<value><ref id="1" /></value>
<key>ID</key>
<value><list size="2">
<string size="16">on&#10;&#164;&#181;F&#164;5&#193;&#62;&#243;_&#253;v&#172;`</string>
<string size="16">on&#10;&#164;&#181;F&#164;5&#193;&#62;&#243;_&#253;v&#172;`</string>
</list></value>
<key>Size</key>
<value><number>27</number></value>
</dict>
</trailer>

最佳答案

现在我已经修复了 /OneByteIdentityH 的问题,类似于两字节 unicode 映射 /Identity-H 的代码。补丁在PR #179

关于python - PDFminer 空输出,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43832499/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com