gpt4 book ai didi

poppler - pdf2HtmlEX - html 上的文本与源 pdf 不同

转载 作者:行者123 更新时间:2023-12-04 20:01:04 27 4
gpt4 key购买 nike

我正在使用 pdf2htmlEX为了将pdf文件转换为html。之后我也从文件中提取文本。
问题:
我遇到一个文件,转换后的 html 中的文本不可读:
https://dspace.mit.edu/openaccess-disseminate/1721.1/101159
我使用的命令:

pdf2htmlEX --tounicode 1 ./file.pdf
html 上的文本有很多空格和很多引号 -
enter image description here

[2]"M."Ha h n ,"O ."B ar bie ri,"F.P ."Ca m p a na ,"R ."K öt z,"R ."G alla y,"A p pl."Ph ys ."A :"M a te r."S ci."P ro cess."8 2 "(2 00 6 )"


--tounicode 设置其他值arg 使文本变得乱七八糟。
有一个使用这个库的在线工具,在那里生成的 html 很好,这使它不是 pdf2htmlEX 错误,而是配置或版本问题。可能与 poppler 或 fontforge 有关。
版本:
pdf2htmlEX version 0.14.6
Copyright 2012-2015 Lu Wang <coolwanglu@gmail.com> and other contributors
Libraries:
poppler 0.54.0
libfontforge 20180906
cairo 1.14.6
Default data-dir: /usr/local/share/pdf2htmlEX
Supported image format: png jpg svg
还尝试使用支持该项目的新存储库并获得相同的结果,请参阅问题:
https://github.com/pdf2htmlEX/pdf2htmlEX/issues/92
据您所知,pdf2htmlEX 使用范围广泛的字符作为空格,例如 "' ( ) +。因此不能将它们全部替换。
有什么方法可以使 pdf2htmlEX 不使用这些字符?

最佳答案

我认为以下两个步骤将起作用:

  • 使用正则表达式删除不必要的空格和引号。
  • 为每个引用放置/添加段落标签,如下所示:

  • <div>
    ::before
    <p>[2] something </p>
    ::after
    </div>

    关于poppler - pdf2HtmlEX - html 上的文本与源 pdf 不同,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52199150/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com