gpt4 book ai didi

python - 有没有办法使用 Python 或某些 NLP 技术从字符串中删除不需要的空格? (不是尾随或额外的空格)

转载 作者:行者123 更新时间:2023-12-05 05:44:35 26 4
gpt4 key购买 nike

s = “20 多年来,这项投资的成本是中性的,因为它包含在适度的“舒适收费™ 中,低于基于油井的同等能源费用 -经证实的 EnergieSprong 模型。资本预算 我们建议理事会加入不断壮大的地方当局行列,而不是投机性地投资商业地产,因为商业案例尚不明确开发新的太阳能农场。这符合我们的政策目标,并提供适度但安全的返回(扣除借款)。我们建议投资 5100 万英镑(类似于最初打算用于商业属性(property)的金额)”

这是使用基本 python 及其 PyPDF 库从 web pdf 中截取的文本

我想删除粗体字中不需要的空格。

注意:我手动将它们设为粗体只是为了解释我的问题。如果有人能提供帮助,我将不胜感激。非常感谢!

最佳答案

this thread 中查看我的和其他答案.

假设您从 this DOCX 中获取文本或 this PDF : 如果您有 DOCX,请使用它而不是 pdf,因为 docx 是一种基于 XML 的格式,可以从中提取文本而不会出错。

您还会注意到,如果您将 pdf 文档复制并粘贴到任何其他文本文档,您将不会得到这些错误的空格,因为这是导致 PDF 解析器工作方式的问题(被水平间距弄糊涂了)的字符,并根据字符位置做出错误的假设,其中有一个空格)。

您可以先尝试不同的解析器或复制并粘贴(当然只有当它不是图像 PDF 时才有效)到易于解析的格式以避免这些问题。

通常,您可以通过尝试修复生成的文本来降低错误率(如果您真的想这样做,请查看光学字符识别后校正/OCR 后校正),但不要浪费时间改进解析可能会更有效。

关于python - 有没有办法使用 Python 或某些 NLP 技术从字符串中删除不需要的空格? (不是尾随或额外的空格),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/71568547/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com