gpt4 book ai didi

html - 来自 HTML 的合理纯文本

转载 作者:搜寻专家 更新时间:2023-10-31 08:09:01 24 4
gpt4 key购买 nike

我需要任意 HTML 文件(例如,博客文章)的纯文本表示。到目前为止这不是问题,有许多 HTML 到 txt 转换器。但是,段落中的文本(阅读“p 元素”)应该在纯 TextView 中对齐(到一定数量的列),并且如果可能的话,连字符以提供更好的可读性结果。此外,生成的文本文件必须是 UTF-8 或 UTF-16。

我可以使用 XSLT 进行简单的纯文本对话,这几乎是微不足道的。但是文本的合理性超出了它的可能性(不完全正确,因为 XSLT 是图灵完备的,但足够接近现实)。

FOP和 XSL-FO 也不起作用。他们按要求做了,但 FOP 的纯文本输出很糟糕(开发人员说,它不适合这种用途)。

我也尝试过 HTML -> XSLT -> Roff,但我仍然坚持使用 groff,它的 Unicode 支持远非最佳。由于存在诸如省略号 ("...") 和打印正确的引号之类的字符,因此在 XSLT 样式表中告诉 groff 数十个 Unicode 字符的转义序列非常麻烦。

另一种方法可能是转换为 TeX 并输出为纯文本,但我以前从未在 (La)TeX 上尝试过。

也许我错过了一些非常简单的事情。有谁知道我如何实现上述目标?顺便说一句:解决方案应该最好在没有 root 权限的情况下使用 PHP、Python、Perl、XSLT 或在半正经的 Linux 发行版中找到的任何程序。

最佳答案

试试 Python。使用 BeautifulSoup解析 HTML。 textwrap module将允许您格式化文本。

不过,缺少两个功能。为了使文本对齐,您需要在每一行中添加空格,但这应该不是什么大问题(请参阅 this code example)。

对于断字,请尝试 this project .

关于html - 来自 HTML 的合理纯文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1648704/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com