gpt4 book ai didi

php - 如何修复从 HTML 中提取的纯文本的句子间距?

转载 作者:太空宇宙 更新时间:2023-11-04 15:38:53 30 4
gpt4 key购买 nike

我正在从特定的 URL 中提取文章以转换为句子,但文本正文具有消除某些句子之间的空格的随机行为,导致:

Jane went to the store.She bought a dog. The dog was very friendly.It had no teeth.

我的一些文本是股票代码 (AZ.GAN) 等。所以我不能简单地在没有相邻空格的所有句点之间插入一个空格。

Jane bought several shares of (TY.JPN). She lost all her cash money."Arg!" She cried.

上面的例子会破坏股票代号变量。

好奇有没有人知道这是什么原因。我已经尝试了几种 HTML 和 DOM。我使用 Simple_DOM 来抓取明文。虽然,如果我手动执行或使用任何其他解析引擎,我会得到相同的结果。

最佳答案

不幸的是,我没有办法解决您的具体问题,但是否有可能句子之间缺少的空格实际上是换行符(例如\n),而您的文本查看器(无论它是什么)没有向您显示?

也许尝试这样的事情只是为了确定


var articleContent = ... // get content<br/>
articleContent = articleContent.replace(/\n/g, ' NEW LINE ');

关于php - 如何修复从 HTML 中提取的纯文本的句子间距?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5826066/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com