gpt4 book ai didi

html - 如何从 HTML 中提取有意义的文本

转载 作者:太空狗 更新时间:2023-10-29 15:09:29 26 4
gpt4 key购买 nike

我想解析一个 html 页面并从中提取有意义的文本。任何人都知道一些好的算法来做到这一点?

我在 Rails 上开发我的应用程序,但我认为 ruby​​ 在这方面有点慢,所以我认为如果在 c 中存在一些好的库,那将是合适的。

谢谢!!

PD:请不要用java推荐任何东西

更新:我找到了这个 link text

遗憾的是,是在python中

最佳答案

使用Nokogiri ,速度很快,用 C 语言编写,适用于 Ruby。

(使用正则表达式来解析像 HTML 这样的递归表达式是 notoriously difficult and error prone,我不会走那条路。我只在答案中提到这一点,因为这个问题似乎一次又一次地出现。)

使用像上面提到的 Nokogiri 这样的真实解析器,您还可以获得额外的好处,即保留 HTML 文档的结构和逻辑,有时您确实需要这些线索。

关于html - 如何从 HTML 中提取有意义的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3969426/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com