gpt4 book ai didi

java - 解析html页面并将内容(标题、文本等)存储到数据库中

转载 作者:行者123 更新时间:2023-12-01 05:53:49 27 4
gpt4 key购买 nike

有人知道一些开源工具来解析 html 页面、过滤广告、JS 等以获得标题、文本吗?我的应用程序的前端基于 LAMP。所以我需要解析html页面并将它们存储到Mysql中。并用这些数据填充首页。

我知道一些工具:Heritrix、Nutch。但看起来它们是爬虫。

谢谢。约瑟夫

最佳答案

这取决于网页中“文本”的含义。我做了类似的事情,使用 apache HttpClient 库抓取网页,然后使用 dom4j 查找要从中提取文本的特定标签。但实际上您确实需要与谷歌等搜索引擎使用相同类型的爬虫程序。您正在模拟他们抓取网站时执行的基本步骤。提取信息。如果您更详细地了解要从页面检索哪种信息,将会很有帮助。

关于java - 解析html页面并将内容(标题、文本等)存储到数据库中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3728968/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com