gpt4 book ai didi

html - 通过排除导航和 chrome 内容从 HTML 页面中提取纯内容/文本

转载 作者:搜寻专家 更新时间:2023-10-31 08:12:43 24 4
gpt4 key购买 nike

我正在爬新闻网站,想提取新闻标题、新闻摘要(第一段)等

我插入了 webkit 解析器代码,可以像树一样轻松地浏览网页。为了消除导航和其他非新闻内容,我采用文章的文本版本(减去 html 标签,webkit 提供了相同的 api)。然后我运行 diff 算法比较来自同一网站的各种文章的文本,这导致相似的文本被消除。这给我的内容减去了常见的导航内容等。

尽管采用了上述方法,但我在最终文本中仍然遇到了很多垃圾。这会导致提取不正确的新闻摘要。错误率为 10 篇文章中有 5 篇,即 50%。错误如

你会吗

  1. 提出纯内容提取的替代策略,

  2. 学习自然语言处理是否/可以帮助从这些文章中提取正确的摘要?

  3. 您将如何解决上述问题?

  4. 这些是相同的研究论文吗?

问候

安库古普塔

最佳答案

你可以看看我的 boilerpipe Google Code 上的项目并使用 Google AppEngine 上的实时网络应用程序(从那里链接)在您选择的页面上测试它。

我正在研究这个领域并写了一些关于从 HTML 页面中提取内容/样板文件的论文。例如,请参阅“使用浅文本特征进行样板检测”并在 VideoLectures.net 上观看相应的视频。这篇论文应该能让您很好地了解该领域的最新技术水平。

干杯,

基督徒

关于html - 通过排除导航和 chrome 内容从 HTML 页面中提取纯内容/文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1696914/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com