gpt4 book ai didi

php - 如何从网页中提取有意义有用的内容?

转载 作者:太空狗 更新时间:2023-10-29 18:04:59 25 4
gpt4 key购买 nike

<分区>

我想解析一个网页并从中提取有意义的内容。有意义的是指用户希望在该特定页面中看到的内容(仅文本)(不包括广告、横幅、评论等的数据)我想确保当用户保存页面时,他想要的数据read 被保存,没有别的。

简而言之,我需要构建一个像可读性一样工作的应用程序。 ( http://www.readability.com ) 我需要获取网页的有用内容并将其存储在单独的文件中。我真的不知道该怎么做。

我不想使用需要我连接到互联网并从他们的服务器获取数据的 API,因为数据提取过程需要离线完成。

我想到了两种方法:

  1. 使用基于机器学习的算法(例如:http://ai-depot.com/articles/the-easy-way-to-extract-useful-text-from-arbitrary-html/)

  2. 开发一个可以令人满意地从网页中删除所有困惑的网络抓取工具。

是否有执行此操作的现有工具?我遇到了样板库 ( http://code.google.com/p/boilerpipe/ ) 但没有使用它。有人用过吗?它能给出令人满意的结果吗?有没有其他工具,特别是用 PHP 或 Python 编写的工具,可以进行这种网络抓取?

如果我需要构建自己的工具来执行此操作,你们有什么建议?

因为我需要在开始解析之前清理凌乱或不完整的 HTML,所以我会使用像 Tidy (http://www.w3.org/People/Raggett/tidy/) 或 Beautiful Soup (http://www.crummy.com/software/BeautifulSoup/bs4/doc/) 这样的工具来完成这项工作。

但我不知道如何在这一步之后提取内容。

附言。我是一名业余爱好者,如果可以使用开源工具来执行此操作并且可以轻松集成到我将用 PHP 或 Python 编写的代码中,我会很高兴。或者,如果我必须编写自己的代码,我很乐意得到以前做过此类工作的人的指导! :)非常感谢!

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com