gpt4 book ai didi

从 HTML 页面中提取内容(不包括导航)的 python 方法

转载 作者:太空狗 更新时间:2023-10-29 13:42:25 24 4
gpt4 key购买 nike

当然,可以使用任意数量的 python 解析器解析 HTML 页面,但令我惊讶的是似乎没有任何公共(public)解析脚本可以从给定 HTML 文档。

我猜这类似于收集 DIV 和 P 元素,然后检查它们是否包含最少的文本内容,但我确信可靠的实现会包含很多我没有想到的东西。

最佳答案

试试 Beautiful Soup Python 库。它具有从 html 文件中提取信息的非常简单的方法。

尝试从网页中提取数据通常需要人们以类似的方式编写他们的页面...但是几乎有无数种方法可以传达看起来相同的页面,更不用说您必须传达的所有组合了相同的信息。

您是否尝试提取特定类型的信息或其他一些最终目标?

您可以尝试提取“div”和“p”标记中的任何内容,并比较页面中所有信息的相对大小。那么问题是人们可能将信息分组到“div”和“p”的集合中(或者至少他们在编写格式良好的 html 时这样做!)。

也许如果你构建了一个信息相关的树(节点可以是 'p' 或 'div 或其他任何东西,每个节点将包含相关的文本)你可以做一些分析来识别最小的 'p ' 或 'div' 似乎包含大部分信息.. ?

[编辑] 也许如果你能把它放到我建议的树结构中,你就可以使用类似的积分系统来发送垃圾邮件刺客。定义一些试图对信息进行分类的规则。一些例子:

+1 points for every 100 words
+1 points for every child element that has > 100 words
-1 points if the section name contains the word 'nav'
-2 points if the section name contains the word 'advert'

如果您有很多低分规则,当您发现更多看起来相关的部分时这些规则加起来,我认为这可能会演变成一种相当强大和稳健的技术。

[EDIT2] 看看可读性,它似乎完全按照我刚才的建议做了!也许可以改进以更好地理解表格?

关于从 HTML 页面中提取内容(不包括导航)的 python 方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/796490/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com