gpt4 book ai didi

在网页中查找 'article' 的算法?

转载 作者:塔克拉玛干 更新时间:2023-11-03 05:10:01 24 4
gpt4 key购买 nike

一些浏览器插件,比如readability可以从网页中提取“文章”。有没有人知道如何去做?真实文章与广告或评论有什么区别?

最佳答案

嗯,这取决于你想如何定义“真正的文章”......

考虑到 HTML5,网页由语义标签构成。页面不再需要使用 <div> 等元素构建完全没有语义意义。在 HTML5 中你可以使用 <section> , <article> , <header> and so on .这些元素可以让应用程序很好地了解网页的主要内容是什么(例如打印 <article> s 并跳过 <nav> s...)

当然,还没有多少页面使用这些标签。此外,标签可能会被滥用并失去其意义。在那种情况下,我会坚持一些统计数据,例如选择 HTML 文档中最大的元素。此外,如果您必须抓取网页,您可以使用一些模式匹配算法的修改版,例如 DIPRE。

关于在网页中查找 'article' 的算法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12401973/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com