gpt4 book ai didi

language-agnostic - 以编程方式检测页面上的 "most important content"

转载 作者:行者123 更新时间:2023-12-04 04:44:57 26 4
gpt4 key购买 nike

为了自动确定html文档中最重要的数据,做了什么工作(如果有的话)?例如,以您的标准news/blog/magazine-style网站为例,其中包含导航(可能包含子菜单),广告,评论和奖品-我们的article/blog/news-body。

您如何确定新闻/博客/杂志上的哪些信息是自动生成的主要数据?

注意:理想情况下,该方法适用于格式正确的标记和糟糕的标记。有人使用段落标签来制作段落,还是一系列的中断。

最佳答案

Readability对此做得很好。

它是开源的posted on Google Code

更新:我看到(via HN)有人对mangle RSS feeds into a more useful format, automagically使用了可读性。

关于language-agnostic - 以编程方式检测页面上的 "most important content",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1003734/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com