gpt4 book ai didi

html - 类似 Instapaper 的算法

转载 作者:技术小花猫 更新时间:2023-10-29 11:40:58 24 4
gpt4 key购买 nike

有人知道从网页中提取内容的算法吗?喜欢instapaper

最佳答案

Instapaper 有两个步骤:

  1. 找到页面上的主要内容 block (不包括页眉、页脚、菜单等)
  2. 从此内容 block 中提取格式化文本

要查找内容 block (通常是一些 html block 元素,如包含关键页面文本内容的 div)Instapaper 使用的算法与 readability 使用的算法非常相似。 .你可以看看source of readability.js看看发生了什么,但它的核心是试图找到页面上文本/链接比率最高的区域,尽管它也有一些其他简单的评分指标(例如,在我的脑海中,诸如文本比率之类的东西到启发式中的逗号、段落元素等)。

一旦确定了根节点元素和相关内容,就需要对其进行格式化,如果需要,您可以将包含文本的节点元素从源文档中拉出并将其插入到您的文档中,但是实际上,您可能希望删除现有样式并应用您自己的样式,以获得标准的外观和感觉。如果你想输出漂亮的纯文本,你可以使用 Jericho 的 Renderer .

update1:我还应该提一下 Instapaper 做的其他事情 - 跟随“分页”链接(“下一个”或“1”、“2”、“3”链接) 到文章的结论,这样一篇可能跨越原文中许多页的文章将作为单个文档呈现给您。

update2 我最近遇到了这个 comparison of text extraction algorithms

关于html - 类似 Instapaper 的算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4283418/

24 4 0
文章推荐: html - 使用溢出时无填充 : auto
文章推荐: jquery - 超出浏览器宽度时自动定位工具提示
文章推荐: 带导航栏的 CSS 全高两列布局
文章推荐: html - 如何将

元素置于

Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com