gpt4 book ai didi

c# - 获取网页的 "summary"

转载 作者:太空宇宙 更新时间:2023-11-04 14:08:32 30 4
gpt4 key购买 nike

我有一个棘手的问题,我想生成几段给定 url 的“描述”,通常是文章的开头。元描述字段是一种方法,但它并不总是好的或设置正确。

公平地说,从屏幕抓取的 HTML 中完成此操作有点问题。我有一个大致的想法,也许有人可以扫描 HTML 以找到第一个“适当”的片段,但很难说那是什么,也许类似于包含一定数量文本的第一段......

大家有什么好主意吗? :) 它不一定是万无一失的

最佳答案

那么,您想成为新的 Google 吗? :-)

如今,许多网站都“对 SEO 友好”。这使您能够查找标题,然后查找下面的段落。

另外,寻找列表。在某种类似选项卡(选项卡、 Accordion ...)的界面中有很多内容是使用有序或无序列表完成的。

如果失败,可能会寻找一个类为“content”或“main”或组合的 div,然后从那里开始。

如果您使用不同的方法,请确保您保留了有效方法和无效方法的统计信息(甚至可以保存整页),以便您可以审查和调整您的解析和搜索方法。

作为旁注,我使用了 htmlagilitypack成功解析和搜索 html。好吧,至少它胜过使用正则表达式进行解析:-)

关于c# - 获取网页的 "summary",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2941477/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com