gpt4 book ai didi

javascript - 如何从随机网页中抓取文本和图像?

转载 作者:太空狗 更新时间:2023-10-29 13:45:12 24 4
gpt4 key购买 nike

我需要一种方法来直观地表示互联网上的随机网页。

比方说this网页。

目前,这些是我可以使用的标准 Assets :

  • 网站图标:太小,太抽象。
  • 标题:非常具体但视觉美感较差。
  • URL:没有人愿意阅读。
  • 图标:太抽象了。
  • Thumbnail:很难得到,太丑了(许多元素挤在一个小空间里)。

我需要以一种非常有意义并吸引其他人点击的方式在视觉上代表一个随机网站。

我需要类似 Facebook 在您共享链接时所做的事情:

enter image description here

它会删除图片链接,然后创建一个漂亮且有意义的磁贴,吸引用户点击。

enter image description here

有什么方法可以从网站上抓取图片和文字?我主要对 Objective-C/JavaScript 组合感兴趣,但任何东西都可以,并且会被选为批准的答案。

编辑:重写帖子并更改标题。

最佳答案

网站通常会为用户友好的社交媒体共享提供元信息,例如 Open Graph protocol tags .事实上,在您自己的示例中,reddit 页面具有构成链接预览中信息的 Open Graph 标签(查找具有 og: 属性的元标签)。

后备方法是为尚未符合 standardized format 的大多数流行网站实现特定于站点的解析代码。或者尝试大致猜测给定网站上最突出的内容是什么(例如,首屏最大的图像、第一段的前几句话、标题元素中的文本等)。

前一种方法的问题在于,随着这些网站的变化和发展,您必须维护解析器;而对于后者,您根本无法可靠地预测页面上的重要内容,也不能指望总能找到您想要的内容。正在寻找其中之一(例如,缩略图的图像)。

由于您永远无法为 100% 的网站生成有意义的预览,因此归结为一个简单的问题。可接受的成功链接预览率是多少?如果它接近于解析标准元信息所能获得的结果,我会坚持使用它,这样可以省去很多麻烦。如果没有,除了上面共享的库之外,您还可以查看付费服务/API,它们可能涵盖比您自己所能涵盖的更多用例。

关于javascript - 如何从随机网页中抓取文本和图像?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49341918/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com