gpt4 book ai didi

html - 如何检索博客文章/新闻文章的主图像?

转载 作者:搜寻专家 更新时间:2023-10-31 08:38:06 25 4
gpt4 key购买 nike

我做了一个新闻聚合器 Newzupp我想修改。现在我只是显示新闻故事的标题,并将它们链接到它们的 url。

我打算通过使用图像 + 标题而不是普通标题来使其更加图形化。我想知道如何获取每篇文章的主图(有点类似于google news)。

我能想到的一种方法是我可以剥离所有图像并显示指向同一篇文章的图像。但我认为这不会有效。还有其他方法吗?


我已经找到了解决办法。

  1. 获取url [html/xml]的内容
  2. 使用 hpricot 抓取内容
  3. 找到标签为“img”的所有元素
  4. 做一些研究,找出其中哪一个是主要显示图像。 [如 Wired.com 的 rss feed 中的第 6 张图片]

我仍然认为这是非常低效的。我想知道 Google 新闻等服务如何抓取网站/博客并显示相关图片。

最佳答案

也许您可以按图像大小或 DOM 层次结构中的位置进行过滤/排序(即最接近正文顶部/紧接在 h1 标签之后)。

关于html - 如何检索博客文章/新闻文章的主图像?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3173896/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com