gpt4 book ai didi

wordpress - 从博客(wordpress 或 blogger)获取所有帖子

转载 作者:行者123 更新时间:2023-12-02 10:20:07 24 4
gpt4 key购买 nike

这是假设无法直接访问 API。由于我请求所有帖子,我不确定 RSS 会有多大帮助。

我考虑了一个简单的系统,它将循环遍历每年和每月并下载每个 html 文件,但为每个年月对更改以下 URL。这适用于 WordPress 和博主博客。

http://www.lostincheeseland.com/2011/05    

但是有没有办法利用blogger提供的如下搜索功能返回所有博客呢?我已经尝试过它,但文档似乎很少。

http://www.lostincheeseland.com/search?updated-max=2012-08-17T09:44:00%2B02:00&max-results=6

还有其他我没有考虑过的方法吗?

最佳答案

您正在寻找的是 sitemap .

首先,您正在编写一个机器人,因此最好检查博客的 robots.txt文件。你瞧,您经常会发现那里提到的站点地图。这是 Google blog 中的示例:

User-agent: Mediapartners-Google
Disallow:

User-agent: *
Disallow: /search
Allow: /

Sitemap: http://googleblog.blogspot.com/feeds/posts/default?orderby=UPDATED

在这种情况下,您可以访问站点地图 URL 来获取 xml 站点地图。

对于 Wordpress,同样适用,但它不是标准内置的,因此并非所有博客都会拥有它。看看this plugin这是在 Wordpress 中创建这些站点地图的最流行的方法。例如,我的博客使用这个,您可以在 /sitemap.xml 找到站点地图。(标准位置)

简而言之:

  • 检查 robots.txt
  • 按照站点地图网址(如果存在)进行操作
  • 否则,请检查/sitemap.xml

另外: be a good Internet citizen !如果您要编写机器人,请确保它遵守 robots.txt 文件(例如 blogspot 明确告诉您不要使用 /search!)

关于wordpress - 从博客(wordpress 或 blogger)获取所有帖子,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12287190/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com