gpt4 book ai didi

python - 如何处理 Google 群组讨论抓取工具

转载 作者:太空宇宙 更新时间:2023-11-04 07:13:00 25 4
gpt4 key购买 nike

作为 RSS 练习,我希望能够搜索该组中几乎所有的 Unix 讨论。

comp.unix.shell

我对 Python 有足够的了解并了解基本的 RSS,但我仍然坚持......我如何获取特定日期之间的所有消息,或者至少是最近第 N 次和最近 M 次之间的所有消息?

高级描述,欢迎使用伪代码。

谢谢!

编辑:

我希望能够返回超过 100 条消息,但不要像使用此 URL 那样一次解析 10 条消息:

http://groups.google.com/group/comp.unix.shell/topics?hl=en&start=2000&sa=N

一定有更好的方法。

最佳答案

抓取谷歌群组违反了Google's Terms of Service ,特别是短语:

use any robot, spider, site search/retrieval application, or other device to retrieve or index any portion of the Service or collect information about users for any unauthorized purpose

您确定要公开宣布您这样做吗?您对结果的后果视而不见吗?

关于python - 如何处理 Google 群组讨论抓取工具,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2211887/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com