gpt4 book ai didi

python - 使用 RSS feed 获取公共(public) Google 群组主题标题

转载 作者:太空宇宙 更新时间:2023-11-03 14:06:35 24 4
gpt4 key购买 nike

我正在尝试从 RSS feed 获取公共(public) Google 群组中所有主题的标题。我正在尝试获取所有主题标题。它有近 8000 个主题。我使用以下代码通过 feedparser 读取提要。

import feedparser
url = 'https://groups.google.com/forum/feed/caffe-users/topics/rss_v2_0.xml?num=50'
feed = feedparser.parse(url)
for entry in feed['entries']:
content = entry['title']
print(content)

我注意到,当我使用 num = 50 时,我得到了所有 50 个标题。但是当我将 num = 50 更改为 num = 8000 甚至 num = 500 时,我只看到 15 个标题?输出如下:

15
"Invalid integer constant expression" Error during Installation
Can't complete make pycaffe (Python.h not found)
Kernels not compiling with Vienna-CL for openCL Intel build on Centos 7
"import caffe" failed
Frozen training model - Reading dangerously large protocol message ?
Specifying the solver file parameters
Intel MKL FATAL ERROR: Cannot load mkl_intel_thread.dll.
Making the network shorter, adding dropout and augmenting the dataset produce overfitting, why?
Fwd: [Scala.js] Fwd: Us congress hearing of maan alsaan Money laundry قضية الكونغجرس لغسيل الأموال للمليادير معن الصانع
Feature maps from network for multiple images all the same
How to interpret the result of Ristretto?
how do I train DB with 3~10 features per image ?
Recompile with -fPIC
scaling the pixels in deployment.prototxt in [0,1]
hi im installing caffe and i have this error

知道为什么会发生这种情况吗?当 num = 50 时,我得到 50 个标题,但为什么当我增加 num 的值时,获取的标题会减少到固定数字 15?任何帮助或建议将不胜感激。谢谢。与图书馆gggd我面临以下问题:

atan-115b-02:src mislam$ ./gggd.py -l -C cookies.txt caffe-users Please log in to your Google groups account (navigate the form fields with up and down arrows, submit form with Enter) and then exit the browser (using the 'q' key). Press Enter to continue.

Alert!: This client does not contain support for HTTPS URLs.

lynx: Can't access startfile https://www.google.com/a/UniversalLogin?continue=https://groups.google.com/forum/&service=groups2&hd=default gggd.py: ValueError("invalid literal for int() with base 10: 'client'",) for help use --help

最佳答案

要下载此 Google 网上论坛的所有消息,您需要使用 RSS 以外的其他界面。 Google 网上论坛 RSS 界面最多仅发送 50 条最新消息。没有分页或日期支持,因此您无法使用 RSS 界面从组中获取所有消息。

解决方案

Get Google Groups Data是一个 Python2 项目,可抓取指定的 Google 群组并下载其所有消息。在我的 Mac 上安装 lynx 后,我能够抓取源代码中指示的 caffe-users 论坛。

截图如下。祝你好运。

enter image description here

关于python - 使用 RSS feed 获取公共(public) Google 群组主题标题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48847279/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com