Python FeedParser 格式 Reddit Nicely-6ren

Python FeedParser 格式 Reddit Nicely

转载作者：太空宇宙更新时间：2023-11-04 03:27:51

24

4

我正在尝试创建一个程序来打印出/r/Jokes 中的前 5 个笑话，但我在格式化它以使其看起来不错时遇到了一些问题。我想这样安排。

Post Title: Post Content

例如，这是直接来自 RSS 提要的笑话之一:

<item>

    <title>What do you call a stack of pancakes?</title>

    <link>https://www.reddit.com/r/Jokes/comments/3ix348/what_do_you_call_a_stack_of_pancakes/</link>

    <guid isPermaLink="true">https://www.reddit.com/r/Jokes/comments/3ix348/what_do_you_call_a_stack_of_pancakes/</guid>

    <pubDate>Sun, 30 Aug 2015 03:18:00 +0000</pubDate>

    <description><!-- SC_OFF --><div class="md"><p>A balanced breakfast</p> </div><!-- SC_ON --> submitted by <a href="http://www.reddit.com/user/TheRealCreamytoast"> TheRealCreamytoast </a> <br/> <a href="http://www.reddit.com/r/Jokes/comments/3ix348/what_do_you_call_a_stack_of_pancakes/">[link]</a> <a href="https://www.reddit.com/r/Jokes/comments/3ix348/what_do_you_call_a_stack_of_pancakes/">[2 comments]</a></description>

</item>

我目前正在打印标题，后跟一个冒号和一个空格，然后是描述。但是它会打印所有文本，包括链接、作者和所有 HTML 标签。我将如何获取段落标签内的文本。

谢谢，

编辑:这是我的代码:

d = feedparser.parse('https://www.reddit.com/r/cleanjokes/.rss')
print("")
print("Pulling latest jokes from Reddit. https://www.reddit.com/r/cleanjokes")
print("")
time.sleep(0.8)
print("Displaying First 5 Jokes:")
print("")
print(d['entries'][0]['title'] + ": " + d['entries'][0]['description'])
print(d['entries'][1]['title'] + ": " + d['entries'][1]['description'])
print(d['entries'][2]['title'] + ": " + d['entries'][2]['description'])
print(d['entries'][3]['title'] + ": " + d['entries'][3]['description'])
print(d['entries'][4]['title'] + ": " + d['entries'][4]['description'])

这只是获取前 5 个条目。我需要做的是将冒号后的描述字符串格式化为仅包含段落标记内的文本。

最佳答案

Oren使用 BeautifulSoup 是正确的，但我会尝试提供更完整的答案。

d['entries'][0]['description'] 返回 html，您需要对其进行解析。 bs是很棒的图书馆。

您可以使用以下方式安装它:

pip install beautifulsoup4

from bs4 import BeautifulSoup 
soup = BeautifulSoup(d['entries'][0]['description'], 'html.parser') 
print(soup.div.get_text())

从条目的 div 部分获取文本。

关于Python FeedParser 格式 Reddit Nicely，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32298542/

24

4

0

文章推荐： c - 线程中的链表？

文章推荐： html - 有没有办法拥有与 URL 相关的 CSS 样式？

reddit - Reddit 如何追踪热门帖子
Reddit 对于热门帖子有不同的存储桶。他们有“此时”、“今天”、“本周”、“本月”、“今年”、“所有时间”。我能想到的创建这些列表的最佳方法是用时间戳保存每个投票，以便您可以计算每个存储桶的帖子分
python - 试图用 praw.Reddit 抓取 Reddit
我正在尝试使用 praw.reddit 命令抓取 Reddit，但我不断收到以下信息: prawcore.exceptions.OAuthException: unauthorized_client
python - 试图用 praw.Reddit 抓取 Reddit
我正在尝试使用 praw.reddit 命令抓取 Reddit，但我不断收到以下信息: prawcore.exceptions.OAuthException: unauthorized_client
node.js - 使用 passport-reddit 从 Reddit 返回电子邮件
我正在使用 passport-reddit 在我的 node.js 网络服务器上实现 Reddit 登录系统。我现有的系统返回我需要的用户的所有信息，除了他们的电子邮件地址。我想知道社区中是否有人知道
message - 可以使用 REDDIT Api 向另一个 Reddit 用户发送 PM 吗？
我一直在查看REDDIT api文档，仅通过查看它，似乎无法(？)向另一个Reddit用户发送PM消息。请证明我错了:) 是否可以看到其他用户的 subredddit 订阅？感谢您提供任何意见。最
javascript - 尝试通过 snoocore node.js 获取 reddit 自身文本的 Reddit Api 错误
我正在尝试获取帖子上的 self.text 并使用此路线: reddit('/r/Denmark/comments/2jc5yk/how_to_live_in_denmark.json').listi
reddit - 通过URL发布到Reddit
是否可以通过URL发布指向Reddit的链接？例如，对于Facebook，您可以 Share Stackoverflow on your profile! Reddit是否具有我可以点击以共
reddit - 有没有办法通过网址在reddit上提交文本帖子
我知道有一种方法可以将链接发布到reddit。 https://www.reddit.com/r/test/submit?title=myTitle&url=http://www.exampledsf
javascript - 以编程方式将评论发布到 Reddit
我正在尝试使用 Snoocore 库以编程方式向 Reddit 发布评论。这是我的代码: function postComment() { var commentText =
python - 处理PRAW中的错误(Reddit)
我正在制作一个自动回复机器人，该机器人扫描给定命令的r/所有提交评论，例如。 !命令当它检测到此命令时，将使用字符串回复注释: eg. "Hello" 我得到的错误是新帐户有一个限制，即新帐户每10
Reddit Endpoint 用于评论特定文章
我正在尝试获取特定文章的所有 reddit 评论。在 Reddit API 页面上，似乎暗示: www.reddit.com/r/subreddit/comments/ARTICLE 会给我这些结果
html - reddit 如何创建没有任何边距的顶部标题？
我正在使用 chrome 开发人员工具查看代码，并尝试在我的网站上模拟它，但它的工作方式不同。显然通过设置边距:0;，边距被删除，但边距在技术上不需要为负数就没有空间了吗？我没有在 css 格式中
javascript - reddit 是如何在弹出登录表单时让整个背景变黑的？
当你点击 reddit 注册按钮时，一个漂亮的窗口弹出，屏幕的其余部分变黑。您可以单击屏幕的其余部分以关闭弹出窗口。我知道我可以为此使用最外层的 div，但 reddit 是这样做的吗？他们是否也在
algorithm - Reddit 主页上的分页是如何工作的？
Reddit 使用时间衰减算法。这意味着排序顺序可能会发生变化。当用户转到第 2 页时，是否有一种机制可以防止他们看到位于第 1 页但在翻页之前被跳到第 2 页的帖子？这只是排序方法的一个可接受的缺陷
javascript - 监听 Reddit 增强套件中的事件
我四处搜寻，找不到有同样问题的人，所以希望这不是多余的。我试图让 chrome 扩展在每次 Reddit 增强套件加载新页面时修改 DOM(永无休止的自动滚动或其他内容)。 window.addEv
javascript - reddit 无法预览我的 gif
reddit 预览 gif 和图像。我厌倦了发布我的一些页面，但当添加了 html/javascript 时，reddit 不会预览我的 gif。然后我粘贴了一个imgur链接this is te i
php - 在类似 reddit 的网站上进行缓存的最佳方法
我们有一个类似reddit的PHP网站，用户可以为故事投票。我们尝试在网站上使用 APC、memcached 等，但我们放弃了。问题是我们想要使用缓存机制，但用户可以在网站上随时投票，并且缓存的数据
haskell - Reddit API 收到评论
我有一个接收 Reddit 评论并吐出回复的功能。我希望此函数映射到 Reddit 上发布的每条新评论。我应该如何从 reddit 获取评论？经常拉取 100 条最近的评论似乎有点浪费，这样就不会遗
jquery - 延迟加载 Reddit 小部件
我正在尝试异步(或延迟加载)此 Reddit 小部件，但遇到问题。下面是直接在 html 中完美运行的基本代码: 如果我尝试将其移至我的 scripts.js 中执行其他 jQuery 内
python - 如何检查 Reddit 帖子是否仅包含图像而没有其他内容？
背景:我目前正在使用 praw 制作 Reddit 机器人。 Python 3.7 的库。我的机器人需要做的一件事是检查某些 Reddit 子版 block 上的最新帖子，看看它们是否仅包含图像而没有

首页

博学

6Ren·AI

商城

Python FeedParser 格式 Reddit Nicely