python - 通过 BeautifulSoup 返回 RSS 属性值-6ren

python - 通过 BeautifulSoup 返回 RSS 属性值

转载作者：行者123 更新时间：2023-12-01 04:40:52

25

4

RSS:(在名为 myfeed.rss 的文件中)

<?xml version="1.0" encoding="utf-8" ?>
    <rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:newznab="http://www.newznab.com/DTD/2010/feeds/attributes/">
    <channel>
    <title>MyFeed</title>
    <link>http://website</link>
    <description>RSS Feed</description>
    <language>en-us</language>

            <item>
                <title>title goes here</title> 
                <pubDate>Tue, 09 Jun 2015 15:15:23 -0600</pubDate>
                <category>x264</category>
                <link>https://link_goes_here</link>
                <description>various HTML goes here</description>
                <guid>https://another_link_goes_here</guid>
                <newznab:attr name="category" value="6000" />
                <newznab:attr name="category" value="6040" />

                <newznab:attr name="size" value="1923203792" />

                <newznab:attr name="grabs" value="3" />

                <newznab:attr name="comments" value="0" />
                <newznab:attr name="password" value="0" />
                <newznab:attr name="usenetdate" value="Tue 09 Jun 2015 15:15:23 -0600" />
            </item>

    </channel>
    </rss>

Python 脚本:

#!/usr/bin/env python

import sys
from bs4 import BeautifulSoup

handler = open('myfeed.rss').read()
soup = BeautifulSoup(handler, 'xml')

for item in soup.findAll('item'):
    print item
    print("-----------------------------------")
    print item.findAll('newznab:attr')

结果:总共打印了一项。我的分隔线打印出来。但没有打印任何 newznab 属性。

问题:如何访问每个“newznab”属性？目前，我无法弄清楚如何将它们作为字典检索。我对 Python 还很陌生。 :)

谢谢。

编辑:感谢 Rick 的建议，我现在能够按照以下方式访问这些属性:

更新的 Python 脚本:

#!/usr/bin/env python

import sys
from bs4 import BeautifulSoup

handler = open('myfeed.rss').read()
soup = BeautifulSoup(handler, 'lxml')

for item in soup.findAll('item'):
    print item
    print("-----------------------------------")

    newznabs = item.findAll('newznab:attr')
    newz_dict = {}

    for attribute in newznabs:
        newz_dict[attribute['name'].split(".")[0]] = attribute['value'].split(".")[0]

    print("newz_dict: [{}]".format(newz_dict))
    print("size: [{}]".format(newz_dict['size']))

    print("+++++++++++++++++++++++++++++++++++")

现在我在字典中拥有了属性。 :)

最佳答案

告诉 BeautifulSoup 使用 lxml 解析器似乎保留了自闭合标签。

尝试使用:

soup = BeautifulSoup(handler, 'lxml')

关于python - 通过 BeautifulSoup 返回 RSS 属性值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30744547/

25

4

0

文章推荐： Python 在程序设置中安装 pip 模块？

文章推荐： java - 获取 Sprite 与屏幕的距离

文章推荐： java - JBoss 7.1.1 中缺少 Web 应用程序目录

javascript - 属性值 VS 属性值
我有一个加载有默认值的元素。后来，我通过 jQuery 的 input.val("different value") 更改了该值。 . 当我 console.log() 元素时，我在 firebug
asp.net-mvc-3 - DropDownListFor 中的 ViewBag 属性值，而不是 Model 属性值
我们在 DropDownListFor(ASP.NET MVC3 版本)中发现了奇怪的行为。它在下拉列表中选择 ViewBag 属性值而不是 Model 属性值。模型: public class C
Magento 属性值 - 添加描述字段
寻找一种方法将描述字段添加到 Magento 中的单个属性值。请注意，我指的是属性值选项，而不是实际的属性本身。举个例子: 属性=颜色属性值:红、绿、蓝我想为 3 种颜色中的每一种添加一个描述字
java - 如何使用反射获取注解类名、属性值
我知道如果我们知道注释类，我们可以轻松获取特定的注释并访问其属性。例如: field.getAnnotation(Class annotationClass) 它将返回特定注释接口(interface
javascript - getComputedStyle 属性值
我正在尝试报告我创建的椭圆形 div 的边框半径值，但我得到了一个未定义的返回值。谁能解释为什么？我是犯了一个简单的错误还是我的代码有问题？谢谢你! CSS3
MySQL返回id，其中出现次数>属性值
我有两个表: Bike__________________________ Kiosk 带列: BikeID, Location_________________ KioskID,
以反冲结尾的 Java 属性值
我在 Java .properties 文件中有一个值需要以反冲结束。属性值应该是“\\server\folder\”，我这样输入值: name=\\\\server\\folder\\ 结尾的反斜杠
javascript 对象实例、属性值
我创建了一个 DeformableShape 对象并通过 for 循环创建它的实例。我正在调用对象的 setPosition 方法并更改其枢轴属性，但所有实例的值都会更新...假设我有对象 A 并且我
来自类名的 CSS 属性值
是否可以在类名中为 CSS 传递参数？例如: .mrg-t-X { margin-top: Xpx; } Test 在此示例中，X 应为 10。最佳答案不，不是。我们最接近的是 attr()
来自类名的 CSS 属性值
是否可以在类名中为 CSS 传递参数？例如: .mrg-t-X { margin-top: Xpx; } Test 在此示例中，X 应为 10。最佳答案不，不是。我们最接近的是 attr()
来自类名的 CSS 属性值
是否可以在类名中为 CSS 传递参数？例如: .mrg-t-X { margin-top: Xpx; } Test 在此示例中，X 应为 10。最佳答案不，不是。我们最接近的是 attr()
c# - 动态注释/属性值
我在使用 C# 中的数据注释时遇到了问题。我正在使用自定义必需属性和范围属性，我想将一个对象设置为错误消息。 [MyOwnRequired(ErrorCode=GlobalMessages.Messa
来自类名的 CSS 属性值
是否可以在类名中为 CSS 传递参数？例如: .mrg-t-X { margin-top: Xpx; } Test 在此示例中，X 应为 10。最佳答案不，不是。我们最接近的是 attr()
java - 如何使用反射获取注释类名称、属性值
我知道如果我们知道注解类，我们可以很容易地得到具体的注解并访问它的属性。例如: field.getAnnotation(Class annotationClass) 这将返回特定注解接口(interf
sinon 不 stub 属性值
我正在使用 sinon v4.1.2。根据文档( http://sinonjs.org/releases/v4.1.2/sandbox/ )，我应该能够使用以下内容设置属性: sandbox.stub
spring - 如何从外部分配一些 Spring 属性值
我想在我的应用程序中将一些 valraibles 的值外部化，它使用 spring 到类似属性文件的东西。我怎样才能做到这一点？最佳答案 Spring 提供了一个 BeanFactoryPostP
c# - 获取泛型类中的接口(interface)属性值
我有这个界面 public interface IMyInterface { IEnumerable Params { get; } } 在哪里 MyParamInfo 是 public c
c# - 屏蔽元素\属性值，使用Linq
我有一个 xml 字符串，其中包含我想要屏蔽的某些值。我还有一个黑名单列表，其中包含我要屏蔽的元素或属性的名称。我如何使用 Linq 执行此操作？ var BlackList=new List{"ss
c# - XPath C# 属性值
以下是读入XmlDocument的XML文件我需要的是存储在一些 TextBox 中的 'id' 属性值(“2015”) 这就是 XmlDocument 的加载方式 XmlDocume
delphi - 如何使对象检查器显示更多 TColor 属性值？
IDE 对象检查器通过下拉 ColorBox 显示 TColor 属性，并且可以按图形单元中定义的名称 - clBlack 等选择颜色。问题是图形单元中定义的 clWeb 颜色不存在，并且我定义的任何

首页

博学

6Ren·AI

商城

python - 通过 BeautifulSoup 返回 RSS 属性值