- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有以下 xml,
<url>
<loc>https://mystore.com/products-t-shirt.xml</loc>
<lastmod>2019-04-11T00:01:42-04:00</lastmod>
<changefreq>daily</changefreq>
<image:image>
<image:loc> http://some-imageurl.com
</image:loc>
<image:title>GIFTS</image:title>
<image:caption>quirky caption</image:caption>
</image:image>
</url>
我正在尝试仅提取“loc”标签。
我使用了以下代码来执行此操作 products_list = soup.find_all(lambda tag: tag.name == "loc")
我尝试过使用 soup.find_all(re.compile("\\bloc\\b"))
然而,当我返回此数组结果时,结果中包含 loc 标签和 image:loc 标签(当然还有这些标签文本)。有谁知道即使我指定我想要一个精确的字符串, BeautifulSoup 也会抓取 image:loc ?
最佳答案
假设您使用的是 Beautiful Soup 4.7+。
您实际上可以使用选择器来定位此目标。您显示的内容看起来是 XML,因此我假设您的文档 image
中的某个位置定义了命名空间。对于此示例,我们假设 namespace 定义为 xmlns:image="http://somenamespace.com"
,这意味着 image
前缀(什么位于 :
之前)表示 http://somenamespace.com
命名空间。我们假设没有的 loc
没有命名空间。最后,我们将使用 |loc
来指定我们想要不带命名空间的 loc
:
from bs4 import BeautifulSoup
xml = """
<?xml version="1.0" encoding="UTF-8"?>
<root xmlns:image="http://somenamespace.com">
<url>
<loc>https://mystore.com/products-t-shirt.xml</loc>
<lastmod>2019-04-11T00:01:42-04:00</lastmod>
<changefreq>daily</changefreq>
<image:image>
<image:loc> http://some-imageurl.com
</image:loc>
<image:title>GIFTS</image:title>
<image:caption>quirky caption</image:caption>
</image:image>
</url>
</root>
"""
soup = BeautifulSoup(xml, 'xml')
print(soup.select('|loc'))
输出
[<loc>https://mystore.com/products-t-shirt.xml</loc>]
<小时/>
但是如果loc
有一个没有分配前缀的命名空间,我们仍然可以定位它。我们假设它的默认命名空间为 xmlns="http://default.com"
。我们想要的 loc 没有分配前缀,因此在本例中,它将继承我们的默认命名空间。
文档中的前缀仅对解析器真正重要,因此我们可以为目标命名空间提供任意前缀名称以供选择器使用,我们将其称为default
。然后我们可以使用 default|loc
定位 loc
标记。
from bs4 import BeautifulSoup
xml = """
<?xml version="1.0" encoding="UTF-8"?>
<root xmlns="http://default.com" xmlns:image="http://somenamespace.com">
<url>
<loc>https://mystore.com/products-t-shirt.xml</loc>
<lastmod>2019-04-11T00:01:42-04:00</lastmod>
<changefreq>daily</changefreq>
<image:image>
<image:loc> http://some-imageurl.com
</image:loc>
<image:title>GIFTS</image:title>
<image:caption>quirky caption</image:caption>
</image:image>
</url>
</root>
"""
soup = BeautifulSoup(xml, 'xml')
print(soup.select('default|loc', namespaces={'default': 'http://default.com'}))
输出
[<loc>https://mystore.com/products-t-shirt.xml</loc>]
您甚至可以将其定义为不带前缀的默认命名空间,然后将其定位为 loc
:
from bs4 import BeautifulSoup
xml = """
<?xml version="1.0" encoding="UTF-8"?>
<root xmlns="http://default.com" xmlns:image="http://somenamespace.com">
<url>
<loc>https://mystore.com/products-t-shirt.xml</loc>
<lastmod>2019-04-11T00:01:42-04:00</lastmod>
<changefreq>daily</changefreq>
<image:image>
<image:loc> http://some-imageurl.com
</image:loc>
<image:title>GIFTS</image:title>
<image:caption>quirky caption</image:caption>
</image:image>
</url>
</root>
"""
soup = BeautifulSoup(xml, 'xml')
print(soup.select('loc', namespaces={'': 'http://default.com'}))
输出
[<loc>https://mystore.com/products-t-shirt.xml</loc>]
<小时/>
对于那些不想使用选择器的人,您还可以检查元素的前缀
。在本例中,我们需要不带前缀的 loc
:
from bs4 import BeautifulSoup
import re
xml = """
<?xml version="1.0" encoding="UTF-8"?>
<root xmlns="http://default.com" xmlns:image="http://somenamespace.com">
<url>
<loc>https://mystore.com/products-t-shirt.xml</loc>
<lastmod>2019-04-11T00:01:42-04:00</lastmod>
<changefreq>daily</changefreq>
<image:image>
<image:loc> http://some-imageurl.com
</image:loc>
<image:title>GIFTS</image:title>
<image:caption>quirky caption</image:caption>
</image:image>
</url>
</root>
"""
soup = BeautifulSoup(xml, 'xml')
print([el for el in soup.find_all('loc') if not el.prefix])
关于python - BeautifulSoup find_all() 方法正在抓取比过滤器指定的标签更多的标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55858239/
我正在开发一个带选项卡栏的 ios 应用程序。我的栏上有超过 5 个按钮,所以在 iphone 上我有更多的按钮。现在,假设我有这个按钮:Button1 Button2 Button3 Button4
我有一个带有 UITabBarController 的应用,其中有超过五个选项卡。 当我按更多选项卡时,我会转到moreNavigationController,它是一个UINavigationCon
我有一个导航 Controller 。 NAVC->MORE... 按钮,然后在“更多”下有一些额外的 VC。 如果我转到“更多...”下的 VC,然后转到不在“更多...”上的 VC,那么当我返回到
因此,我想出了这种方案,用于在多个线程同时具有读写访问权限的二叉树中旋转时锁定节点,这涉及每次旋转锁定四个节点,这似乎是一个很多吗?我想到了一种比我想出的方法更聪明的方法来减少所需的锁定,但谷歌并没有
所以我已经尝试了所有方法,但我似乎仍然无法将下拉内容与 dropbtn 对齐。我只希望内容始终位于更多菜单下方。 HTML: `
我正在尝试使用 expect 来自动接受在 --more-- 中提示的 EULA。 #!/usr/bin/expect spawn "./greenplum-perfmon-web-4.1.2.0-b
他们如何在下面提供的网站上制作“告诉我更多”效果。我读过 read more/less effect in jQuery,但我发现该站点的有趣之处在于,除非单击该按钮,否则无法滚动页面。 Effect
现在,Kim Stebel helped me understanding如何使用存在类型键入变量,我需要知道如何在继承中使用它们: 以下代码无法编译: class PagingListModel(s
在我的Cygwin中不可用。另一方面,提供了“ less”命令。也许Cygwin的制造商认为“更多”只是多余的。 我对此很好奇。 最佳答案 安装util-linux软件包,您将获得“更多”的信息 ht
基本上,我想知道是否有人有增加 DTU 与分片的经验。 DTU应该线性地提高性能。因此,如果您有 5 个 DTU,而您改为 10 个 DTU,那么(理论上)您应该获得大约两倍的性能。 因此,四个 SQ
我们使用 asp.net mvc、javascript 和 jQuery(托管在本地计算机上)创建了一个应用程序。基本设计是,当用户从一个页面导航到其他页面时,我们通过隐藏和显示 HTML 页面,将所
我想用 RMonad 做一些基本的事情。有没有办法使用“as monad”功能来 有一个身份 rmonad,可以应用 monad 转换器吗? 有诸如 StateT 变压器之类的常见东西吗? 向现有 m
我有一个 char*[] 数组。我需要能够为其分配字符串并再次删除它们,但我不知道: 如何检查一个元素中是否已经有一个字符串,这样我就不会覆盖它,如果它已经被占用,则继续处理下一个元素? 之后如何将其
基本上,我想知道是否有人有增加 DTU 与分片的经验。 DTU应该线性地提高性能。因此,如果您有 5 个 DTU,而您改为 10 个 DTU,那么(理论上)您应该获得大约两倍的性能。 因此,四个 SQ
我有一个程序可以同时吐出标准错误和标准输出,我想在标准错误上少运行寻呼机,但忽略标准输出。我该怎么做? 更新: 就是这样......我不想丢失标准输出......只是让它远离寻呼机 program 2
基本上,当单击具有类 "dropdown" 的链接时,我无法获取“更多...”链接来对下一个跨度的高度进行动画处理。它根本就没有动画。仅当更改为 Less... 链接并且单击 Less... 链接以折
我正在使用 ExtJS,并认为它是一个了不起的框架。但是,它们没有内置的状态图,这使得依赖于状态的应用程序开发非常痛苦。 我最近发现了这个: https://github.com/jakesgordo
我一直在研究数据结构和算法,遗憾的是在C中。我已经单独实现了一个双向链表,它保存整数并且工作正常,但是当节点(或pub)让它正常工作时我遇到了很多麻烦在本例中)保存多个不同类型的值。我可以创建一个列表
编辑拼写错误 你好, 这可能是一个愚蠢的问题,但如果它能帮助我遵循最佳实践,我不在乎:P 假设我想在 System.Data 命名空间...以及 System.Data.SqlClient 命名空间中
使用 bootstrap 3 CSS、font awesome CSS 和最新的 jQuery JS 文件。 我正在使用 javascript 在单击按钮时在另一个内容 div 之上隐藏/显示一个内容
我是一名优秀的程序员,十分优秀!