- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想要一个标签的所有子标签,标签之间没有空格。但是 BeautifulSoups .contents
和 .children
也会返回标签之间的空格。
from bs4 import BeautifulSoup
html = """
<div id="list">
<span>1</span>
<a href="2.html">2</a>
<a href="3.html">3</a>
</div>
"""
soup = BeautifulSoup(html, 'html.parser')
print(soup.find(id='list').contents)
这打印:
['\n', <span>1</span>, '\n', <a href="2.html">2</a>, '\n', <a href="3.html">3</a>, '\n']
同理
print(list(soup.find(id='list').children))
我想要的:
[<span>1</span>, <a href="2.html">2</a>, <a href="3.html">3</a>]
有没有办法告诉 BeautifulSoup 只返回标签而忽略空格?
The documentation在这个话题上不是很有帮助。示例中的 html 标签之间不包含任何空格。
确实去除标签之间所有空白的 html 解决了我的问题:
html = """<div id="list"><span>1</span><a href="2.html">2</a><a href="3.html">3</a></div>"""
使用此 html,我得到的标签之间没有空格,因为标签之间没有空格。但我希望使用 BeautifoulSoup,这样我就不必在 html 源代码中乱搞了。我希望 BeautifulSoup 能帮我做到这一点。
另一种解决方法可能是:
print(list(filter(lambda t: t != '\n', soup.find(id='list').contents)))
但这似乎很不稳定。空格是否保证始终完全是 '\n'
?
给重复标记旅的注释:
关于 BeautifulSoup 和空格的问题很多。大多数人都在询问如何从“呈现的文本”中去除空白。
例如:
BeautifulSoup - getting rid of paragraph whitespace/line breaks
Removing new line '\n' from the output of python BeautifulSoup
这两个问题都需要没有空格的文本。我想要没有空格的标签。那里的解决方案不适用于我的问题。
另一个例子:
Regular expression for class with whitespaces using Beautifulsoup
这个问题是关于类属性中的空格。
最佳答案
BeautifulSoup 有 .find_all(True)
它返回所有标签之间没有空格的标签:
from bs4 import BeautifulSoup
html = """
<div id="list">
<span>1</span>
<a href="2.html">2</a>
<a href="3.html">3</a>
</div>
"""
soup = BeautifulSoup(html, 'html.parser')
print(soup.find(id='list').find_all(True))
打印:
[<span>1</span>, <a href="2.html">2</a>, <a href="3.html">3</a>]
结合 recursive=False
, 你只会得到直接的 child ,而不是 child 的 child 。
为了演示我添加了 <b>
给第二个 child 。这将是一个孙子。
from bs4 import BeautifulSoup
html = """
<div id="list">
<span>1</span>
<a href="2.html"><b>2</b></a>
<a href="3.html">3</a>
</div>
"""
soup = BeautifulSoup(html, 'html.parser')
print(soup.find(id='list').find_all(True, recursive=False))
与 recursive=False
它打印:
[<span>1</span>, <a href="2.html"><b>2</b></a>, <a href="3.html">3</a>]
与 recursive=True
它打印:
[<span>1</span>, <a href="2.html"><b>2</b></a>, <b>2</b>, <a href="3.html">3</a>]
琐事:既然我有了解决方案,我在 StackOverflow 中发现了另一个看似无关的问题和答案,解决方案隐藏在评论中:
Why does BeautifulSoup .children contain nameless elements as well as the expected tag(s)
关于python - BeautifulSoup .children 或 .content 标签之间没有空格,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56021345/
什么是 SASS 方法要求干燥这样的东西: .content p, .content ul, .content li, .content a 最佳答案 这 4 个元素都有共同的样式吗? .conten
我正在评估 Contentful.com 作为 Angular SPA 的内容引擎。 我面临的问题是按内容类型检索条目(例如,获取“博客”类型的所有条目)。如 documentation exampl
在我编辑的主 wiki 上有一个名为 Item: 的自定义命名空间,提示是该命名空间内的每个页面都显示为 Item:This_item - - Item:That_item -- Item:Foo_i
我正在尝试编写一个Python脚本,可以将图片和pdf上传到WordPress。我希望图像上传到文件夹‘/wp-Content/Uploads/’,将pdf文件上传到文件夹‘/wp-Content/U
是否可以监控进行了多少次 Contentful API 调用,并理想地在即将超过配额时收到通知? 谢谢 最佳答案 当然,您可以在右侧用户配置文件的下拉菜单 > Organizations and Bi
我在尝试在 IE8 中下载带有分号的文件名时遇到问题。 Response.AddHeader("Content-Disposition", "attachment; filename=\"" + at
我在 Contentful Delivery API 中运行查询以返回基于它的 slug 的特定页面项目。这个查询还设置了语言环境,以便它只返回我需要呈现的语言的数据。 但是,我还需要设置页面的 hr
我有兴趣使用 Gatsby建一个Netlify使用来自 Contentful 的内容的静态网站 Netlify 有这个不错的 Gatsby 入门指南: https://www.netlify.com/
目标是提交一个 git 分支。分支的“git status”的输出是: On branch zeromq_new Your branch is up to date with 'origin/zero
我目前正在学习在 ASP.NET 3.5 和 C# 中使用 MasterPages 和 ContentPlaceHolders - 现在,我正在拼命尝试通过我的编程代码编辑 asp:Content-C
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visit the help center . 关闭 1
我使用 bootstrap 3 作为我的网格框架和 CSS 来创建一个具有一个倾斜/倾斜边缘的半透明区域,但由于分层不透明度,我的元素遇到了问题。 期望是中心是倾斜的,但右侧仍然是正方形。 有没有更好
IllegalArgumentException: 未知 URL 内容:// ^ 对上述内容做了噩梦。我检查了我的变量和路径,但看不出问题是什么?非常感谢任何指点! 这是我的痕迹。 java.lan
我有两个元素:一个是 元素,另一个是 元素。 populated-drop-down extends drop-down ,但是,正如您可能已经猜到的那样,它会尝试使用一些选项预先填充它。假设我可以简
我想我也有同样的问题。 Using multiple yields to insert content 我尝试了这个解决方案。我试过 在我的 application.html.erb 中有 conte
此链接 ( https://css-tricks.com/snippets/css/a-guide-to-flexbox/ ) 表示 justify-content 和 align-content 的
我现在正在探索绑定(bind),并且有一个 NSPopUpButton - 它为我提供了一些值选择下的绑定(bind)选项 - Content , Content Objects , Content
正在尝试在内容页面中加载内容 View 。当我运行代码时,它不会出现在我的内容 View 中。我正在从我的内容页面分配两个可绑定(bind)参数。 内容页面: 内容 View :
我想从我的 :before 标签中获取 content。我知道有些人会说它不是真正的(伪)元素,但在 JS 中有一种方法,但有人可以帮助我在 JQ 中做到这一点,因为我有多个标签并且我想用 $.eac
我创建了一个.sh脚本,并将结果记录在一个文件中,执行后我会尝试将文件内容作为mail正文发送。 这是我运行的命令: sh update.sh >> update.$(date +"%Y-%m-%d:
我是一名优秀的程序员,十分优秀!