gpt4 book ai didi

python - BeautifulSoup - 摆脱段落空白/换行符

转载 作者:行者123 更新时间:2023-12-01 05:08:56 25 4
gpt4 key购买 nike

similarlist = res.find_all_next("div", class_="result-wrapper")
for item in similarlist:
print(item)

这将返回:

<div class="result-wrapper">
<div class="row-fluid result-row">
<div class="span6 result-left">
<p>
<a class="tooltipLink warn-cs" data-original-title="Listen" href="..." rel="tooltip"><i class="..."></i></a>
<a class="muted-link" href="/dictionary/german-english/aa-machen">Aa <b>machen</b></a>
</p>
</div>
<div class="span6 result-right row-fluid">
<span class="span9">
<a class="muted-link" href="/dictionary/english-german/do-a-poo">to do a poo</a>, <a class="muted-link" href="/dictionary/english-german/pooh">to pooh</a>
</span>
</div>
</div>
</div>

当我选择打印item.get_text()时相反,我得到

abgeneigt machen
to disincline




abhängig machen
2137

to predicate




Absenker machen
to layer

所以基本上我不需要的列表项之间有很多新行。这是因为 <p>标签?我该如何摆脱它们?

最佳答案

是的,HTML 标签之间也包含空格(包括换行符)。

您可以使用正则表达式轻松折叠所有多行空格:

import re

re.sub(r'\n\s*\n', r'\n\n', item.get_text().strip(), flags=re.M)

这会删除两个换行符之间的任何空白(换行符、空格、制表符等)。

关于python - BeautifulSoup - 摆脱段落空白/换行符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24558075/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com