gpt4 book ai didi

Python - 获取段落文本(网页抓取)

转载 作者:太空宇宙 更新时间:2023-11-03 16:55:54 24 4
gpt4 key购买 nike

如何在中断标签之前从段落中获取文本,例如:

      <p align="right">
<font size="3">
ABC
<br/>
DEF
<br/>
FGH
<br/>
iJK
</font>
</p>

并保存在数组中,例如:

text[0] = "ABC"
text[1] = "DEF"
text[2] = "iJK"

我目前正在使用:

paragraph_text = soup.find('p')
print paragraph_text.text

但它会给我一个段落的所有文本。

最佳答案

找到 p 元素并迭代 .stripped_strings :

for text in soup.p.stripped_strings:
print(text)

打印:

ABC
DEF
FGH
iJK
<小时/>

或者,如果您想要一个列表:

texts = list(soup.p.stripped_strings)
print(texts)

打印:

['ABC', 'DEF', 'FGH', 'iJK']

关于Python - 获取段落文本(网页抓取),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35424366/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com