gpt4 book ai didi

python从混合代码中选择文本

转载 作者:太空宇宙 更新时间:2023-11-03 15:15:50 25 4
gpt4 key购买 nike

到目前为止的更新:

beautifulsoup 部分有效。如何删除 <style> 之间的任何文本和<\style>

<小时/>

我正在尝试编写一个函数,以便从这样的文本中

<style>.card {
font-family: arial;
font-size: 20px;
text-align: center;
color: black;
background-color: white;
}
</style>qüestion

<hr id=answer>

änswer

只获取这些

word[0] = qüestion
word[1] = änswer

这些单词可以包含变音符号。

我以为reregex也许可以完成这项工作,但我无法成功!感谢您的帮助:)

最佳答案

How to remove whatever text between <style> and </style>?

您需要 extract() style标签或 clear() 他们:

>>> from bs4 import BeautifulSoup
>>> s = '''<style>.card {
font-family: arial;
font-size: 20px;
text-align: center;
color: black;
background-color: white;
}
</style>question

<hr id=answer>

answer'''
>>> soup = BeautifulSoup(s, "html.parser")
>>> styles = [style.extract() for style in soup('style')] # Or, you may use...
>>> # soup.find("style").clear()
>>> results = soup.text.strip().split()
>>> print(results)
[u'question', u'answer']

[style.extract() for style in soup('style')] ,您将获得所有 style标记及其内部 HTML 并将它们从 soup 中删除。那么,它的text属性仅包含 questionanswer用一些空格分隔,因此您所需要做的就是拆分字符串。

关于python从混合代码中选择文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43900927/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com