gpt4 book ai didi

python - 从文本中提取艺术家和音乐(正则表达式)

转载 作者:行者123 更新时间:2023-12-01 06:05:33 25 4
gpt4 key购买 nike

我已经编写了以下regex但它不起作用。你能帮我么?谢谢:-)

track_desc = '''<img src="http://images.raaga.com/catalog/cd/A/A0000102.jpg" align="right" border="0" width="100" height="100" vspace="4" hspace="4" />
<p>
</p>
<p> Artist(s) David: <br/>
Music: Ramana Gogula<br/>
</p>'''
rx = "<p><\/p><p>Artist\(s\): (.*?)<br\/>Music: (.*?)<br\/><\/p>"
m = re.search(rx, track_desc)

输出应该是:

Artist(s) David
Music: Ramana Gogula

最佳答案

您忽略了空格:

<p>[\s\n\r]*Artist\(s\)[\s\n\r]*(.*?)[\s\n\r]*:[\s\n\r]*<br/>[\s\n\r]*Music:[\s\n\r]*(.*?)<br/>[\s\n\r]*</p>

输出是:

[1] => "David"
[2] => "Ramana Gogula"

(请注意,您的正则表达式与 ArtistsMusic: 前缀也不匹配)

<小时/>

但是对于生产代码,我不会依赖这样笨拙的正则表达式(以及同样格式笨拙的HTML源)。

说真的,如果您对正则表达式(看起来像)一点也不熟悉,请放弃使用正则表达式的想法。您使用了错误的工具和格式错误的数据源。使用正则表达式解析 HTML 的情况十分之九是错误的(参见 @bgporter 的评论链接)并且注定会失败。除此之外,HTML 几乎不是一个合适的数据源(除非真的没有替代源)。

关于python - 从文本中提取艺术家和音乐(正则表达式),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8169461/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com