' 之间的所有内容 结果应该是:/Ar-6ren">
gpt4 book ai didi

python - 无法在python中使用正则表达式从字符串中获取整个链接

转载 作者:行者123 更新时间:2023-11-28 22:09:07 26 4
gpt4 key购买 nike

我有以下字符串,我想解析出链接。

字符串=

'<td scope="row"><a href="/Archives/edgar/data/886982/000076999319000460/xslForm13F_X01/InfoTable_2019-08-09_Final.xml">InfoTable_2019-08-09_Final.html</a></td>None

所以本质上是抓取 'href=' 和 '">' 之间的所有内容

结果应该是:/Archives/edgar/data/886982/000076999319000460/xslForm13F_X01/InfoTable_2019-08-09_Final.xml

这是我试过的:

test = re.search('(?<=href).?(?=.xml)', final_link_str)*

对于踢腿和咯咯笑,我也尝试过这个,在 href 之后捕获所有东西,

test = rtest = re.search('(?<=href).', final_link_str)*

无论我做什么,输出的只是整个链接的一部分。

这是我得到的结果:

<re.Match object; span=(23, 163), match='="/Archives/edgar/data/886982/000076999319000460/>

最佳答案

考虑改用 BeautifulSoup 解析 HTML:

from bs4 import BeautifulSoup

string = '<td scope="row"><a href="/Archives/edgar/data/886982/000076999319000460/xslForm13F_X01/InfoTable_2019-08-09_Final.xml">InfoTable_2019-08-09_Final.html</a></td>None'
soup = BeautifulSoup(string, 'html.parser')
href = soup.find('a')['href']

结果:

/Archives/edgar/data/886982/000076999319000460/xslForm13F_X01/InfoTable_2019-08-09_Final.xml

关于python - 无法在python中使用正则表达式从字符串中获取整个链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57847795/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com