gpt4 book ai didi

python - 忽略美丽汤中 find_all 中字符串的一部分

转载 作者:行者123 更新时间:2023-12-01 05:25:11 26 4
gpt4 key购买 nike

我想提取 this 中的所有网址网页。

我使用的python代码是这个

htmlfile=urllib.urlopen("http://dubai.dubizzle.com/property-for-rent/residential/apartmentflat/").read()
soup=BeautifulSoup(htmlfile)

link=soup.find_all('a', xtclib="listing_list_1_title_link", href=True)

for a in link:
print a['href'],'\b'

但它仅提取带有 xtclib = "listing_list_1_title_link"的网址。我怎样才能使表达式像xtclib =“listing_list_(此处任意数字)_title_link”

最佳答案

您可以传递编译后的正则表达式对象:

import re

...

link=soup.find_all(
'a',
xtclib=re.compile(r"listing_list_\d+_title_link"),
href=True)

参见Beautiful Soup Documentation - Regular Expression .

关于python - 忽略美丽汤中 find_all 中字符串的一部分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21508333/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com