gpt4 book ai didi

python - 在网站中两个字符串的子字符串之间提取

转载 作者:太空宇宙 更新时间:2023-11-03 15:50:14 25 4
gpt4 key购买 nike

我有this site 。我想提取出现在文章标题下方的符号(EXAS、ESNT、ENZ、CENT、AEE)。我是一个初学者,所以我尝试了一种相当反Python的方法:

import requests
link="https://www.zacks.com/commentary/99386/new-strong-buy-stocks-for-december-29th"
fetch_data = requests.get(link)
content = str((fetch_data.content))
# I know that in the source code the symbols appear between "tickers" and "publish_date" therefore:
tickers= "tickers :"
pd = "publish_date :"
Z= ("%s(.*)%s" % (tickers,pd))
result = re.search(Z, content)
print (result)
# Just printing out the substring between tickers and pd
Output: <_sre.SRE_Match object; span=(95142, 95213), match="tickers : [\\'EXAS\\',\\'ESNT\\',\\'ENZ\\',\\'CEN>

如何只打印符号?此外,最后一个符号“CEN”应打印为“CENT”,并且“AEE”符号也丢失。这将是理想的情况

Symbols: EXAS, ESNT, ENZ, CENT, AEE

或者至少:

"tickers : [\\'EXAS\\',\\'ESNT\\',\\'ENZ\\',\\'CENT\\',\\'AEE\\]

最佳答案

您可以访问第一组并清理它:

>>> tickers = result.groups()[0]
>>> re.findall(r'\[.*?\]', tickers)[0].split("\\'")[1::2]
['EXAS', 'ESNT', 'ENZ', 'CENT', 'AEE']

关于python - 在网站中两个字符串的子字符串之间提取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41387175/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com