gpt4 book ai didi

python - 使用 Python 的正则表达式和 BeautifulSoup

转载 作者:太空宇宙 更新时间:2023-11-03 19:12:58 33 4
gpt4 key购买 nike

我必须解析(废弃)网页(html)并获取一些信息,将其存储在 csv 中。

我必须使用 Regex 和 BeautifulSoup 来完成此操作,而且我之前完全没有使用 Python 的经验。

如果有人能够相应地指导我的代码,我将非常感激。我已经成功安装了 python 和 BeautifulSoup。

最佳答案

对于Python 3:使用以下命令读取网页:

import urllib.request

your_url = "http://stackoverflow.com/" # for example

opener = urllib.request.FancyURLopener({})
f = opener.open( your_url )
vr = f.read()
vr = vr.decode()
print( vr )

并匹配一些正则表达式,例如:

import re

re_flags = ( re.MULTILINE | re.IGNORECASE | re.UNICODE )
m = re.search( r"<div>\s*(\d*)\s*</div>" , vr , re_flags )
if m :
print( m.groups()[0] )

如果找到正则表达式,则匹配的字符串将写入 m.groups()[0]

显然,您必须在 re.search 中使用您的个人正则表达式

访问: http://docs.python.org/library/re.html

关于python - 使用 Python 的正则表达式和 BeautifulSoup,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12312872/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com