gpt4 book ai didi

python - 将 Html 页面中的数据获取到 Python 数组中

转载 作者:太空宇宙 更新时间:2023-11-03 15:37:10 25 4
gpt4 key购买 nike

我只是想从这样的网页获取一些数据:

[ . . . ]

<p class="special-large">Lorem Ipsum 01</p>
<p class="special-large">Lorem Ipsum 02</p>
<p class="special-large">Lorem Ipsum 03</p>
<p class="special-large">Lorem Ipsum 04</p>
<p class="special-large">Lorem Ipsum 05</p>

[ . . . ]

我想要一个像下面这样的 python 数组:

myArrayWebPage = ["Lorem Ipsum 01","Lorem Ipsum 02","Lorem Ipsum 03","Lorem Ipsum 04","Lorem Ipsum 05"]

这是我的 python 脚本:

import urllib.request

urlAddress = "http:// ... /" # my url address
getPage = urllib.request.urlopen(urlAddress)
outputPage = getPage.read()
print(outputPage)

如何从“outputPage”获取数组?

最佳答案

这似乎可以满足您的要求:

Python 3.6.0 (v3.6.0:41df79263a11, Dec 23 2016, 08:06:12) [MSC v.1900 64 bit (AMD64)] on win32
Type "copyright", "credits" or "license()" for more information.
>>> html = '''<p class="special-large">Lorem Ipsum 01</p>
<p class="special-large">Lorem Ipsum 02</p>
<p class="special-large">Lorem Ipsum 03</p>
<p class="special-large">Lorem Ipsum 04</p>
<p class="special-large">Lorem Ipsum 05</p>'''
>>> import re
>>> re.findall('<p class="special-large">([^<]+)</p>', html)
['Lorem Ipsum 01', 'Lorem Ipsum 02', 'Lorem Ipsum 03', 'Lorem Ipsum 04', 'Lorem Ipsum 05']
>>>

请注意 regular expressions通常不喜欢这样的事情。您应该使用像 Beautiful Soup 这样的库相反。

关于python - 将 Html 页面中的数据获取到 Python 数组中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42440835/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com