gpt4 book ai didi

python - 从 HTML 创建数据框

转载 作者:行者123 更新时间:2023-12-01 07:05:03 25 4
gpt4 key购买 nike

我正在尝试从网页读取表格。一般来说,我的公司有严格的身份验证政策,限制我们抓取数据的方式。但下面的代码是我尝试用来做同样的事情

from urllib.request import urlopen
from requests_kerberos import HTTPKerberosAuth, OPTIONAL
import os
import lxml.html as LH
import requests
import pandas as pd

cert = r"C:\\Users\\name\\Desktop\\cacert.pem"
os.environ["REQUESTS_CA_BUNDLE"] = cert
kerberos = HTTPKerberosAuth(mutual_authentication=OPTIONAL)
session = requests.Session()

link = 'weblink'
data=session.get(link,auth=kerberos,verify=False).content.decode("latin-1")

这样我就可以在“数据”中看到网页的整个 HTML。如何将其转换为数据框?

注意:由于隐私问题,我无法提供网络链接。我只是想知道是否有一种通用方法可以用来解决这种情况。

最佳答案

您似乎正在寻找 something like this ,使用Beautifulsoup

从那里,您必须创建数据框架本身,但您将通过“将 HTML 转换为数据结构的过程”步骤。 (即将HTML表格读入列表或字典,然后将其转换为数据框)

编辑 1

其实,你可以使用Pandas的read_html 。您可能仍然需要 Beautifulsoup 才能获得您想要的内容,但根据源 HTML 的外观,单独使用它可能就足够了。

关于python - 从 HTML 创建数据框,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58479522/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com