gpt4 book ai didi

python - 在Python中从正文中将数据提取到Excel文件

转载 作者:行者123 更新时间:2023-12-01 08:28:18 25 4
gpt4 key购买 nike

我正在使用mechanize从我订阅的受密码保护的网站获取一些数据。

我可以使用以下代码访问该网站的 .txt:

import mechanize
from bs4 import BeautifulSoup

username = ''
password = ''

login_post_url = "http://www.naturalgasintel.com/user/login"
internal_url = "https://naturalgasintel.com/ext/resources/Data-Feed/Daily-GPI/2018/12/20181221td.txt"

browser = mechanize.Browser()
browser.open(login_post_url)
browser.select_form(nr = 1)
browser.form['user[email]'] = username
browser.form['user[password]'] = password
browser.submit()

response = browser.open(internal_url)
print response.read().decode('utf-8').encode('utf-8')

这将打印我想要的格式(减去数据点之间的额外空白):

Point Code      Issue Date      Trade Date      Region  Pricing Point   Low     High    Average Volume  Deals   Delivery Start Date     Delivery End Date
STXAGUAD 2018-12-21 2018-12-20 South Texas Agua Dulce 2018-12-21 2018-12-21
STXFGTZ1 2018-12-21 2018-12-20 South Texas Florida Gas Zone 1 3.580 3.690 3.660 30 7 2018-12-21 2018-12-21
STXNGPL 2018-12-21 2018-12-20 South Texas NGPL S. TX 2018-12-21 2018-12-21
STXTENN 2018-12-21 2018-12-20 South Texas Tennessee Zone 0 South 3.460 3.580 3.525 230 42 2018-12-21 2018-12-21
STXTETCO 2018-12-21 2018-12-20 South Texas Texas Eastern S. TX 3.510 3.575 3.530 120 28 2018-12-21 2018-12-21
STXST30 2018-12-21 2018-12-20 South Texas Transco Zone 1 3.505 3.505 3.505 9 2 2018-12-21 2018-12-21
STX3PAL 2018-12-21 2018-12-20 South Texas Tres Palacios 3.535 3.720 3.630 196 24 2018-12-21 2018-12-21
STXRAVG 2018-12-21 2018-12-20 South Texas S. TX Regional Avg. 3.460 3.720 3.570 584 103 2018-12-21 2018-12-21

但我想读取所有这些数据并将其写入 Excel 文件。

我尝试过使用soup = BeautifulSoup(response.read().decode('utf-8').encode('utf-8')将其分解为实际文本,这给了我相同的东西,除了html形式:

<html><body><p>Point Code\tIssue Date\tTrade Date\tRegion\tPricing Point\tLow\tHigh\tAverage\tVolume\tDeals\tDelivery Start Date\tDelivery End Date\nSTXAGUAD\t2018-12-21\t2018-12-20\tSouth Texas\tAgua Dulce\t\t\t\t\t\t2018-12-21\t2018-12-21\nSTXFGTZ1\t2018-12-21\t2018-12-20\tSouth Texas\tFlorida Gas Zone 1\t3.580\t3.690\t3.660\t30\t7\t2018-12-21\t2018-12-21\nSTXNGPL\t2018-12-21\t2018-12-20\tSouth Texas\tNGPL S. TX\t\t\t\t\t\t2018-12-21\t2018-12-21\nSTXTENN\t2018-12-21\t2018-12-20\tSouth Texas\tTennessee Zone 0 South\t3.460\t3.580\t3.525\t230\t42\t2018-12-21\t2018-12-21\nSTXTETCO\t2018-12-21\t2018-12-20\tSouth Texas\tTexas Eastern S. TX\t3.510\t3.575\t3.530\t120\t28\t2018-12-21\t2018-12-21\

我可以开始考虑从此 soup 中剥离 html 标签。变量,但有没有办法更轻松地剥离这些数据?

最佳答案

既然您已经表示可以使用 python3,我建议您执行以下步骤:

下载 Anaconda

Download Anaconda Python for you OS

从更广泛的角度来看,Anaconda 为数据科学和数据检索提供了最好的原生支持。您将下载 python 3.7,它为您提供 Python 2.7 的所有功能(一些更改),而不会让人头疼。对于您的情况来说,重要的是 python 2.7 在使用 utf-8 时会很痛苦。这将解决很多这样的问题:

安装你的库

安装 Anaconda 后(如果您在安装过程中选择退出,则将 conda.exe 设置为系统 PATH 变量 which takes 2 minutes 后),您需要安装软件包。从你的脚本来看,它看起来像这样:

conda install mechanize,bs4,requests,lxml -y

请耐心等待 - conda 在安装某些内容之前可能需要 2-10 分钟来“解析您的环境”。

使用 Pandas 解析数据

这里有 2 个选项供您尝试,它们取决于您对正在抓取的 html 格式的幸运程度

import pandas as pd # This can go at the top with the other imports.

使用 pandas.read_html()

response = browser.open(internal_url)
html = response.read().decode('utf-8').encode('utf-8')
df = pd.read_html(html)
print(df) # This should give you a preview of *fingers-crossed* each piece of data in it's own cell.
pd.to_csv(df,"naturalgasintel.csv")

使用 pandas.read_data()

response = browser.open(internal_url)
soup = BeautifulSoup(str(innerHTML.encode('utf-8').strip()), 'lxml')
# If your data is embedded within a nested table, you may need to run soup.find() here
df = pd.DataFrame.from_records(soup)
print(df) # This should give you a preview of *fingers-crossed* each piece of data in it's own cell.
pd.to_csv(df,"naturalgasintel.csv")

希望有帮助! Pandas 是一个非常棒的库,可以直观地解析您的数据。

关于python - 在Python中从<html>正文中将数据提取到Excel文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54083809/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com