- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我一直在使用用户定义的函数来打开 ZIP 文件中包含的 CSV 文件,这对我来说非常有效。
How to scrape .csv files from a url, when they are saved in a .zip file in Python?
现在我试图打开一个包含在一个 ZIP 中的 CSV 文件,该文件又包含在另一个 ZIP 中,但遇到了一些麻烦。
我没有得到包含 CSV 数据的数据帧的预期输出,而是收到以下错误:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xfd in position 0: invalid start byte
这是有道理的,因为我正在尝试使用 read_csv()
打开一个 zip 文件
import pandas as pd
def fetch_multi_csv_zip_from_url(url, filenames=(), *args, **kwargs):
assert kwargs.get('compression') is None
req = urlopen(url)
zip_file = zipfile.ZipFile(BytesIO(req.read()))
if filenames:
names = zip_file.namelist()
for filename in filenames:
if filename not in names:
raise ValueError(
'filename {} not in {}'.format(filename, names))
else:
filenames = zip_file.namelist()
return {name: pd.read_csv(zip_file.open(name), *args, **kwargs)
for name in filenames}
try:
from urllib.request import urlopen
except ImportError:
from urllib2 import urlopen
from io import BytesIO
import zipfile
final_links_list =['http://www.nemweb.com.au/REPORTS/ARCHIVE/Dispatch_SCADA/PUBLIC_DISPATCHSCADA_20170523.zip', 'http://www.nemweb.com.au/REPORTS/ARCHIVE/Dispatch_SCADA/PUBLIC_DISPATCHSCADA_20170524.zip']
l = len(final_links_list)
for j in range(0,l):
print(j)
dfs = fetch_multi_csv_zip_from_url(final_links_list[j])
这是我一直在使用的代码,我认为我必须更改以以下开头的行:
return {name: pd.read_csv(zip_file.open(name)
因为它不再返回 csv 文件,而是返回 zip 文件。
最佳答案
这可以通过一些递归来完成。如果发现 ZIP 内的文件是 ZIP 文件,则进行递归调用以提取 CSV 文件:
try:
from urllib.request import urlopen
except ImportError:
from urllib2 import urlopen
from io import BytesIO
import zipfile
import pandas as pd
# Dictionary holding all the dataframes from all zip/zip/csvs
dfs = {}
def zip_to_dfs(data):
zip_file = zipfile.ZipFile(BytesIO(data))
for name in zip_file.namelist():
if name.lower().endswith('.csv'):
dfs[name] = pd.read_csv(zip_file.open(name))
elif name.lower().endswith('.zip'):
zip_to_dfs(zip_file.open(name).read())
def get_zip_data_from_url(url):
req = urlopen(url)
zip_to_dfs(req.read())
final_links_list = [
'http://www.nemweb.com.au/REPORTS/ARCHIVE/Dispatch_SCADA/PUBLIC_DISPATCHSCADA_20170523.zip',
'http://www.nemweb.com.au/REPORTS/ARCHIVE/Dispatch_SCADA/PUBLIC_DISPATCHSCADA_20170524.zip']
for link in final_links_list:
print(link)
get_zip_data_from_url(link)
# Display the first couple of dataframes
for name, df in sorted(dfs.items())[:2]:
print('\n', name, '\n')
print(df)
这将显示以下内容:
http://www.nemweb.com.au/REPORTS/ARCHIVE/Dispatch_SCADA/PUBLIC_DISPATCHSCADA_20170524.zip
PUBLIC_DISPATCHSCADA_201705240010_0000000283857084.CSV
C NEMP.WORLD DISPATCHSCADA AEMO PUBLIC 2017/05/24 \
0 I DISPATCH UNIT_SCADA 1.0 SETTLEMENTDATE DUID
1 D DISPATCH UNIT_SCADA 1.0 2017/05/24 00:10:00 BARCSF1
2 D DISPATCH UNIT_SCADA 1.0 2017/05/24 00:10:00 BUTLERSG
.. .. ... ... ... ... ...
263 D DISPATCH UNIT_SCADA 1.0 2017/05/24 00:10:00 YWPS3
264 D DISPATCH UNIT_SCADA 1.0 2017/05/24 00:10:00 YWPS4
265 C END OF REPORT 267 NaN NaN NaN
00:05:08 0000000283857084 DISPATCHSCADA.1 0000000283857078
0 SCADAVALUE NaN NaN NaN
1 0 NaN NaN NaN
2 8.299998 NaN NaN NaN
.. ... ... ... ...
263 388.745570 NaN NaN NaN
264 391.568360 NaN NaN NaN
265 NaN NaN NaN NaN
[266 rows x 10 columns]
PUBLIC_DISPATCHSCADA_201705240015_0000000283857169.CSV
C NEMP.WORLD DISPATCHSCADA AEMO PUBLIC 2017/05/24 \
0 I DISPATCH UNIT_SCADA 1.0 SETTLEMENTDATE DUID
1 D DISPATCH UNIT_SCADA 1.0 2017/05/24 00:15:00 BARCSF1
2 D DISPATCH UNIT_SCADA 1.0 2017/05/24 00:15:00 BUTLERSG
.. .. ... ... ... ... ...
263 D DISPATCH UNIT_SCADA 1.0 2017/05/24 00:15:00 YWPS3
264 D DISPATCH UNIT_SCADA 1.0 2017/05/24 00:15:00 YWPS4
265 C END OF REPORT 267 NaN NaN NaN
00:10:08 0000000283857169 DISPATCHSCADA.1 0000000283857163
0 SCADAVALUE NaN NaN NaN
1 0 NaN NaN NaN
2 8.299998 NaN NaN NaN
.. ... ... ... ...
263 386.205080 NaN NaN NaN
264 389.592410 NaN NaN NaN
265 NaN NaN NaN NaN
[266 rows x 10 columns]
关于python - 如何使用 python 在 zip 中打开 zip 中的 csv?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50991084/
我想做的是让 JTextPane 在 JPanel 中占用尽可能多的空间。对于我使用的 UpdateInfoPanel: public class UpdateInfoPanel extends JP
我在 JPanel 中有一个 JTextArea,我想将其与 JScrollPane 一起使用。我正在使用 GridBagLayout。当我运行它时,框架似乎为 JScrollPane 腾出了空间,但
我想在 xcode 中实现以下功能。 我有一个 View Controller 。在这个 UIViewController 中,我有一个 UITabBar。它们下面是一个 UIView。将 UITab
有谁知道Firebird 2.5有没有类似于SQL中“STUFF”函数的功能? 我有一个包含父用户记录的表,另一个表包含与父相关的子用户记录。我希望能够提取用户拥有的“ROLES”的逗号分隔字符串,而
我想使用 JSON 作为 mirth channel 的输入和输出,例如详细信息保存在数据库中或创建 HL7 消息。 简而言之,输入为 JSON 解析它并输出为任何格式。 最佳答案 var objec
通常我会使用 R 并执行 merge.by,但这个文件似乎太大了,部门中的任何一台计算机都无法处理它! (任何从事遗传学工作的人的附加信息)本质上,插补似乎删除了 snp ID 的 rs 数字,我只剩
我有一个以前可能被问过的问题,但我很难找到正确的描述。我希望有人能帮助我。 在下面的代码中,我设置了varprice,我想添加javascript变量accu_id以通过rails在我的数据库中查找记
我有一个简单的 SVG 文件,在 Firefox 中可以正常查看 - 它的一些包装文本使用 foreignObject 包含一些 HTML - 文本包装在 div 中:
所以我正在为学校编写一个 Ruby 程序,如果某个值是 1 或 3,则将 bool 值更改为 true,如果是 0 或 2,则更改为 false。由于我有 Java 背景,所以我认为这段代码应该有效:
我做了什么: 我在这些账户之间创建了 VPC 对等连接 互联网网关也连接到每个 VPC 还配置了路由表(以允许来自双方的流量) 情况1: 当这两个 VPC 在同一个账户中时,我成功测试了从另一个 La
我有一个名为 contacts 的表: user_id contact_id 10294 10295 10294 10293 10293 10294 102
我正在使用 Magento 中的新模板。为避免重复代码,我想为每个产品预览使用相同的子模板。 特别是我做了这样一个展示: $products = Mage::getModel('catalog/pro
“for”是否总是检查协议(protocol)中定义的每个函数中第一个参数的类型? 编辑(改写): 当协议(protocol)方法只有一个参数时,根据该单个参数的类型(直接或任意)找到实现。当协议(p
我想从我的 PHP 代码中调用 JavaScript 函数。我通过使用以下方法实现了这一点: echo ' drawChart($id); '; 这工作正常,但我想从我的 PHP 代码中获取数据,我使
这个问题已经有答案了: Event binding on dynamically created elements? (23 个回答) 已关闭 5 年前。 我有一个动态表单,我想在其中附加一些其他 h
我正在尝试找到一种解决方案,以在 componentDidMount 中的映射项上使用 setState。 我正在使用 GraphQL连同 Gatsby返回许多 data 项目,但要求在特定的 pat
我在 ScrollView 中有一个 View 。只要用户按住该 View ,我想每 80 毫秒调用一次方法。这是我已经实现的: final Runnable vibrate = new Runnab
我用 jni 开发了一个 android 应用程序。我在 GetStringUTFChars 的 dvmDecodeIndirectRef 中得到了一个 dvmabort。我只中止了一次。 为什么会这
当我到达我的 Activity 时,我调用 FragmentPagerAdapter 来处理我的不同选项卡。在我的一个选项卡中,我想显示一个 RecyclerView,但他从未出现过,有了断点,我看到
当我按下 Activity 中的按钮时,会弹出一个 DialogFragment。在对话框 fragment 中,有一个看起来像普通 ListView 的 RecyclerView。 我想要的行为是当
我是一名优秀的程序员,十分优秀!