- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个相当大(1.3 GB,未压缩)的 csv 文件,包含 2 个密集列和 1.4 K 稀疏列,大约 1 M 行。
我需要从中制作一个 pandas.DataFrame。
对于小文件我可以简单地做:
df = pd.read_csv('file.csv')
对于我现在拥有的大文件,出现内存错误,这显然是由于 DataFrame 大小(通过 sys.getsizeof(df)
基于这份文件:
https://pandas.pydata.org/pandas-docs/stable/user_guide/sparse.html#migrating
看起来我可以制作一个包含密集列和稀疏列的 DataFrame。
但是,我只能从 csv 文件中看到添加单个稀疏列的说明,而不是所有这些列的一大块。
逐一读取 csv 稀疏列并将它们添加到 df 使用:
for colname_i in names_of_sparse_columns:
data = pd.read_csv('file.csv', usecols = [colname_i])
df[colname_i] = pd.arrays.SparseArray(data.values.transpose()[0])
有效,并且 df
保持非常小,如预期的那样,但执行时间长得离谱。
我当然试过了:
pd.read_csv(path_to_input_csv, usecols = names_of_sparse_columns, dtype = "Sparse[float]")
但是会产生这个错误:
NotImplementedError: Extension Array: <class 'pandas.core.arrays.sparse.array.SparseArray'> must implement _from_sequence_of_strings in order to be used in parser methods
Any idea how I can do this more efficiently?
我检查了几个帖子,但它们似乎都在追求与此略有不同的东西。
编辑 添加一个小例子,以澄清
import numpy as np
import pandas as pd
import sys
# Create an unpivoted sparse dataset
lengths = list(np.random.randint(low = 1, high = 5, size = 10000))
cols = []
for l in lengths:
cols.extend(list(np.random.choice(100, size = l, replace = False)))
rows = np.repeat(np.arange(10000), lengths)
vals = np.repeat(1, sum(lengths))
df_unpivoted = pd.DataFrame({"row" : rows, "col" : cols, "val" : vals})
# Pivot and save to a csv file
df = df_unpivoted.pivot(index = "row", columns = "col", values = "val")
df.to_csv("sparse.csv", index = False)
此文件在我的电脑上占用 1 MB。
相反:
sys.getsizeof(df)
# 8080016
这对我来说看起来像 8 MB。
因此,当从稀疏 csv 文件制作 pd.DataFrame
时,大小明显增加了很多(在这种情况下,我从数据框制作文件,但它与读取 csv 文件相同使用 pd.read_csv()
)。
这就是我的观点:我不能使用pd.read_csv()
将整个 csv 文件加载到内存中。
这里只有8MB,完全没有问题;对于我提到的实际 1.3 GB csv,它的大小如此之大,以至于使我们的机器内存崩溃。
我想这很容易尝试,在上面的模拟中将 10000 替换为 1000000,将 100 替换为 1500。
如果我这样做:
names_of_sparse_columns = df.columns.values
df_sparse = pd.DataFrame()
for colname_i in names_of_sparse_columns:
data = pd.read_csv('sparse.csv', usecols = [colname_i])
df_sparse[colname_i] = pd.arrays.SparseArray(data.values.transpose()[0])
生成的对象要小得多:
sys.getsizeof(df_sparse)
# 416700
实际上比文件还要小。
这是我的第二点:逐列添加稀疏列非常慢。
I was looking for advice on how to make
df_sparse
from a file like"sparse.csv"
faster / more efficiently.
事实上,当我写这个例子的时候,我注意到:
sys.getsizeof(df_unpivoted)
# 399504
所以也许解决方案是逐行读取 csv 文件并将其取消透视。然而,我需要做的其余处理仍然需要我写出一个旋转的 csv,所以回到原点。
编辑 2 更多信息
我也描述了我需要做的其余处理。
当我可以使用非稀疏数据框时,文件中有一个ID
列:
df["ID"] = list(np.random.choice(20, df.shape[0]))
我需要总结每个数据列的每个 ID
存在多少数据:
df.groupby("ID").count()
不幸的是稀疏数据框不支持这个。
我找到了一个解决方法,但它非常低效且缓慢。
If anyone can advise on that aspect, too, it would be useful.
我猜想会有一种方法可以将 csv 的稀疏部分加载到某种形式的稀疏数组中,并通过 ID
进行汇总。
也许我完全以错误的方式处理这个问题,这就是为什么我向广大有能力的观众征求意见的原因。
最佳答案
我完全不知道为什么有人会制作那种格式的 CSV。我会把它作为 block 读入并修复 block 。
# Read in chunks of data, melt it into an dataframe that makes sense
data = [c.melt(id_vars=dense_columns, var_name="Column_label", value_name="Thing").dropna()
for c in pd.read_csv('file.csv', iterator=True, chunksize=100000)]
# Concat the data together
data = pd.concat(data, axis=0)
根据需要更改 block 大小和值列的名称。如果需要,您也可以分块读取并将这些 block 转换为稀疏数据帧,但似乎您最好使用融化的数据帧来完成您想要做的事情,IMO。
您也可以随时以其他方式再次分块。根据数据需要更改 block 数。
with open('out_file.csv', mode='w') as out:
for i, chunk in enumerate(np.array_split(df, 100)):
chunk.iloc[:, 2:] = chunk.iloc[:, 2:].sparse.to_dense()
chunk.to_csv(out, header=i==0)
关于python - 如何从 csv 文件制作稀疏 pandas DataFrame,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69646380/
我想在一个页面上做一个按钮,可以在同一页面调用一个JS函数。该函数将需要创建(打开)新窗口,其 HTML 代码由 JS 函数本身提供。我该怎么做? 这样做的目的是从特定页面生成一个打印友好的页面。 请
我一直在用 php 开发这个项目。该项目的一半是使用 mysql_query 完成的,最新的模块是使用 mysqli 制作的。有很多模块,我不想更改代码。如果是这样的话会不会产生问题。或者我应该将其全
我安装了好几次 qt creator,但它从来没有像我现在的 PC 那样花钱;首先,我使用我的 Pendrive(Qt 5.8 的)上一直有的安装程序,告诉我我无法下载一些存储库,我下载了相同安装程序
我安装了 Qt Creator 5.10.1,当我构建项目时出现错误:“无法确定要运行哪个”make“命令。检查构建配置中的”make“步骤。”。 我已经在另一台 PC 上安装了 Qt,我看到了这个问
看看这个 makefile,它有某种原始的进度指示(可能是一个进度条)。 请给我建议/意见! # BUILD 最初是未定义的 ifndef 构建 # max 等于 256 个 x 十六:= x x x
这个问题会有点长,对此我很抱歉:) 我花了几天时间寻找最好的解决方案,以在 asp mvc 和 JQuery 中制作图像库。 主要问题是当用户点击拇指时显示图像。 我想让整个浏览器 View 变成黑色
我是Python方面的 super 高手。我一直在努力寻找适当的解决方案。这是列表,L = [0, 0, 0, 3, 4, 5, 6, 0, 0, 0, 0, 11, 12, 13, 14, 0, 0
让我们考虑两个简化的 CMakeLists.txt set(GTEST "/usr/local/lib/libgtest.a") set(GMOCK "/usr/local/lib/libgmock.
我如何制作 Makefile,因为这是按源代码分发程序的最佳方式。请记住,这是针对 C++ 程序的,而我是从 C 开发领域开始的。但是可以为我的 Python 程序制作 Makefile 吗? 最佳答
由于 Ord 是 Eq 的子类,我发现很难理解创建该类的新类型实例的样子。 我已经设法做到了: newtype NT1 = NT1 Integer instance Eq NT1 wh
在 PowerShell 中,我想编写一个函数,它接受不同的选项作为参数。没关系,如果它接收多个参数,但它必须接收至少一个参数。我想通过参数定义而不是之后的代码来强制执行它。我可以使用以下代码让它工作
我正在通过构建包使用 enable-ssl 在 heroku (ubuntu) 上安装 ffmpeg。我能够一直构建到这些错误: install: cannot create regular file
我是 FFmpeg 的新手,但作为一个学习一些 mysql 数据库的项目,我正在尝试创建一个视频上传网站。 当我尝试使用此代码制作缩略图时: shell_exec("/usr/local/bin/ff
我想要一个绘制可绘制对象的 Actor ,但将其剪辑为 Actor 的大小。我从 Widget 派生这个类,并使用一些硬编码的值作为一个简单的测试: public class MyWidget ext
我一直在查看 Faxien+Sinan 和 Rebar,Erlang OTP 的基本理念似乎是,在单个 Erlang 镜像实例上安装应用程序和版本。保持发布自包含的最佳实践是什么?有没有办法打包发布,
我正在尝试克隆存储库,但它应该是彼此独立的副本。这背后有什么魔法吗,或者只是使用 svn 客户端并克隆它? 谢谢 最佳答案 试试 svnadmin hotcopy .您可以在 repo mainten
我想做一个这样的菜单: Item 1 Item 2 Item 3 Subitem 1 Subitem 2 但我得到了这个:
为 Yii 创建扩展的最佳方式是什么? 这是我到目前为止所做的 我希望它可以通过 composer 安装,所以我为它创建了一个 github repo。 我在文件夹 vendor/githubname
我尝试制作一个ActionListener,但它给了我一个错误。我导入了事件,但它仍然不起作用。这是我的代码: send.addActionListener(new jj); private clas
我需要能够将 div 内的 HTML 代码恢复为页面就绪状态。我需要这个,因为我想在页面准备好后对 HTML 代码进行一些更改,然后在需要时将其恢复到页面准备好时的状态.. 我想使用克隆,但是如何只复
我是一名优秀的程序员,十分优秀!