python - 将 SparseDataFrame 保存到 CSV 会引发 IndexError-6ren

python - 将 SparseDataFrame 保存到 CSV 会引发 IndexError

转载作者：太空宇宙更新时间：2023-11-03 15:24:27

25

4

用示例更新了问题

我尝试重现我的问题。事实证明，它甚至与我的数据集的大小无关。这是重现我的问题的最小示例:

>>> import pandas as pd
>>> data = pd.SparseDataFrame({ 'user': ['a', 'b', 'c', 'd'], 'week': [4, 3, 2, 1] }, default_fill_value=0)
>>> data.info()
<class 'pandas.sparse.frame.SparseDataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 2 columns):
user    4 non-null object
week    4 non-null int64
dtypes: int64(1), object(1)
memory usage: 144.0+ bytes
>>> data.to_csv('error.csv', index=False)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/usr/local/lib/python3.6/site-packages/pandas/core/frame.py", line 1383, in to_csv
    formatter.save()
  File "/usr/local/lib/python3.6/site-packages/pandas/formats/format.py", line 1475, in save
    self._save()
  File "/usr/local/lib/python3.6/site-packages/pandas/formats/format.py", line 1576, in _save
    self._save_chunk(start_i, end_i)
  File "/usr/local/lib/python3.6/site-packages/pandas/formats/format.py", line 1590, in _save_chunk
    quoting=self.quoting)
  File "/usr/local/lib/python3.6/site-packages/pandas/core/internals.py", line 596, in to_native_types
    values = values[:, slicer]
  File "/usr/local/lib/python3.6/site-packages/pandas/sparse/array.py", line 401, in __getitem__
    data_slice = self.values[key]
IndexError: too many indices for array

这是一个错误还是我做错了什么？

<小时/>

原始问题

我有一个巨大的稀疏数据框。

>>> data.shape
(3827022, 4893)

>>> type(data)
pandas.sparse.frame.SparseDataFrame

当我尝试将其保存到 CSV 文件时，它会引发 IndexError。难道是因为数据太大了？指定 chunksize 并不能解决问题。

>>> data.to_csv('../data/hashtags_binarized.csv', index=False)

---------------------------------------------------------------------------
IndexError                                Traceback (most recent call last)
<ipython-input-58-550cc98888dc> in <module>()
----> 1 get_ipython().run_cell_magic('time', '', "data.to_csv('../data/hashtags_binarized.csv', index=False)")

/usr/local/lib/python3.6/site-packages/IPython/core/interactiveshell.py in run_cell_magic(self, magic_name, line, cell)
   2113             magic_arg_s = self.var_expand(line, stack_depth)
   2114             with self.builtin_trap:
-> 2115                 result = fn(magic_arg_s, cell)
   2116             return result
   2117 

<decorator-gen-59> in time(self, line, cell, local_ns)

/usr/local/lib/python3.6/site-packages/IPython/core/magic.py in <lambda>(f, *a, **k)
    186     # but it's overkill for just that one bit of state.
    187     def magic_deco(arg):
--> 188         call = lambda f, *a, **k: f(*a, **k)
    189 
    190         if callable(arg):

/usr/local/lib/python3.6/site-packages/IPython/core/magics/execution.py in time(self, line, cell, local_ns)
   1179         if mode=='eval':
   1180             st = clock2()
-> 1181             out = eval(code, glob, local_ns)
   1182             end = clock2()
   1183         else:

<timed eval> in <module>()

/usr/local/lib/python3.6/site-packages/pandas/core/frame.py in to_csv(self, path_or_buf, sep, na_rep, float_format, columns, header, index, index_label, mode, encoding, compression, quoting, quotechar, line_terminator, chunksize, tupleize_cols, date_format, doublequote, escapechar, decimal)
   1381                                      doublequote=doublequote,
   1382                                      escapechar=escapechar, decimal=decimal)
-> 1383         formatter.save()
   1384 
   1385         if path_or_buf is None:

/usr/local/lib/python3.6/site-packages/pandas/formats/format.py in save(self)
   1473                 self.writer = csv.writer(f, **writer_kwargs)
   1474 
-> 1475             self._save()
   1476 
   1477         finally:

/usr/local/lib/python3.6/site-packages/pandas/formats/format.py in _save(self)
   1574                 break
   1575 
-> 1576             self._save_chunk(start_i, end_i)
   1577 
   1578     def _save_chunk(self, start_i, end_i):

/usr/local/lib/python3.6/site-packages/pandas/formats/format.py in _save_chunk(self, start_i, end_i)
   1588                                   decimal=self.decimal,
   1589                                   date_format=self.date_format,
-> 1590                                   quoting=self.quoting)
   1591 
   1592             for col_loc, col in zip(b.mgr_locs, d):

/usr/local/lib/python3.6/site-packages/pandas/core/internals.py in to_native_types(self, slicer, na_rep, quoting, **kwargs)
    594         values = self.values
    595         if slicer is not None:
--> 596             values = values[:, slicer]
    597         mask = isnull(values)
    598 

/usr/local/lib/python3.6/site-packages/pandas/sparse/array.py in __getitem__(self, key)
    399             return self._get_val_at(key)
    400         elif isinstance(key, tuple):
--> 401             data_slice = self.values[key]
    402         else:
    403             if isinstance(key, SparseArray):

IndexError: too many indices for array

最佳答案

使用另一个应用“toCSV("name.csv") 创建 CSV 的选项，您将收到错误“SparseDataFrame”对象没有属性“toCSV”。所以使用'.to_dense().to_csv('name.csv')

df.to_dense().to_csv("name.csv", index = False, sep=',', encoding='utf-8')

关于python - 将 SparseDataFrame 保存到 CSV 会引发 IndexError，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43263074/

25

4

0

文章推荐： Python 2to3 不工作

文章推荐： c# - 使用 C#，如何将变量设置为某个范围内的随机数？

文章推荐： python - 带有 OpenCV/python 的 Prosilica GigE 相机

文章推荐： c# - 如何从逻辑层访问 View ？

SharePointOnlineCredentials 引发 ComException
我正在使用 SharePoint Online 并使用 Windows Azure 托管访问 SPO 的进程。我们已将启动任务添加到 Azure 角色以安装 http://www.microsoft
python - 引发 FileNotFoundError
我有一个函数，它获取包含时间的源文件(csv 文件)，读取它，然后按顺序对行进行排序并将它们写入目标文件中。但是，如果源 csv 文件不存在，我需要引发 FileNotFoundError。我之前曾引
Python 引发 NotADirectoryError
我试图在目录不存在时引发错误，然后再打开该目录中的文件。根据this response我应该为我的问题使用最具体的异常构造函数，我认为它是 NotADirectoryError。但是运行下面的代码我得
c# - 引发/生成空引用异常背后的CLR实现是什么？
在编码/开发生命的一天或另一天，我们确实遇到了这个特殊的情况，这是最常见的异常(exception)之一。我的问题是关于的而不是。为什么(我知道当我们尝试访问实际上指向null的引用变量的属性时会引发
Python 引发/捕获异常
我想知道在 python 中是否可以在一个 except block 中引发异常并在稍后的 except block 中捕获它。我相信其他一些语言默认会这样做。这是它的样子" try: som
python - Mechanize 引发 BrowserStateError
我有以下代码: br = mechanize.Browser() br._factory.is_html = True br.form = mechanize._form.ParseString(''
oracle - TOO_MANY_ROWS 引发，但变量仍然获得一个值
我刚刚发现，如果您有一个引发 TOO_MANY_ROWS 异常的 SELECT INTO，该变量仍会从查询检索到的第一条记录中分配值。这是预期的行为吗？这是我的例子: for co in my_cu
ssh - 引发 ssh 远程主机标识的所有原因都已更改
当 SSH 显示 WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED! 我知道当您重新安装远程服务器时会发生这种情况，但我尝试列出其他原因 . 我知道如何
java - EnumMap 引发 NullPointerException
我有一个枚举和一个 EnumMap . 我将 map 放入一个类中以隐藏“字节”值。所以我有一个set(Parameter, int)和set(Parameter, boolean)方法。 publi
redis-py 引发 AttributeError
在什么情况下会redis-py引发以下 AttributeError 异常？ redis-py 不是设计来引发仅基于 redis.exceptions.RedisError 的异常吗？什么是合理的处
.net - 如何可重复地导致/引发 ReflectionTypeLoadException？
可悲的是，对此异常的引用通常具有异国情调，并且可能发生在您例如通过 Assembly.GetTypes() 枚举类型- 举个例子，它发生在我们的一个部署上，但同一组程序集在集成服务器上运行良好。为了
android - Python 引发 SyntaxError
我正在为 Android 下的特定平板电脑克隆一个存储库并获取源代码，我必须执行一个 python 脚本。当我执行它时，我收到此错误消息: Traceback (most recent call la
android - 引发 PRIORITY_MAX 通知后隐藏前台服务的状态栏通知图标
首先，执行此操作(在运行 4.4.2 的 Nexus 5 上测试): 将 PRIORITY_LOW 通知传递给 Service.startForeground()。观察通知不显示在状态栏中。使用相
python - get_num_instances 引发 InvalidVersionError
我尝试使用 AppEngine 的 python 模块 api 来获取使用基本缩放的模块的实例数。在我模块的 yaml 文件中，我明确设置了 max_instances 参数。我希望 get_num_
python - Spark 引发 OutOfMemoryError
当我如下运行我的 spark python 代码时: import pyspark conf = (pyspark.SparkConf() .setMaster("local")
python - QXmlStreamReader 引发 UnicodeEncodeError
在我的系统上，一段适用于 Python 2 的代码不适用于 Python 3。 f = open("plotwidget.svg") svgData = f.read() xml_stream = Q
PHP 引发 SQL 语法错误
我是 PHP 和 SQL 的新手，但我正在创建一个登录系统。我遇到的问题是: You have an error in your SQL syntax; check the manual that c
python - error_check 引发 ConnectionError
我有一个使用 ebaysdk 库的 python 代码，当我运行代码并输入关键字进行搜索时，我得到了这个错误。 Traceback (most recent call last): File "eba
python - Werkzeug 引发 BrokenFilesystemWarning
当我将表单数据发送到我的 Flask 应用程序时，出现以下错误。它说它将使用 UTF-8 编码，但语言环境已经是 UTF-8。这个错误是什么意思？ /home/.virtualenvs/project
python - pympler 引发 TypeError
在python2.7中，跟随pympler example : from anotherfile import somefunction, somecustomclass from os import

首页

博学

6Ren·AI

商城

python - 将 SparseDataFrame 保存到 CSV 会引发 IndexError

用示例更新了问题

原始问题