python - 使用 usecols 时 pandas.read

python - 使用 usecols 时 pandas.read_excel 错误

转载作者：行者123 更新时间：2023-12-01 01:07:06

24

4

我在从 Excel 文件读取数据时遇到一些问题。Excel 文件包含带有 unicode 字符的列名称。

由于一些自动化原因，我需要将 usecols 参数传递给 pandas.read_excel 函数。

问题是，当我不使用 usecols 参数时，数据加载时不会出现错误。

代码如下:

import pandas as pd

df = pd.read_excel(file)
df.colums

Index([u'col1', u'col2', u'col3', u'col with unicode à', u'col4'], dtype='object')

如果我使用 usecols:

COLUMNS = ['col1', 'col2', 'col with unicode à']
df = pd.read_excel(file, usecols = COLUMNS)

我收到以下错误:

ValueError: Usecols do not match columns, columns expected but not found: ['col with unicode \xc3\xa0']

使用 encoding = 'utf-8' 作为 read_excel 的参数并不能解决问题，并且还对 COLUMNS 元素进行编码。

编辑:这里是完整的错误窗口。

 ---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-22-541ccb88da6a> in <module>()
      2 df = pd.read_excel(file)
      3 cols = df.columns
----> 4 df = pd.read_excel(file, usecols = ['col1', 'col2', 'col with unicode à'])

C:\Users\GiacomoSachs\Anaconda2\lib\site-packages\pandas\util\_decorators.pyc in wrapper(*args, **kwargs)
    186                 else:
    187                     kwargs[new_arg_name] = new_arg_value
--> 188             return func(*args, **kwargs)
    189         return wrapper
    190     return _deprecate_kwarg

C:\Users\GiacomoSachs\Anaconda2\lib\site-packages\pandas\util\_decorators.pyc in wrapper(*args, **kwargs)
    186                 else:
    187                     kwargs[new_arg_name] = new_arg_value
--> 188             return func(*args, **kwargs)
    189         return wrapper
    190     return _deprecate_kwarg

C:\Users\GiacomoSachs\Anaconda2\lib\site-packages\pandas\io\excel.pyc in read_excel(io, sheet_name, header, names, index_col, parse_cols, usecols, squeeze, dtype, engine, converters, true_values, false_values, skiprows, nrows, na_values, keep_default_na, verbose, parse_dates, date_parser, thousands, comment, skip_footer, skipfooter, convert_float, mangle_dupe_cols, **kwds)
    373         convert_float=convert_float,
    374         mangle_dupe_cols=mangle_dupe_cols,
--> 375         **kwds)
    376 
    377 

C:\Users\GiacomoSachs\Anaconda2\lib\site-packages\pandas\io\excel.pyc in parse(self, sheet_name, header, names, index_col, usecols, squeeze, converters, true_values, false_values, skiprows, nrows, na_values, parse_dates, date_parser, thousands, comment, skipfooter, convert_float, mangle_dupe_cols, **kwds)
    716                                   convert_float=convert_float,
    717                                   mangle_dupe_cols=mangle_dupe_cols,
--> 718                                   **kwds)
    719 
    720     @property

C:\Users\GiacomoSachs\Anaconda2\lib\site-packages\pandas\io\excel.pyc in parse(self, sheet_name, header, names, index_col, usecols, squeeze, dtype, true_values, false_values, skiprows, nrows, na_values, verbose, parse_dates, date_parser, thousands, comment, skipfooter, convert_float, mangle_dupe_cols, **kwds)
    599                                     usecols=usecols,
    600                                     mangle_dupe_cols=mangle_dupe_cols,
--> 601                                     **kwds)
    602 
    603                 output[asheetname] = parser.read(nrows=nrows)

C:\Users\GiacomoSachs\Anaconda2\lib\site-packages\pandas\io\parsers.pyc in TextParser(*args, **kwds)
   2154     """
   2155     kwds['engine'] = 'python'
-> 2156     return TextFileReader(*args, **kwds)
   2157 
   2158 

C:\Users\GiacomoSachs\Anaconda2\lib\site-packages\pandas\io\parsers.pyc in __init__(self, f, engine, **kwds)
    893             self.options['has_index_names'] = kwds['has_index_names']
    894 
--> 895         self._make_engine(self.engine)
    896 
    897     def close(self):

C:\Users\GiacomoSachs\Anaconda2\lib\site-packages\pandas\io\parsers.pyc in _make_engine(self, engine)
   1130                                  ' "c", "python", or' ' "python-fwf")'.format(
   1131                                      engine=engine))
-> 1132             self._engine = klass(self.f, **self.options)
   1133 
   1134     def _failover_to_python(self):

C:\Users\GiacomoSachs\Anaconda2\lib\site-packages\pandas\io\parsers.pyc in __init__(self, f, **kwds)
   2236         self._col_indices = None
   2237         (self.columns, self.num_original_columns,
-> 2238          self.unnamed_cols) = self._infer_columns()
   2239 
   2240         # Now self.columns has the set of columns that we will process.

C:\Users\GiacomoSachs\Anaconda2\lib\site-packages\pandas\io\parsers.pyc in _infer_columns(self)
   2609                 columns = [names]
   2610             else:
-> 2611                 columns = self._handle_usecols(columns, columns[0])
   2612         else:
   2613             try:

C:\Users\GiacomoSachs\Anaconda2\lib\site-packages\pandas\io\parsers.pyc in _handle_usecols(self, columns, usecols_key)
   2669                             col_indices.append(usecols_key.index(col))
   2670                         except ValueError:
-> 2671                             _validate_usecols_names(self.usecols, usecols_key)
   2672                     else:
   2673                         col_indices.append(col)

C:\Users\GiacomoSachs\Anaconda2\lib\site-packages\pandas\io\parsers.pyc in _validate_usecols_names(usecols, names)
   1235         raise ValueError(
   1236             "Usecols do not match columns, "
-> 1237             "columns expected but not found: {missing}".format(missing=missing)
   1238         )
   1239 

ValueError: Usecols do not match columns, columns expected but not found: ['col with unicode \xc3\xa0']

最佳答案

这些方法对于选择 Excel 列非常有效:

第一种情况使用数字，“A”列 = 0，“B”列 = 1 等。

df = pd.read_excel("文件名.xlsx",usecols= range(0,5))

使用字母的第二种情况:

df = pd.read_excel("文件名.xlsx",usecols= "A, C, E:J")

关于python - 使用 usecols 时 pandas.read_excel 错误，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55239010/

24

4

0

文章推荐： jquery - .NET 相当于 JQuery.param()

python - 忽略 'usecol' 参数中的缺失列
我正在从 csv 读取一个表，并且只想要列的一个子集。我用于子集的列表包含我正在阅读的表中可能不存在的字段名称。例如: # contents of sample.csv: #a,b,c #1,2,3
Python 在使用 Usecol 时添加列
我希望这很容易完成，但我遇到了问题，因为我从文本文件中选择列，但也想将文件名的一部分添加为最后一列或第四列。当然，我收到了“预期轴”的错误。下面是我的代码: import pandas as pd
python - Pandas usecols 除了最后一个
我有一个 csv 文件，是否可以让 usecols 在使用 read_csv 时获取除最后一列之外的所有列，而不列出所需的每一列。例如，如果我有一个 13 列的文件，我可以执行 usecols=[0
python - usecols 在 pandas 中不区分大小写
我正在尝试循环浏览大量具有相同列名的 CSV，但其中一些具有不同的大小写。我在我的代码中使用“usecols”，当大小写与 mycols 列表不匹配时会抛出错误。 df=pd.read_csv(fn
python - Pandas read_csv usecols 和名称无法正常工作
我正在 pandas 中读取一个没有标题的 csv 文件。我的问题是，当我在 usecols 中硬编码值并命名时，它工作正常。但是，当我从 cols 和名称列表获取输入(这些列表从 json 文件作为
python - Pandas read_csv usecols 和名称无法正常工作
我正在 pandas 中读取一个没有标题的 csv 文件。我的问题是，当我在 usecols 中硬编码值并命名时，它工作正常。但是，当我从 cols 和名称列表获取输入(这些列表从 json 文件作为
python - usecols 与 parse_dates 和名称
我正在尝试以下列格式加载包含 OHLC 数据的 csv 文件。 In [49]: !head '500008.csv' 03 Jan 2000,12.85,13.11,12.74,13.11,9765
python - 即使使用 usecols， Pandas 也会读取整个文件吗？
我正在使用 pandas 读取休息服务中的文件。该文件很大，有 100 多列。但我只想阅读前两列。我知道我可以在 read_csv 中使用 usecols 但我想知道它究竟是如何工作的？ pandas
python - Pandas read_csv usecols 相同的索引
考虑以下代码: import pandas as pd from StringIO import StringIO x=''' a,b,c,d 1,2,3,4 5,6,7,8 9,10,11,12 1
python - Pandas read_csv usecols 接受不存在的列名
是否可以制作 Pandas 。 read_csv()如果在输入文件中找不到 usecols 中指定的列，则会引发错误？例如。在下面的示例中，我希望 Pandas 引发异常，因为输入文件中没有名为“he
python - Pandas : Usecols do not match columns, 列预期但未找到
我收到一个错误: ValueError: Usecols do not match columns, columns expected but not found: ['Search Query']
python - 使用 usecols 时 Pandas 保留索引列
这是我的问题的重新措辞版本，希望更有意义: 当使用带有隐式索引的 read_csv 时(即文件中的第一列没有标题)，一切正常，我得到一个数据帧，其索引是文件中的第一列 -隐式索引列。但是，如果我将
python - ":"的 pandas read_table usecols 错误
我正在尝试使用 python pandas read_table 函数从我的文件中读取一定范围的非连续列。为此，我正在尝试: df=pd.read_table('genes.fpkm_tracking
python - pandas read_csv 和使用 usecols 过滤列
当我使用 usecols 过滤列并使用多个索引时，pandas.read_csv 无法正确输入 csv 文件。 import pandas as pd csv = r"""dummy,date,loc
python - 使用 usecols 时 pandas.read_excel 错误
我在从 Excel 文件读取数据时遇到一些问题。Excel 文件包含带有 unicode 字符的列名称。由于一些自动化原因，我需要将 usecols 参数传递给 pandas.read_excel
python - Pandas- ValueError : Usecols do not match columns, 列预期但未找到
我正在尝试将一些列从导入的 csv 文件复制到 selected.csv 但它给了我这个错误: 'ValueError: Usecols do not match columns, columns e
python - 在 Pandas Read_CSV 中使用 UseCols 时按指定顺序保留列
我有一个包含 50 列数据的 csv 文件。我正在使用 Pandas read_csv 函数提取这些列的子集，使用 usecols 参数来选择我想要的列: cols_to_use = [0,1,5,1
python - 选择 usecols 参数将 Excel 文件导入 Pandas 时出错
我正在尝试将数据从 Excel 文件导入 pandas，但在输入以下内容时出现错误: energy = pd.read_excel('Indicators.xls',
python - pandas read_table 中的 usecols 结果为 "list index out of range"
我想在用 pandas 解析一些数据时只选择 2 列。 pd.read_table的帮助提到了一个usecols选项，这似乎正是我想要的: usecols : array-like, default
python - Pandas 返回 "Passed header names mismatches usecols"错误
以下按预期工作。 190栏全部读入。 pd.read_csv("data.csv", header=None, names=columns,

首页

博学

6Ren·AI

商城

python - 使用 usecols 时 pandas.read_excel 错误