Python - pandas xls 导入 - 删除某些行时遇到困难 +-6ren

Python - pandas xls 导入 - 删除某些行时遇到困难 +

转载作者：太空宇宙更新时间：2023-11-03 14:08:29

27

4

[miniconda、python 3]

要下载的我的数据.xls:(密码:stack) Download .xls

0)您可以注意到我的 xls 文件在第一行中有很大的合并单元格，在第 2 行和第 3 行中也有一些合并单元格。这是一个问题吗？如果这是一个问题 - 我可以以某种方式取消它们的合并吗？

1)我想删除此 xls 的第一行，因为对我来说没有重要信息。我猜问题是该行被合并了？我想使用 df = df.drop([0]) 来实现这一点，但它不是删除这个巨大的第一行，而是删除带有列标题的行(以“ID klienta”开头)。这是为什么？

2)在我删除第一行之后，我喜欢处理来自各个列的一些数字(在我的示例中，我想将数据与“Stav”列分开)。我怎么做？我在某处看到可以仅通过标题名称(字符串)来索引行/列。例如，我想使用以下方法将数据与标题为“Stav”的列分开:Stav = df['Stav']

到目前为止我的代码是:

import pandas as pd
import numpy as np

print("\n\n*********************************************")
print("My xls processing script\n")
print("*********************************************\n")

#load data 
df = pd.read_excel("file.xls")

#My unsucessful attempt to get rid of first row 
#uncomment this and it will remove the second row instead of the first row
#df = df.drop([0])

#print preview of 6 rows 5 columnts
print(df.iloc[0:5, 0:4])
print("\n\n")

#My unsuccessful attempt to get column date with header 'ID'
Stav = df['Stav']
print(Stav)

控制台输出:

(xls_env) C:\Users\Slavek\Documents\PythonScripts>python xld_proj.py

*********************************************
My xls processing script

*********************************************

  Lidé, které jsem podpořil                 Unnamed: 1 Unnamed: 2  Unnamed: 3
0                ID klienta                      Název       Stav  ID příběhu
1                       NaN                        NaN        NaN         NaN
2               zonky214882                       Jeep   na cestě      181187
3               zonky235862  Notebook k práci i relaxu   na cestě      206317
4               zonky230378               Dětský pokoj  v pořádku      199686



Traceback (most recent call last):
  File "C:\miniconda\envs\xls_env\lib\site-packages\pandas\core\indexes\base.py", line 2525, in get_loc
    return self._engine.get_loc(key)
  File "pandas/_libs/index.pyx", line 117, in pandas._libs.index.IndexEngine.get_loc
  File "pandas/_libs/index.pyx", line 139, in pandas._libs.index.IndexEngine.get_loc
  File "pandas/_libs/hashtable_class_helper.pxi", line 1265, in pandas._libs.hashtable.PyObjectHashTable.get_item
  File "pandas/_libs/hashtable_class_helper.pxi", line 1273, in pandas._libs.hashtable.PyObjectHashTable.get_item
KeyError: 'Stav'

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "xld_proj.py", line 20, in <module>
    Stav = df['Stav']
  File "C:\miniconda\envs\xls_env\lib\site-packages\pandas\core\frame.py", line 2139, in __getitem__
    return self._getitem_column(key)
  File "C:\miniconda\envs\xls_env\lib\site-packages\pandas\core\frame.py", line 2146, in _getitem_column
    return self._get_item_cache(key)
  File "C:\miniconda\envs\xls_env\lib\site-packages\pandas\core\generic.py", line 1842, in _get_item_cache
    values = self._data.get(item)
  File "C:\miniconda\envs\xls_env\lib\site-packages\pandas\core\internals.py", line 3843, in get
    loc = self.items.get_loc(item)
  File "C:\miniconda\envs\xls_env\lib\site-packages\pandas\core\indexes\base.py", line 2527, in get_loc
    return self._engine.get_loc(self._maybe_cast_indexer(key))
  File "pandas/_libs/index.pyx", line 117, in pandas._libs.index.IndexEngine.get_loc
  File "pandas/_libs/index.pyx", line 139, in pandas._libs.index.IndexEngine.get_loc
  File "pandas/_libs/hashtable_class_helper.pxi", line 1265, in pandas._libs.hashtable.PyObjectHashTable.get_item
  File "pandas/_libs/hashtable_class_helper.pxi", line 1273, in pandas._libs.hashtable.PyObjectHashTable.get_item
KeyError: 'Stav'

最佳答案

我认为您想要读入标题功能选项

df = pd.read_excel("file.xls", header =[0,1,2])

然后您可以删除不需要的 header :

 df.columns = df.columns.droplevel([0,1])

或者类似的东西。该表有点困惑，因为变量名称分散在两个子标题中。我会把它清理干净，这样它们就都在同一条线上。

或者保留所有标题并在此处查看: How do I change or access pandas MultiIndex column headers?

关于Python - pandas xls 导入 - 删除某些行时遇到困难 +，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48694286/

27

4

0

文章推荐： python-3.x - 在 python 3 中请求 HTTP/2 切换协议(protocol)

文章推荐： python - decorator() 得到了一个意外的关键字参数

文章推荐： ssl - 登录 artifactory docker registry 时出现隧道连接失败错误

文章推荐： php - 自定义 PayPal 按钮的自动 OpenSSL 加密？ PHP

变量类型签名的 Haskell 困难
tuple :: (Integer a,Fractional b) => (a,b,String) tuple = (18,5.55,"Charana") 所以这是给我的错误 ‘Integer’ is
encryption - 为什么加密如此重要/困难？
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。关闭 11 年前。 Improve thi
java - java中的二维数组 - 困难
我已经习惯了python和django，但我最近开始学习java。由于工作原因我没有太多时间，所以错过了很多类(class)，现在我有点困惑，我必须做作业。编辑该程序应该根据每个运动员在自行车和比
PHP 动态求和回显结果(困难)
这是一个困难的问题，但对专业人士来说很容易。我在 mysql 中有以下字段:产品名称、mycost、sellprice 和 stock。因为我需要知道每种产品对我的商店的投资有多少，所以我创建了以下
mysql - 将两个表中的术语配对并插入到一个表中(困难)
我有 3 个表，其中已包含以下行: TBL_TESTER_LIST id tester_type tester_name 1 LMX LMX-01 2 LMX
java - GridBagLayout 困难
我想只使用 GridBagLayout 来布局组件，如图所示。我已经尝试了几个约束，但它永远不会以预期的结果结束，所以我想知道仅使用 GridBagLayout 是否真的可行。难点在于C1、C2、C
php - bind_param 困难
我遇到了以下代码没有结果的问题。但是，如果我取消注释掉指定的行，并注释掉它起作用的 bind_param 行，但这不是破坏了 mysqli 的目的吗？我的 var_dump 给了我的字符串(1)“1”
python - py2exe 困难
这个问题在这里已经有了答案: a good python to exe compiler? [closed] (3 个答案) 关闭 9 年前。有了我之前问题的一些有用答案(见下文)，我决定再试一次
具有复合键的 Hadoop 困难
我正在使用 Hadoop 分析 GSOD 数据 (ftp://ftp.ncdc.noaa.gov/pub/data/gsod/)。我选择了 5 年来执行我的实验 (2005 - 2009)。我配置了一
swift - NSGridView 困难
我在我的 macOS 应用程序的设置面板中使用 NSGridView。我是这样设置的: class GeneralViewController: RootViewController { pr
php - 手动 wp_install() 困难
我正在尝试使用以下代码在 PHP 中自动安装 WordPress 发行版: $base_dir = '/home/username/wordpress_location'; chdir($base_d
javascript - 将图像转换为 Base64 困难
在 Node.js 中将图像转换为 Base64 字符串时，我遇到了一个非常令人困惑的问题这是我的示例代码: app.get('/image', (req, res) => { ServerAP
java - 面临主要 Activity 困难
我在尝试运行我的应用程序时遇到一些错误，这里是 logcat java.lang.RuntimeException: Unable to instantiate activity Componen
java - 团队和球员对象 Java 困难
基本上，我正在努力创建一个管理团队和球员的 Java 程序。根据我的理解，我会有一个团队和一个玩家类。在团队类中会有 get 和 set 方法，以及某种形式的集合来正确存储球员，例如数组列表？然后在
Java Swing 布局困惑/困难
我仍在尝试找出 JavaSwing 中的 BorderLayout，这真的很令人沮丧。我希望能够将一个 Pane 拆分为 3 个包含的子面板，但我不完全确定如何包含它。这是我的游戏类，它包含面板
database - 数据库表规范化(2NF)困难
下面的表设计（完整的模式见下文）还有很多需要改进的地方，并且已经造成了许多困难，但是我无法找出如何最好地将它们规范化。这些表格的目的是： ICD9-提供CICD9和CDESC组合的主查找。每个组合在I
postgresql 困难(对我来说)查询
这是我的表格: AB元组表 C 表，其中包含 A.id 和 B.id 的条目 D 表，其中包含带有 C.id 的条目和一个 bool 字段“open” 我想计算 D 表中“open”= true 且具
php - 转换 mysql_result 困难
我在 YouTube 上跟踪了一个相当旧的教程，在视频中他以这种方式使用了 mysql_result: return (mysql_result($result,0) == 1) ? true : f
100% 高度的 css 困难
我正在尝试创建一个左侧面板的页面。该面板有一个页眉、一个内容区域和一个页脚。主面板包装器 div 应该是页面高度的 100%。页眉和页脚没有指定的高度，因为我只希望它们足够大以容纳其文本和填充，而我希
c++ - 模型 View 困难
我有 TreeView ，我想在其中显示用户通过 file_dialog.getOpenFileNames() 选择的文件； file_dialog 是 QFileDialog。我确实创建了模型类:

首页

博学

6Ren·AI

商城

Python - pandas xls 导入 - 删除某些行时遇到困难 +