python - AssertionError : invalid dtype determination in get_concat_dtype when concatenating operation on list of Dataframes的解决方法-6ren

python - AssertionError : invalid dtype determination in get_concat_dtype when concatenating operation on list of Dataframes的解决方法

转载作者：太空狗更新时间：2023-10-29 22:03:31

27

4

我有一个 Dataframes 列表，我正尝试使用连接函数将它们组合起来。

dataframe_lists = [df1, df2, df3]

result = pd.concat(dataframe_lists, keys = ['one', 'two','three'], ignore_index=True)

完整的追溯是:

---------------------------------------------------------------------------
AssertionError                            Traceback (most recent call last)
<ipython-input-198-a30c57d465d0> in <module>()
----> 1 result = pd.concat(dataframe_lists, keys = ['one', 'two','three'], ignore_index=True)
      2 check(dataframe_lists)

C:\WinPython-64bit-3.4.3.5\python-3.4.3.amd64\lib\site-packages\pandas\tools\merge.py in concat(objs, axis, join, join_axes, ignore_index, keys, levels, names, verify_integrity, copy)
    753                        verify_integrity=verify_integrity,
    754                        copy=copy)
--> 755     return op.get_result()
    756 
    757 

C:\WinPython-64bit-3.4.3.5\python-3.4.3.amd64\lib\site-packages\pandas\tools\merge.py in get_result(self)
    924 
    925             new_data = concatenate_block_managers(
--> 926                 mgrs_indexers, self.new_axes, concat_axis=self.axis, copy=self.copy)
    927             if not self.copy:
    928                 new_data._consolidate_inplace()

C:\WinPython-64bit-3.4.3.5\python-3.4.3.amd64\lib\site-packages\pandas\core\internals.py in concatenate_block_managers(mgrs_indexers, axes, concat_axis, copy)
   4061                                                 copy=copy),
   4062                          placement=placement)
-> 4063               for placement, join_units in concat_plan]
   4064 
   4065     return BlockManager(blocks, axes)

C:\WinPython-64bit-3.4.3.5\python-3.4.3.amd64\lib\site-packages\pandas\core\internals.py in <listcomp>(.0)
   4061                                                 copy=copy),
   4062                          placement=placement)
-> 4063               for placement, join_units in concat_plan]
   4064 
   4065     return BlockManager(blocks, axes)

C:\WinPython-64bit-3.4.3.5\python-3.4.3.amd64\lib\site-packages\pandas\core\internals.py in concatenate_join_units(join_units, concat_axis, copy)
   4150         raise AssertionError("Concatenating join units along axis0")
   4151 
-> 4152     empty_dtype, upcasted_na = get_empty_dtype_and_na(join_units)
   4153 
   4154     to_concat = [ju.get_reindexed_values(empty_dtype=empty_dtype,

C:\WinPython-64bit-3.4.3.5\python-3.4.3.amd64\lib\site-packages\pandas\core\internals.py in get_empty_dtype_and_na(join_units)
   4139         return np.dtype('m8[ns]'), tslib.iNaT
   4140     else:  # pragma
-> 4141         raise AssertionError("invalid dtype determination in get_concat_dtype")
   4142 
   4143 

AssertionError: invalid dtype determination in get_concat_dtype

我认为错误在于其中一个数据框为空。我使用简单的函数 check 来验证并仅返回空数据帧的 header :

  def check(list_of_df):

    headers = []
    for df in dataframe_lists:
        if df.empty is not True:
            continue
        else:  
            headers.append(df.columns)

    return headers

我想知道是否可以使用此函数，如果在空数据帧的情况下，仅返回该空数据帧的 header 并将其附加到连接的数据帧。输出将是标题的单行(并且，在重复列名的情况下，只是标题的单个实例(如串联函数的情况)。我有两个样本数据源，one和 two 非空数据集。这是一个空的 dataframe 。

我希望生成的连接具有列标题...

 'AT','AccountNum', 'AcctType', 'Amount', 'City', 'Comment', 'Country','DuplicateAddressFlag', 'FromAccount', 'FromAccountNum', 'FromAccountT','PN', 'PriorCity', 'PriorCountry', 'PriorState', 'PriorStreetAddress','PriorStreetAddress2', 'PriorZip', 'RTID', 'State', 'Street1','Street2', 'Timestamp', 'ToAccount', 'ToAccountNum', 'ToAccountT', 'TransferAmount', 'TransferMade', 'TransferTimestamp', 'Ttype', 'WA','WC', 'Zip'

将空数据框的 header 附加到与该行一致的位置(如果它们是新的)。

 'A', 'AT','AccountNum', 'AcctType', 'Amount', 'B', 'C', 'City', 'Comment', 'Country', 'D', 'DuplicateAddressFlag', 'E', 'F' 'FromAccount', 'FromAccountNum', 'FromAccountT', 'G', 'PN', 'PriorCity', 'PriorCountry', 'PriorState', 'PriorStreetAddress','PriorStreetAddress2', 'PriorZip', 'RTID', 'State', 'Street1','Street2', 'Timestamp', 'ToAccount', 'ToAccountNum', 'ToAccountT', 'TransferAmount', 'TransferMade', 'TransferTimestamp', 'Ttype', 'WA','WC', 'Zip'

我欢迎有关执行此操作的最佳方法的反馈。

正如下面的答案所详述的，这是一个相当出乎意料的结果:

很遗憾，由于该 Material 的敏感性，我无法分享实际数据。导致要点中呈现的内容如下:

A= data[data['RRT'] == 'A'] #Select just the columns with  from the dataframe "data"
B= data[data['RRT'] == 'B']
C= data[data['RRT'] == 'C']
D= data[data['RRT'] == 'D']

对于每个新数据框，我然后应用此逻辑:

for column_name, column in A.transpose().iterrows():
    AColumns= A[['ANum','RTID', 'Description','Type','Status', 'AD', 'CD', 'OD', 'RCD']]  #get select columns indexed with dataframe, "A"

当我在空数据框 A 上执行绑定(bind)方法时:

AColumns.count

这是输出:

<bound method DataFrame.count of Empty DataFrame
Columns: [ANum,RTID, Description,Type,Status, AD, CD, OD, RCD]
Index: []>

最后，我导入了包含以下内容的 CSV:

data=pd.read_csv('Merged_Success2.csv', dtype=str, error_bad_lines = False, iterator=True,  chunksize=1000)
data=pd.concat([chunk for chunk in data], ignore_index=True)

我不确定我还能提供什么。串联方法适用于满足要求所需的所有其他数据帧。我还查看了 Pandas internals.py 和完整的跟踪。要么我有太多带有 NaN 的列、重复的列名或混合的数据类型(后者是最不可能的罪魁祸首)。

再次感谢您的指导。

最佳答案

在我们的一个项目中，我们遇到了同样的错误。经过调试我们发现了问题。我们的一个数据框有两列同名。重命名其中一列后，我们的问题就解决了。

关于python - AssertionError : invalid dtype determination in get_concat_dtype when concatenating operation on list of Dataframes的解决方法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32488417/

27

4

0

文章推荐： python - 在 Python 中从日期中减去 n 天

文章推荐： c# - 获取被点击按钮的文本值

文章推荐： c# - 如何清空 IEnumerable 列表？

文章推荐： C#以更少的内存消耗从服务器下载大文件

安卓 : Chess question click a button to determine piece and then a 2nd button to determine move destination
我很难找到正确的搜索语法:) 作为作业的一部分，我正在为 Android 开发一个国际象棋游戏。我想使用按钮。我画了棋盘，可以选择一个按钮(即我要移动的棋子)。我可以点击一 block (按钮)
java - Java运行时基类的Runtime determination
我有两个类，一个依赖于硬件，一个不依赖于硬件(我们分别称它们为 HardwareDependent 和 HardwareIndependent)。硬件相关类扩展了硬件独立类。现在我有另一个类，它至少必
hibernate - 映射异常 : Could not determine Type
在这里得到一个 Hibernate MappingException，我不知道为什么。这是我得到的错误: 2014/01/13 23:58:38 [] ERROR GrailsContextLoad
RODBC sqlSave 列类型 : how determined?
我想了解 RODBC 如何确定新创建的 (Access) 表的列类型？ sqlSave 的 R 文档非常神秘:“类型是通过咨询参数 varTypes 和 typeInfo 来选择的”。并且没有这个论点
jQuery : how to determine that a div is scrolled down
我有一个具有定义高度的 div，并且 overflow:scroll; 。它的内容太长，因此出现滚动条。现在是发痒的部分。它的一些内部 HTML 总是奇怪地出现(准确地说，是 tableFilter
SQL代理作业: Determine how long it has been running
场景某些 SQL 代理作业计划全天每隔几分钟运行一次。在某些情况下，它会错过下一个计划，因为它仍在按照上一个计划运行。每隔一段时间，作业可能会“挂起”。这不会产生失败(因为作业尚未停止)。发生这
java - 资源加载: How to determine if it's a directory
目前我使用这个解决方案来加载资源: URL url = MyClass.class.getClassLoader().getResource("documents/"+path); if(url ==
java - 双向映射错误: Could not determine type
我正在尝试使用nRoomAllocationId在房间传输和房间部门映射类上实现多对一和一对多双向映射。房间转移类 @Entity @Table(name="roomtransfer") publi
Java打印: Determine the page that is printing
我有一个来自类的 print 方法: public void print(EditorPanePrinter epp) { try { PrinterJob pj=Printe
C程序: determine which directory a file is in
确定文件所在目录的好方法是什么？我会使用 realpath()，但这会返回符号链接(symbolic link)指向的文件或目录的绝对路径。例如，如果参数是文件的基名，并且 lstat() 返回 0
Java继承问题: Determining appropriate subclass
我有一个名为 account 的抽象类，如下所示 - abstract class Account { private int number; private String owner
python - Firebird嵌入式安装问题: library could not be determined
我一直在编写一个打开 Firebird 数据库的小型 Python 应用程序。为了实现此目标，我使用嵌入的 Firebird 2.5.7.27050，64 位。尽管如此，无论何时我尝试使用 Pyt
算法问题 : determining "user sessions"
我有一个非常有趣的(至少对我而言)问题要解决(而且，不，这不是家庭作业)。它等同于:您需要确定用户在他的计算机前进行的“ session ”和“ session 开始和结束时间”。您将获得进行任何用
ios - 识别本地通知设置的 "Not Determined"案例
从 iOS8 开始，您需要注册并提示用户使用本地通知。因此，我想实现一种方法来仔细检查这些权限。如何检查本地通知设置是否未确定/未设置？到目前为止，我只知道如何检查本地通知是否被granted 或d
android - "Account determined from"在日志中的含义
在我的应用程序中，我使用 Google In-app Billing Version 3 API 实现应用内购买。在我的应用程序的日志中，我看到: D/Finsky (26024): [1204]
安卓小部件 :how to determine which button was clicked?
我的小部件有几个 ImageButtons，为它们设置 onClicked 事件，我使用 PendingIntent: Intent intent = new Intent(context, Upda
xcode9 "The current branch could not be determined"
推送到 github 工作正常。我认为当我从 github checkout 一个分支时，这个问题就开始了。我该如何解决？当我现在尝试推送到 github 时，出现错误“无法确定当前分支。” 此外，我
mysql - 表数据导入向导 'Could not determine delimiter'
我正在尝试使用表数据导入向导工具将一个 csv 文件导入到我的数据库中，导入到只有一个属性(它的 ID VARCHAR(10))的表中，导入失败并向我显示此错误:error我检查了 csv 文件以查找
R help : determine interval, 分箱一个数字
我正在尝试将一些随机生成的数字“合并”在我之前拥有的值向量中的相邻值之间定义的间隔之间。所以基本上，我有以下几点: vectorA包含从 101 到 0 的 101 个值。我生成一个名为 x 的随机
Rscript 和包 : How and when to determine what packages are loaded?
我要执行一个脚本file.R使用 Rscript .在 file.R ，我使用包dplyr . # file.R df outputFile.Rout 2>&1 但是，如果我添加 default-p

首页

博学

6Ren·AI

商城

python - AssertionError : invalid dtype determination in get_concat_dtype when concatenating operation on list of Dataframes的解决方法