python - df.duplicated() 误报？-6ren

python - df.duplicated() 误报？

转载作者：太空宇宙更新时间：2023-11-04 01:26:40

28

4

我有一个包含 2,865,044 个条目和 3 级 MultiIndex 的数据框

MultiIndex.levels.names = ['year', 'country', 'productcode']

我正在尝试 reshape 数据框以生成宽数据框，但出现错误:

ReshapeError: Index contains duplicate entries, cannot reshape

我用过:

data[data.duplicated()]

识别导致错误的行，但它列出的数据似乎不包含任何重复项。

这导致我使用 to_csv() 导出我的数据框并在 Stata 中打开数据并使用 duplicates list 命令查找数据集不包含重复项(根据 stata)。

来自已排序的 csv 文件的示例:

year country productcode duplicate
1962    MYS     711       FALSE
1962    MYS     712       TRUE
1962    MYS     721       FALSE

我知道这是不可能的，但我想知道是什么原因造成的吗？每个索引列中的数据类型为['year': int; “国家”:海峡，“产品代码”:海峡]。 Pandas 如何定义独特的群体？列出有问题的索引行有更好的方法吗？

更新:我试过重置索引

temp = data.reset_index()
dup = temp[temp.duplicated(cols=['year', 'country', 'productcode'])]

我得到了一个完全不同的列表!

year    country productcode
1994      HKG      9710
1994      USA      9710
1995      HKG      9710
1995      USA      9710

更新 2 [28JUNE2013]:

在我的 IPython session 期间，这似乎是一个奇怪的内存问题。今天早上的新实例似乎工作正常并 reshape 了数据，而无需对昨天的代码进行任何调整!如果问题再次出现，我会进一步调试并通知您。有人知道 IPython session 的良好调试器吗？

最佳答案

也许试试

cleaned = df.reset_index().drop_duplicates(df.index.names)
cleaned.set_index(df.index.names, inplace=True)

我认为索引中应该有一个duplicated方法，现在还没有

https://github.com/pydata/pandas/issues/4060

关于python - df.duplicated() 误报？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17339363/

28

4

0

文章推荐： jquery - 多级下拉 Bootstrap

文章推荐： python - .gdbinit 文件是什么意思？

sonarqube + lombok = 误报
import lombok.Data; @Data public class Filter { private Operator operator; private Object va
Javascript IF( Sonar 误报？)
我刚刚在 SonarQube 中发现了一个误导性问题，我们的代码如下(JS) {…} function test(searchQuery, role) { console.log("inputs: "
javascript:S2583 误报
我想我发现了误报: const items = document.querySelectorAll(selectors); for (const item of items) { if(item)
c++ - 在自定义异常中仍然可以访问(误报？)
这是我第一次尝试编写实现简单形式的堆栈跟踪的自定义异常类。这是.h: class error { public: error (); error (const
Java SAXParser 误报
我正在尝试构建我的第一个 XML 模式 validator 作为我的代码库和许多项目中的可重用组件。我花了一整天的时间尝试遵循示例并对其进行编码，现在已经启动并运行了概念验证。唯一的问题是，它给了我
MySQL "like"(误报)
我的数据库中有一个表，其中有一个名为“tags”的字段，例如iOS、Android、Java、JavaScript 等。我想选择此表中的所有项目，这些项目与某些标签相匹配，例如 id | name |
c# - CodeContracts - 误报
我刚刚开始在一个现有的中型项目中试验 .NET 4 中的 CodeContracts，令我惊讶的是静态检查器向我发出有关以下代码片段的编译时警告: public class Foo { priv
c - 什么样的非致命代码通常会触发防病毒软件？ (误报)
我不知道为什么，但我以前没有问题，现在突然之间，我很久以前写的这个非常古老、可怕的新手程序触发了 Malwarebytes... :( 这个问题不是重复的，因为有问题的程序是在 (ANSI) C 而不
Ubuntu 升级后 Git 误报
在 Ubuntu 9.10 下启动了一个 Git 存储库。终于升级到10.04。当前的 Git 是 1.7.0.4。现在，当我编辑升级前最后更改的文件(使用 gedit)然后提交时，提交中充满了误报
mod-security - mod_security 误报
在设置 mod_security 后，我收到了很多误报 [??]。我只是在检测中运行它，所以还没有问题，但是一旦我需要它上线，这些过滤器就会开始阻止请求。恐怕我不能 100% 理解这些过滤器的重要性
optimization - 优化如何使 valgrind 误报？
引用 Valgrind 教程: Optimized code can cause valgrind to wrongly report uninitialized value errors. The
sonarqube - 如何防止分支之间的 Sonar 误报？
Sonar 是否有可能在分支之间传输“误报”？这是我们的工作流程:我们在分支 1 中进行开发，我们对此分支进行 Sonar 检查，当分支 1 发布时，我们将其合并到主干中，然后我们从主干创建分支 2
c++ - Clang 分析器潜在的内存泄漏 - 误报
我的代码库中有一个静态函数的实现，并且在运行 clang-tidy 时在它上面，我注意到当我很确定代码正确时，静态分析器指向可能的内存泄漏。 (我已经用 sanitizer 验证过)。我认为这很可能是
c - 静态分析“指向本地外部范围的指针”——误报？
Coverity 标记了一个我无法理解的问题。我有一个初始化器: 1686 arrayOfNodeIds componentRefs = (arrayOfNodeIds) { 1687 .s
javascript - React.isValidElement 误报
react.js 发生了一些奇怪的事情 Top-Level API . 这是我的mocha 测试的摘录: it.only('should identify a ReactElement', funct
ios - 可达性 + UIAlertView + 误报
大家好，我在使用 Apple 的可达性代码时遇到了一些问题。我发现，即使设备正确连接到互联网，最初可达性代码也会发出 1 个错误通知(Networkstatus = NotReachable)，然后是
c++ - 为什么这是内存复制错误 - Insure++ 误报？
我一直在尝试运行 Insure++使用一些科学代码并报告许多错误，尽管公平地说它正式不支持 K&R C，而且我不知道大量 K&R 函数对其评估过程有何影响。它正在测试的 C 和 C++ 代码正在从 W
c++ - 如何避免文件扩展名超过三个字符的 CFileFind 误报？
当我尝试调用 CFileFind.FindFile(_T("D://Folder//*.txt")) 时，当唯一的文件是“foobar.txta”时，该方法返回 true . 但是，我不希望文件 fo
python - Pylint E1103 误报？
在我之前的问题 ( "Pylint E0202 False Positive?" ) 之后，这里是另一个问题(我想很具体) 我们正在使用模块子流程来执行子流程。创建示例代码会产生以下结果: "Exa
python - df.duplicated() 误报？
我有一个包含 2,865,044 个条目和 3 级 MultiIndex 的数据框 MultiIndex.levels.names = ['year', 'country', 'productcode

首页

博学

6Ren·AI

商城

python - df.duplicated() 误报？