- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个名为 work3 的数据集,我正在尝试根据“clean_name”列删除重复行。以下是有关work3的信息:
work3.info()
输出:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 3295520 entries, 0 to 3330947
Data columns (total 4 columns):
id int64
name object
address object
clean_name object
dtypes: int64(1), object(3)
memory usage: 276.7+ MB
当我尝试 drop_duplicates 时,它给我带来了一个 ValueError:
work3.drop_duplicates(['clean_name'])
输出:
ValueError: Wrong number of items passed 2117463, placement implies 3295520
现在,如果我尝试对其进行采样,但使 frac = 1,以获取整个数据集,然后检查信息:
test = work3.sample(frac=1)
test.info()
输出:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 3295520 entries, 419298 to 978722
Data columns (total 4 columns):
id int64
name object
address object
clean_name object
dtypes: int64(1), object(3)
memory usage: 125.7+ MB
..内存使用量大约是一半! 125.7+ MB 而不是 276.7+ MB。更重要的是,当我对其执行 drop_duplicates 函数时:
test.drop_duplicates(['clean_name'))
它给了我我想要的东西,没有任何错误!我在这里遗漏了什么吗?
2117463 rows × 4 columns
总而言之,这是我的问题:
为什么内存使用量减少了一半,即使是完全相同的数据集?
为什么示例 test.drop_duplicates() 工作时没有错误,但原始数据集 work 3 却给出 ValueError?
最佳答案
您可能有重复的索引。使用 .sample
时不会引发此错误,因为您的数据帧会重新索引。首先重新索引:
work3.reset_index(drop=True).drop_duplicates(['clean_name'])
关于python - dataset.drop_duplicates() 给出 ValueError : Wrong number of items passed, 但 Sample(frac=1) 没有,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46730457/
这里我试图在 FlatList 中显示一个名为“posts”的数组。 render() { console.log(this.props.posts); return (
这是我的代码: {{day(list)}} {{list.weather[0].description}}
我是 Mahout 的新手,并且仍在使用它。 我的问题是,将 Item-Item 和 User-Item 结合起来是否合适? 我的用例是,一个社交网络应用会尝试根据用户历史数据(优先级较高)为当前用户
下午好, 我按数据库搜索以测试特定类测试,当我放置一个新项目时,如果列表包含该项目。 @Test public void insertAndDeleteTask() throws Interrupte
我有一个关于 ionic 框架的问题,我希望有人能帮助我...我有一个带有“ion-item-right”的 ionic 列表。这一切都可以,按钮在右边。现在我需要其他三个居中的图标,这样我就有了:文
我经常遇到类似下面的代码: if ( items != null) { foreach(T item in items) { //... } } 基本上,if 条件确
我最近问了a question about LocalStorage .使用 JSON.parse(localStorage.item) 和 JSON.parse(localStorage['item
我最近问了a question about LocalStorage .使用 JSON.parse(localStorage.item) 和 JSON.parse(localStorage['item
这个问题已经有答案了: Type mismatch: cannot convert from Item to Item (1 个回答) 已关闭 7 年前。 我很困惑。我无法将外部类的实例变量 Node
我目前正在使用 MUI Grid(但我对替代解决方案持开放态度)并且我想要并排放置两个组件:最右边的组件占 400px宽度和左侧组件占据其余部分。 || || || 当页面宽度缩小时: | | ||
我最近问过a question about LocalStorage 。使用 JSON.parse(localStorage.item) 和 JSON.parse(localStorage['item
public class Document extends Model { ... @ManyToMany public Set accessors; ... } 我想选择访问者包含某个用户的所有文档
我正在使用 selenium webdriver 为单页 Web 应用程序开发一个 Java 框架,使用以下模式:PageObject、SlowLoadableComponent(责任链)、PageF
最近在学习C,在网上发现了一个问题。问题是: What is the problem with this function in terms of memory allocation? What is
我有这个代码 ( -1 ? true : false} /> {genre.item.name}
在ASP.Net中使用DataGrid时真的没有快捷方法吗 (e.Item.ItemType==ListItemType.Item || e.Item.ItemType==ListItemType.A
我正在使用工作流程根据数据和一组要求将大量 pdf 从一个位置复制到其他大坝位置。我正在使用以下代码 Assets damAsset = manager.createAsset(path, is, m
我是 PowerShell 的新手。 我正在尝试自动将 dll 组件从源服务器上的文件夹部署到目标服务器上的多个文件夹。这看起来应该很简单:将组件从源服务器上的源(部署)文件夹复制到目标服务器上的文件
我的代码: for column_name, column_data in summary_words.iteritems(): if column_name != "summary" and
我的代码: for column_name, column_data in summary_words.iteritems(): if column_name != "summary" and
我是一名优秀的程序员,十分优秀!