gpt4 book ai didi

python - 如何将 dask 数据帧的所有部分合并在一起

转载 作者:行者123 更新时间:2023-12-01 09:24:26 26 4
gpt4 key购买 nike

我有一个包含 28M 行的销售数据帧,还有一些其他数据帧以及一个 Product 数据帧示例。

当我第一次将 pandas 数据帧转换为 Dask 数据帧时:

  sales_dd = dd.from_pandas(Sales, npartitions=3) #28M rows
product_dd = dd.from_pandas(Product, npartitions=3) #600 rows

转换 Dask Dataframe 后,我可以使用以下命令查看我的数据:

  sales_dd.tail()

Date ProductNo Total_Sales
28499962 20160730 537 3.0
28499963 20170528 561 12.0
28499964 20160628 534 10.0
28499965 20170112 544 160.0
28499966 20170907 574 0.0

在我尝试像这样合并这两个 dask DataFrame 之后:

productsales = dd.merge(sales_dd, product_dd, on='ProductNo', how='left')

然后当我检查最后一个 DataFrame 时;

productsales.tail()



Date ProductNo Total_Sales x y z ....
9440495 20171202 579 5.0 . . .
9440496 20171017 581 2.0 . . .
9440497 20160906 519 9.0
9440498 20160628 544 10.0 . . .
9440499 20170907 574 0.0 . . .

我们可以看到productsales表只有90万行。

我的问题是如何将所有 DataFrame 合并在一起?我不需要做任何部分吗?最快的方法是什么?

提前致谢

最佳答案

左边的数字索引不一定给出行数,它是数据帧的索引值,除了简单的递增索引之外,它还可以保存其他值。

相反,我建议计算数据帧的长度

>>> len(df)

关于python - 如何将 dask 数据帧的所有部分合并在一起,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50548818/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com