gpt4 book ai didi

python - 具有无序索引的 dask 数据帧会导致静默错误吗?

转载 作者:行者123 更新时间:2023-11-28 17:21:41 27 4
gpt4 key购买 nike

围绕 dask.DataFrame 的方法似乎都可以确保索引列已排序。但是,通过使用 from_delayed,可以构造一个具有未排序索引列的 dask 数据帧:

pdf1 = delayed(pd.DataFrame(dict(A=[1,2,3], B = [1,1,1])).set_index('A'))
pdf2 = delayed(pd.DataFrame(dict(A=[1,2,3], B = [1,1,1])).set_index('A'))
ddf = dd.from_delayed([pdf1,pdf2]) #dask.DataFrame with unordered index

组合 [索引已设置,索引未排序,分区未知] 是我在 dask 自己创建的数据框中从未见过的东西。所以我的问题是:

  • dask 是否经过测试可以很好地处理这样的数据框?
  • 甚至可能是对此类数据帧的计算默默地给出了错误的结果,例如因为他们假定索引已排序或在不完整的数据子集上执行?
  • 或更笼统:如果索引列未排序,它只会减慢索引访问速度还是会破坏功能?

最佳答案

许多 dask.dataframe 操作将拒绝操作或将在没有已知划分的数据帧上使用较慢的算法进行操作。参见 http://dask.pydata.org/en/latest/dataframe-design.html#partitions

例如,如果 dask.dataframe 知道索引已排序并且知道每个分区的最小值/最大值,则 df.loc 会很快。但是,如果此信息未知,则 df.loc 必须详尽地查看所有分区。

一般来说 dask.dataframe 知道你提出的可能性,应该采取相应的行动。有些操作会比较慢。部分操作会拒绝操作。

关于python - 具有无序索引的 dask 数据帧会导致静默错误吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41268080/

27 4 0
文章推荐: javascript - 为页面上的所有 iPad 或 iPhone 实例强制使用小写 i
文章推荐: python - 同时删除多个列表范围?
文章推荐: python thrift union类型不能序列化?
文章推荐: html - 需要制作3列3行的
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com