- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个应用于 pandas 数据框的函数,我正在考虑使用 dask 来提高性能
这是我现有的代码:
df.reset_index(
level=0,
inplace=True,
)
df = df.sort_index().groupby(
['col1', 'col2', 'col3'],
as_index=False).apply(
myfunction
)
我正在尝试将其转换为 dask 语法并设法达到:
from dask import dataframe as dd
from multiprocessing import cpu_count
nCores = cpu_count()
df = dd.from_pandas(
df,
npartitions=nCores
).reset_index().set_index().groupby(
['col1', 'col2', 'col3']
).apply(
myfunction
).compute()
看来您只能将列传递给 set_index
并且 dask 中没有与 sort_index()
等效的函数。如何用 dask 语法编写此 pandas 代码?
最佳答案
对于任何对类似解决方案感兴趣的人,这里有一个可用的 dask 语法代码版本,请注意,我在将索引传递给 dask 之前对索引进行了排序。
from dask import dataframe as dd
from multiprocessing import cpu_count
nCores = cpu_count()
df.sort_index(inplace=True)
df = dd.from_pandas(
df,
npartitions=nCores
).map_partitions(
lambda df : df.groupby(
['col1', 'col2', 'col3']
).apply(
my_function
)
).compute()
重要的是,dask 版本并不比 pandas 方法更快;但非常接近。在这种情况下,my_function
被矢量化,并主要使用 numpy 数组应用于每个 groupby 对象。
关于python - 如何在 Dask 中进行 sort_index、groupby 和应用函数?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53754444/
我使用 spark SQLContext 将 JSON 文件加载到数据框中。它存储来自不同用户的推文。它看起来像下面。我在 python 中使用 pandas 库来探索此数据框中的数据。 import
在对 Series 的索引进行排序时,我不明白 key 函数是如何工作的。例如我有这样的系列: (0, 4) k (12, 16) a (24, 28) b (4, 8) f
这是一个 MWE: import pandas as pd pd.np.random.seed(0) ( pd.DataFrame(pd.np.random.rand(10, 5), colu
我有一个带有 datetimeIndex 的数据框: 但是当我尝试使用 sort_index() 对此数据帧进行排序时,所有日期时间列(包括索引)的时间部分都被删除。为什么?我该如何预防? 这是要排序
documentation对于 DataFrame.sort_index 是: DataFrame.sort_index(self, axis=0, level=None, ascending=Tru
我正在尝试使用 Armadillo C++ 库中的 sort_index() 函数 (link here) . 这是我的代码: #include #include using namespace
这是我的数据帧的头部 McDonald's Python CSS Microsoft Office day week day Jour
我有两个数据帧 df1 df2 具有相同的行数和列数以及变量,我正在尝试比较 boolean 变量 choice 在两个数据框中。然后使用if/else 来操作数据。但是当我尝试比较 boolean
Python Pandas 提供了两种对 DataFrame 进行排序的方法: sort_values (或已弃用 sort ) sort_index 这两种方法有什么区别? 最佳答案 由于问题已更新
我不明白为什么在下面的代码中取消注释 ts = ts.sort_index() 会抛出 ErrorKey: import datetime import pandas as pd df = pd.Da
我有一个应用于 pandas 数据框的函数,我正在考虑使用 dask 来提高性能 这是我现有的代码: df.reset_index( level=0, inplace=
基本设置: 我有一个在行和列上都有一个 MultiIndex 的 DataFrame 。列索引的第二级具有 float 值。 我想执行groupby操作(按行索引的第一级分组)。该操作将向每个组添加几
我有一个像这样填充的示例 DataFrame: Alpha Beta Gamma Delta Epsilon Date 2017-01-02
给定这段代码: s = pd.Series([1,2,3], index=['C','B','A']) s.sort_index(inplace=True) s 现在不应该是这样的吗: A 3
我是一名优秀的程序员,十分优秀!