- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我对如何从 dask 中获得最佳效果感到困惑。
问题
我有一个包含多个时间序列的数据帧(每个都有自己的 key
),我需要运行一个函数 my_fun
在他们每个人上。用 Pandas 解决它的一种方法包括df = list(df.groupby("key"))
然后申请 my_fun
多处理。尽管 RAM 使用量很大,但性能在我的机器上非常好,而在谷歌云计算上却很糟糕。
在 Dask 我目前的工作流程是:
import dask.dataframe as dd
from dask.multiprocessing import get
df.known_divisions
是
False
df.npartitions
作为 ncpu
的倍数或者没关系? 最佳答案
对于Dask中的“什么需要时间”等问题,一般建议您使用"distributed" scheduler而不是多处理 - 您可以运行任意数量的进程/线程,但您可以通过诊断仪表板获得更多信息。
对于您的特定问题,如果您对一个没有很好地在分区之间拆分的列进行分组并应用除简单聚合之外的任何内容,您将不可避免地需要洗牌。设置索引会作为显式步骤为您执行此洗牌,或者您会在任务图中得到明显的隐式洗牌。这是一个多对多的操作,每个聚合任务都需要来自每个原始分区的输入,因此是瓶颈。没有办法解决这个问题。
至于分区数量,是的,您可以有次优条件,例如 8 个内核上的 9 个分区(您将计算 8 个任务,然后可能会在一个内核上阻塞最终任务,而其他内核则处于空闲状态);但总的来说,只要您不使用非常少量的分区,您就可以依靠 dask 来做出合理的调度决策。在许多情况下,这无关紧要。
关于Dask 表演 : workflow doubts,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47640466/
在给定的代码片段中,我预计会出现错误符号记录未找到。但它在 Visual Studio 2010 编译器上编译并运行良好。我以以下方式从 Visual Studio 2010 命令提示符将其作为 C
我有这个代码: namespace ClassLibrary1 { public class Testing_Class { public string A()
我对如何从 dask 中获得最佳效果感到困惑。 问题 我有一个包含多个时间序列的数据帧(每个都有自己的 key ),我需要运行一个函数 my_fun在他们每个人上。用 Pandas 解决它的一种方法包
考虑枚举: enum day{ MONDAY, TUESDAY}; 什么是星期一、星期二。 sun 文档说它们是特殊类类型枚举中的字段。但是,如果是这样的话,为什么我们可以这样做: day d=day
我有几个问题: 在example在 openCV 文档中给出: /* 生成测量值 */cvMatMulAdd( kalman->measurement_matrix, state, measureme
我正在学习 Mockito,我很难理解一些事情。假设我想测试一个 Doa 方法,该方法获取对象列表并通过遍历列表将其保存在数据库中。如何使用 Mockito 对其进行测试。下面是代码示例。 impor
关闭。这个问题需要多问focused 。目前不接受答案。 想要改进此问题吗?更新问题,使其仅关注一个问题 editing this post . 已关闭 9 年前。 Improve this ques
我的 Hibernate.xml 我的 Controller @RequestMapping("/") public String index() { Category
我创建了一个原始套接字,它从数据链路层获取所有 IPv4 数据包(删除了数据链路层 header )。为了读取数据包,我使用 recvfrom . 我的疑问是: 假设由于操作系统完成了一些调度,我的进
我是一名优秀的程序员,十分优秀!