- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试在多台机器上分发一个大型 Dask 数据帧,以便(稍后)在数据帧上进行分布式计算。我为此使用了 dask-distributed。
我看到的所有 dask 分布式示例/文档都是从网络资源(hdfs、s3 等)填充初始数据负载,并且似乎没有将 DAG 优化扩展到负载部分(似乎假设网络负载是必要的邪恶,只是吃掉初始成本。)这在另一个问题的答案中得到了强调:Does Dask communicate with HDFS to optimize for data locality?
但是,我可以看到我们想要这个的情况。例如,如果我们在这个数据库的节点上有一个分片数据库 + dask 工作人员,我们希望只将本地分片中的记录填充到本地 dask 工作人员中。从文档/示例来看,网络交叉似乎是一个必然的假设成本。 是否可以强制从特定工作人员获取单个数据帧的部分内容?
我尝试过的另一种方法是尝试强制每个工作人员运行一个函数(迭代提交给每个工作人员),其中该函数仅加载该机器/分片的本地数据。这有效,并且我有一堆具有相同列模式的最佳本地数据帧 - 但是 - 现在我没有单个数据帧而是 n 个数据帧。 是否可以跨多台机器合并/融合数据帧,以便有一个单一的数据帧引用,但部分与特定机器具有关联性(在合理范围内,由任务 DAG 决定)?
最佳答案
您可以生成 dask “集合”,例如来自 future 和延迟对象的数据帧,它们之间可以很好地互操作。
对于每个分区,您知道哪台机器应该加载它,您可以按如下方式生成一个 future :
f = c.submit(make_part_function, args, workers={'my.worker.ip'})
c
是 dask 客户端,地址是您希望看到它发生的机器。您也可以给
allow_other_workers=True
这是一种偏好而不是要求。
df = dd.from_delayed([dask.delayed(f) for f in futures])
meta=
,给出预期数据帧的描述。现在,对给定分区的进一步操作将更喜欢在已经保存数据的同一工作人员上安排。
关于dask - 在 Dask 数据帧子集上强制局部性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56174285/
我在 Mac OsX 10.11 上使用 Xcode 7.0.1 (7A1001) 我使用 carthage 0.9.2 通过以下购物车文件下载reactivecocoa github“Reactiv
我正在将一个对象从属性“模型”(我从 Laravel 中的 Blade 属性模型中获得)分配给数据属性模型。后来数据属性模型发生变化,因为它绑定(bind)到表单输入字段。但 Prop “模型”也发生
当我更新数组内对象的属性然后作为组件的 Prop 传递时,在 svelte 中触发 react 性的正确方法是什么? let items = [{ id: 1, name: 'first'
我是 DRY principle 的坚定拥护者: Every piece of knowledge must have a single, unambiguous, authoritative rep
我正在实现一个需要以下功能的线程: 及时响应终止请求 推送消息 在等待消息时保持对 SendMessage 请求的响应 我对消息泵的初始实现使用了 GetMessage,如下所示: while not
在我的应用程序中,用户获得了一份已到达她的文档列表,并且可以对每个文档执行操作。 文件是分批提交的,当这种情况发生时,列表会增加。这一切都很好,这是预期的行为,但最好有一个按钮“暂停实时数据”,它会忽
我有一个属性为 的数据对象 displaySubtotal 我可以通过以下方式更新该属性的值: data.displaySubtotal = numPad.valueAsAString(); 我的方法
我需要一个垂直 slider 输入。由于内置的 sliderInput 函数无法做到这一点,因此我选择自己实现。根据this thread可以 (I) 使用 CSS 旋转 sliderInput
我正在从自定义用户权限管理系统迁移到 Alanning:roles v2.0 .我有一个非常基本的结构: 基本用户 用户组,每个用户组都有特定的设置。我将它们存储在一个“组”集合中。 管理群组的用户的
Shiny 中的响应式(Reactive)表达式将更改传播到需要去的地方。我们可以使用 isolate 来抑制一些这种行为。 ,但是我们可以抑制基于我们自己的逻辑表达式传播的更改吗? 我给出的例子是一
是否有(或可能有) react 性 Parsec (或任何其他纯函数式解析器)在 Haskell 中? 简而言之,我想逐个字符地为解析器提供数据,并获得与我提供的足够多的结果一样多的结果。 或者更简单
HTML(JADE) p#result Lorem ipsum is javascript j s lo 1 2 4 this meteor thismeteor. meteor input.sear
我有一个被导入函数更改的对象。 https://svelte.dev/repl/e934087af1dc4a25a1ee52cf3fd3bbea?version=3.12.1 我想知道如何使我的更改反
我有一个YUV 420半平面格式的图像,其中字节以这种方式存储: [Y1 Y2 ... [U1 V1.... Yk Yk+1...] Uk' Uk'+1] 其中Y平面的大小是UV平面的两倍,并
如何使用 ReactiveCocoa 订阅从 NSMutableDictionary 添加和删除的对象?另外,我想在它发生变化时广播通知。我的猜测是可以使用 RACMulticastConnectio
我正在构建一个带有多个选项卡的应用程序,其中一些选项卡涉及过多的计算,而另一些选项卡的计算速度很快。一个允许用户在 react 性或手动更新之间进行选择的复选框,与“刷新”按钮结合使用,将是理想的选择
我知道您可以在获取集合时使用 reactive: false 关闭 react 性。如何在内容可编辑区域内的集合字段中实现相同的效果?示例: Template.documentPage.events(
我想在 z3 中表示一个哈希函数,比如 SHA(x)。在做了一些研究之后,似乎 z3 不能很好地支持注入(inject)性,所以我不能有像这样的约束(虽然我意识到这并不是严格意义上的碰撞,但作为一种启
我正在解决一个问题,我想在仪表板中将数据显示为图表(通过 perak:c3 )和表格(通过 aslagle:reactive-table )。我的问题是数据是从 MongoDB 中的集合中提取的,它的
我的 ViewModel 中有这个函数,它返回一个信号,但内部 block 不起作用,我尝试添加断点,但它没有中断。这是我的代码。 func executeLoginAPI() -> RACSigna
我是一名优秀的程序员,十分优秀!