- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
在下面的代码片段中,我希望日志打印数字 0 - 4。我知道数字可能不是这个顺序,因为任务会被分解成许多并行操作。
代码片段:
from dask import dataframe as dd
import numpy as np
import pandas as pd
df = pd.DataFrame({'A': np.arange(5),
'B': np.arange(5),
'C': np.arange(5)})
ddf = dd.from_pandas(df, npartitions=1)
def aggregate(x):
print('B val received: ' + str(x.B))
return x
ddf.apply(aggregate, axis=1).compute()
但是当上面的代码运行时,我看到的是:
B val received: 1
B val received: 1
B val received: 1
B val received: 0
B val received: 0
B val received: 1
B val received: 2
B val received: 3
B val received: 4
我看到的不是 0 - 4,而是首先打印的一系列 1,然后是额外的 0。我注意到每次设置 Dask DataFrame 并运行 时都会出现值为 1 的“额外”行对其应用
操作。
打印 dataframe 在整个过程中没有显示值为 1 的其他行:
A B C
0 0 0 0
1 1 1 1
2 2 2 2
3 3 3 3
4 4 4 4
我的问题是:这些值为 1 的行来自哪里?为什么它们似乎始终出现在数据框中的“实际”行之前? 1 值似乎与实际行中的值无关(也就是说,它不像是出于某种原因额外抓取第二行几次)。
最佳答案
@Grr 的回答是正确的。 Dask.dataframe 不知道你的函数会产生什么,但仍然必须为你提供一个惰性的 dask.dataframe 并提供正确的类型、数据类型等,所以它会在一些数据上尝试你的函数。
您可以通过使用 meta=
关键字提供有关您的预期输出的元数据来避免这些检查(更多详细信息在 DataFrame.apply docstring 中)。如果您提供此信息,则 Dask.dataframe 将不需要尝试您的函数来确定类型。
在此处复制此部分:
meta : pd.DataFrame, pd.Series, dict, iterable, tuple, optional
一个空的 pd.DataFrame 或 pd.Series 匹配输出的数据类型和列名。这个元数据对于 dask dataframe 中的许多算法来说是必不可少的。为了便于使用,还提供了一些替代输入。可以提供 {name: dtype} 的字典或 (name, dtype) 的可迭代对象,而不是 DataFrame。可以使用 (name, dtype) 的元组代替系列。如果未提供,dask 将尝试推断元数据。这可能会导致意想不到的结果,因此建议提供元数据。有关详细信息,请参阅 dask.dataframe.utils.make_meta。
因此,如果您将示例输出创建为一个空数据框,那么您会没事的:
meta = pd.DataFrame({'A': [1], 'B': [2], 'C': [3]},
columns=['A', 'B', 'C'])
ddf.apply(aggregate, axis=1, meta=meta)
或者,在这种情况下,因为您的函数不会更改输入的列或数据类型,您可以只使用输入的元
ddf.apply(aggregate, axis=1, meta=ddf.meta)
关于python - 在 Dask DataFrame.apply() 上,在处理实际行之前接收 n 行值为 1,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43416809/
我有两个维度 DimFlag 和 DimPNL 以及一个事实表 FactAmount 。我正在寻找:当 pnl 是 stat(Is Stat=1) 时:sum (Actual x FlagId)对于
我想对包含其部分内容的文本字段执行简单搜索,但我不知道从哪里开始。我基本上想要人们对“包含搜索”的期望。如果我在 issue 中搜索 345 ,我会想要这个结果: 123456 234567 3456
我在 VBE 的 C# 插件中有这段代码(强调“VBE”:它不是 MS-Office 插件): public abstract class HostApplicationBase : IHostApp
我有一个 ImageView,它显示来自资源的图像。ImageView 的宽度是固定的 (60dp)。高度设置为 wrap_content。调整图像大小以适合此宽度(节省宽高比 - 这很完美) 问题是
我正在建立一个网站,但遇到了一个问题:谷歌浏览器开发者工具中的背景以较低/较高的分辨率延伸。当我直接从手机打开网站时,背景不适合屏幕,只是“剪切”了背景。 这是网站:https://feargames
好吧,首先,这是 HTML 模板: ... ... ... ... 如您所见,页面位于标题下方,并且通过 JS 代码可见
我读到了 BK-trees (Burkhard-Keller-Trees) 几个月前,据说这是一种保存您想通过距离度量再次读取的内容的好方法。因此,在每种情况下,您都希望通过相似性检索某些内容。 然而
在 python 中,很容易根据字符数用空格填充字符串。例如: print "aaa".ljust(10) + "end" print "www".ljust(10) + "end" 输出是: aaa
我的问题不是特定于编程语言的,而是更通用的问题,以了解人们的思维方式。 通常在大型开发公司中,每项工作都有特定的角色,例如程序员和架构师。因此架构师的观点是拥有完美的架构师和解决方案设计,另一方面程序
我想将数据传递给 then 方法,但是当我通过给它 this.passedResolve 来执行此操作时,它会得到 undefined function Promises(callback){
我希望使用 Erlang/Elixir 在金融市场创建一个平台即服务。我将在金融市场提供 AWS lambda 风格的函数,但我计划向客户分发我自己的基于 ARM 的硬件终端(基于 Nvidia Je
已结束。此问题正在寻求书籍、工具、软件库等的推荐。它不满足Stack Overflow guidelines 。目前不接受答案。 我们不允许提出寻求书籍、工具、软件库等推荐的问题。您可以编辑问题,以便
我已经看到很多代码,这些代码使用Runnable的循环时间来实现某些计时器/超时。问题是,如果有人决定更改此Runnable的循环时间,则计时器将不正确。 例: #define FOO_TIMER_1
当我将 WPF DataGrid 的 ColumnHeaderHeight 设置为 Auto (double.NaN) 时,如何获取列标题的实际呈现高度? 我似乎无法在 DataGrid 类中找到该属
目前最实用的png修复方法是什么?轻量级,支持背景重复和背景位置。 最佳答案 IE7.JS在我看来: IE7.js is a JavaScript library to make Microsoft
我已经进行了长时间的搜索并尝试了常见的嫌疑人,但现在是寻求帮助的时候了。 我的 Android Activity 非常愉快地从 SQLite 加载 EditText、Spinner 和 CheckBo
因此,我在 MySQL 全文中创建精确搜索时遇到了一些困难。 在我的数据库中,我正在尝试查找标题中包含特定关键字的职位。 所以我可以尝试 WHERE MATCH(jobTitle) AGAINST (
我正在尝试将 JavaScript 包含到一个表单应用程序中,该应用程序从现场收集施工数据。我已经用谷歌搜索了这个废话,但我无法弄清楚将 html 元素保存在数组中是否合法(或者我的语法是否正确)。
我知道有六种方法可以获取 session.save_path 指令的值(phpinfo()、session_save_path()等),但当值为空字符串时(默认情况下为空字符串),实际路径可以是多个位
我知道 npm 库在安装时可以在分层树中安装同一库的多个版本,如下所示: a@0.1.0 -> b@1.0 -> c@2.0 -> b@2.0 在上面,版本0.1.0的包a被拉入
我是一名优秀的程序员,十分优秀!