python - Dask agg函数 pickle 错误-6ren

python - Dask agg函数 pickle 错误

转载作者：行者123 更新时间：2023-12-01 15:55:57

25

4

我有以下 dask 数据框

@timestamp                        datetime64[ns]
@version                                  object
dst                                       object
dst_port                                  object
host                                      object
http_req_header_contentlength             object
http_req_header_host                      object
http_req_header_referer                   object
http_req_header_useragent                 object
http_req_method                           object
http_req_secondleveldomain                object
http_req_url                              object
http_req_version                          object
http_resp_code                            object
http_resp_header_contentlength            object
http_resp_header_contenttype              object
http_user                                 object
local_time                                object
path                                      object
src                                       object
src_port                                  object
tags                                      object
type                                       int64
dtype: object

我想通过操作得到一个分组

grouped_by_df = df.groupby(['http_user', 'src'])['@timestamp'].agg(['min', 'max']).reset_index()

运行 grouped_by_df.count().compute()` 时出现以下错误:

Traceback (most recent call last):
  File "/home/avlach/virtualenvs/dask/local/lib/python2.7/site-packages/IPython/core/interactiveshell.py", line 2881, in run_code
    exec(code_obj, self.user_global_ns, self.user_ns)
  File "<ipython-input-62-9acb48b4ac67>", line 1, in <module>
    user_host_map.count().compute()
  File "/home/avlach/virtualenvs/dask/local/lib/python2.7/site-packages/dask/base.py", line 98, in compute
    (result,) = compute(self, traverse=False, **kwargs)
  File "/home/avlach/virtualenvs/dask/local/lib/python2.7/site-packages/dask/base.py", line 205, in compute
    results = get(dsk, keys, **kwargs)
  File "/home/avlach/virtualenvs/dask/local/lib/python2.7/site-packages/distributed/client.py", line 1893, in get
    results = self.gather(packed)
  File "/home/avlach/virtualenvs/dask/local/lib/python2.7/site-packages/distributed/client.py", line 1355, in gather
direct=direct, local_worker=local_worker)
  File "/home/avlach/virtualenvs/dask/local/lib/python2.7/site-packages/distributed/client.py", line 531, in sync
    return sync(self.loop, func, *args, **kwargs)
  File "/home/avlach/virtualenvs/dask/local/lib/python2.7/site-packages/distributed/utils.py", line 234, in sync
    six.reraise(*error[0])
  File "/home/avlach/virtualenvs/dask/local/lib/python2.7/site-packages/distributed/utils.py", line 223, in f
    result[0] = yield make_coro()
  File "/home/avlach/virtualenvs/dask/local/lib/python2.7/site-packages/tornado/gen.py", line 1055, in run
    value = future.result()
  File "/home/avlach/virtualenvs/dask/local/lib/python2.7/site-packages/tornado/concurrent.py", line 238, in result
    raise_exc_info(self._exc_info)
  File "/home/avlach/virtualenvs/dask/local/lib/python2.7/site-packages/tornado/gen.py", line 1063, in run
    yielded = self.gen.throw(*exc_info)
  File "/home/avlach/virtualenvs/dask/local/lib/python2.7/site-packages/distributed/client.py", line 1235, in _gather
traceback)
  File "/home/avlach/virtualenvs/dask/local/lib/python2.7/site-packages/distributed/protocol/pickle.py", line 59, in loads
    return pickle.loads(x)
TypeError: itemgetter expected 1 arguments, got 0

我正在使用 dask 版本 0.15.1 和 LocalCLuster 客户端。是什么导致了这个问题？

最佳答案

我们刚刚遇到了类似的错误，我们正在运行以下形式的东西:

df[['col1','col2']].groupby('col1').agg("count")

并在最后得到类似的错误:

    return pickle.loads(x)
TypeError: itemgetter expected 1 arguments, got 0

但是当我们将 groupby 重新格式化为以下形式时:

df.groupby('col1')['col2'].count()

我们不再收到该错误。我们现在已经重复了几次，这似乎不仅仅是侥幸。完全不确定为什么会发生这种情况，但如果有人正在为同一问题而苦苦挣扎，则值得一试。

关于python - Dask agg函数 pickle 错误，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47219532/

25

4

0

文章推荐： sql - 用 Select 查询替换 While 循环

文章推荐： java - 部署网络服务

文章推荐： java - Midlet-浏览器交互

文章推荐： javascript - 尽管获得了 promise ，但未处理的 promise 拒绝

elasticsearch - “filter and aggs”和 “filter in aggs”有什么区别
我有两种方法来汇总数据。首先，我过滤mysql数据并进行汇总其次，i aggs将数据过滤为aggs。如下: 我发现了不同的结果，我不知道为什么。有人可以解释吗？最佳答案从Docs By d
python pandas, DF.groupby().agg(), agg() 中的列引用
在一个具体问题上，假设我有一个 DataFrame DF word tag count 0 a S 30 1 the S 20 2 a T
pandas groupby agg function column/dtype error(PANDA GROUPAS BY AGG Function列/dtype错误)
我正在使用Python进行数据分析，但我遇到了部分CH的问题。9(数据聚合和分组操作)部分，介绍“使用函数分组”。。具体地说，如果我使用GroupBy对象方法或Numpy定义的函数，一切都会正常工作。
python - df.groupby(...).agg(set) 与 df.groupby(...).agg(lambda x : set(x)) 相比产生不同的结果
接听this question原来 df.groupby(...).agg(set) 和 df.groupby(...).agg(lambda x: set(x)) 正在产生不同的结果。数据: df
python - 字符串系列的最大 agg
如何在这样的字符串列中执行最大值？ dataframe = pandas.DataFrame.from_dict( { "DEP
elasticsearch - “aggs”查询的输出结果不正确
我有一个查询，用于查询给定日期时间窗口(即2017-02-17T15:00:00.000和2017-02-17T16:00:00.000之间)中的条目数。执行此查询时，我得到的结果不正确(最好说结果是
elasticsearch aggs 返回错误的计数
我正在尝试进行一些聚合查询并遇到一些问题。 GET /my_index/_search { "size" : 0, "aggs":{ "group_by":{ "terms": {
python - Pandas agg 根据数据类型定义指标
对于pandas agg，有没有办法根据数据类型指定聚合函数？例如，对象类型的所有列都获得“第一”，所有 float 获得“平均值”，等等？以避免必须输入所有列及其各自的聚合函数。示例数据: imp
scala - Spark agg 为多列收集单个列表
这是我当前的代码: pipe_exec_df_final_grouped = pipe_exec_df_final.groupBy("application_id").agg(collect_list
Python - Pandas groupby agg
我有一个简单的 dataframe (df)，如下所示: index Job Person 1 j1 Cathy 2 j2 Mark 3 j3 Cathy 4
elasticsearch - Elasticsearch-术语中的buckets_path agg
我正在尝试对术语(count_bucket)进行AVG计数，但是出现错误: "buckets_path must reference either a number value or a single
elasticsearch - 响应中未保留的 agg 名称的排序
我正在执行弹性查询并使用 REST 调用读取 java 代码中的响应。当我阅读响应时，字段的顺序 - 200、204、4xx、5xx 不会按照响应中的顺序返回。在下面找到示例请求 GET appl
ElasticSearch Max Agg 在文档的列表属性中的最低值
我希望对文档下的属性值进行 Max 聚合，该属性是复杂对象(键和值)的列表。这是我的数据: [{ "id" : "1", "listItems" : [
elasticsearch 使用 aggs 过滤数组数据
我使用 Elasticsearch 来存储我的生物数据。我尝试使用过滤后的 aggs 进行查询，但返回的数据不是我想要的。问题来自这样一个事实，即我为每个样本都有一个“d_”属性，它是一个数组。我
elasticsearch - 如何使用过滤器查询优化 Elasticsearch aggs
当我尝试运行此查询时，elasticsearch无法回答，并且发生大量缓存逐出(与字段缓存有关)。我不想在此查询中缓存任何字段，因为这是一个分析查询，我每天只运行一次。有什么办法可以在不使用字段缓存
python - DataFrame agg 作为一个系列
我想将 DataFrame.agg 的输出转换为一个系列，其中索引是列名称和 agg 函数名称的组合。看我有 In [132]: df = pd.DataFrame({ ...:
python - 如何将 agg 应用于具有根据级别不同功能的多索引的数据框？
我想根据索引的第二级对具有多重索引的数据帧应用不同的函数。例如，对于数据框: In [4]: df = pd.DataFrame({'a': [1,2,6,7],'b': [7,1,4,5]}, i
python - Pandas .agg 函数有哪些？
假设我有这样的代码: meanData = all_data.groupby(['Id'])[features].agg('mean') 这按'Id' 值对数据进行分组，选择所需的特征，并通过计算的'
python - groupby.agg 中的本福德定律测试函数
下面是我的数据框的一个小样本，它有 25000 奇数行长: In [58]: df Out[58]: Send_Agent Send_Amount 0 ADR000264 361
python - 在 agg 函数中聚合具有一个属性的多列
假设我有一个 pandas dataFrame (data_stores) 类似于以下内容: store| item1 | item2 | item3 ------------------------

首页

博学

6Ren·AI

商城

python - Dask agg函数 pickle 错误