- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我仍在研究一个可重现的示例,但不幸的是,我是 Pandas 的绝对初学者,我对自己做错了什么感到迷茫。这种行为似乎是 Pandas 1.2.4 中的一个错误。
我有两个数据框,files_df
它给出了几个存储库中源代码文件的类型和复杂性,以及 proj_df
这给出了项目及其上次更新的时间。
我试图按复杂性为每种语言选择前两个项目,它看起来像这样:
def largest(x):
return (
# Pick the top two rows in each language (from the groupby) by scc_complexity
x.nlargest(2, 'scc_complexity')
# Combine the proj_repo values (we don't actually care about scc_complexity at this point)
.agg({'proj_repo': lambda y: '<br>'.join(y.values)})
)
max_proj = (
# Pick the language and complexity columns
files_df[['scc_lang', 'scc_complexity', 'proj_repo']]
# Sum scc_complexity by language and repo
.groupby(['scc_lang', 'proj_repo'], observed=True).sum()
.reset_index()
)
max_proj = (
max_proj
# Select only repos updated in the last two years
.loc[max_proj['proj_repo'].isin(proj_df.loc[proj_df['last_author_time'] > '2019-05-01', 'proj_repo'])]
# Now pick the top repos by language complexity
.groupby('scc_lang').apply(largest)
)
这应该产生一个带有
scc_lang
的框架作为它的索引和
proj_repo
作为其唯一的列,但它会产生以下形状:
<class 'pandas.core.frame.DataFrame'>
MultiIndex: 151 entries, ('ASP', 'proj_repo') to ('XML Schema (min)', 'proj_repo')
Data columns (total 2 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 0 151 non-null object
1 proj_repo 0 non-null object
dtypes: object(2)
memory usage: 8.7+ KB
MultiIndex([( 'ASP', 'proj_repo'),
( 'Autoconf', 'proj_repo'),
( 'BASH', 'proj_repo'),
( 'Batch', 'proj_repo'),
...
也就是说,现在有一个多索引,而
proj_info
column 现在是一个名为
0
的列,以及
proj_info
列现在是空的。
.loc[]
,此代码会生成正确的形状选择来自
max_proj
.对于我的一生,我无法弄清楚为什么进行选择会改变结果的形状。我无法用一个完整的小例子来重现结果。
observed=True
似乎也产生了正确的形状——所以这可能与缺少 key 有关?
tdf = pd.DataFrame([['lang1', 1, 'ab'],
['lang2', 2, 'cd'],
['lang2', 4, 'cd'],
['lang2', 3, 'ef'],
['lang2', 4, 'gh'],
['lang3', 2, 'ef']
],
columns=['lang', 'size', 'name']).astype({'lang': 'category'}, copy=False).set_index('lang')
d = tdf.groupby(['lang', 'name'], observed=True).sum().reset_index()
d = d.loc[d['name'].isin(pd.Series(['ab','cd','gh']))].groupby('lang').apply(lambda x: x.agg({'name': lambda y: ' '.join(y.values)}))
display(d)
d.info()
<class 'pandas.core.frame.DataFrame'>
MultiIndex: 2 entries, ('lang1', 'name') to ('lang2', 'name')
Data columns (total 2 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 0 2 non-null object
1 name 0 non-null object
dtypes: object(2)
memory usage: 356.0+ bytes
删除 'ab' 或 'ef' 名称会触发此操作,这意味着它与缺少的类别有关。事实上,将列类型改回
object
也修复了这个问题。所以似乎我误解了类别......
tdf2 = pd.DataFrame([['a', 'boof']], columns=['lang', 'name']).astype({'lang': pd.CategoricalDtype(['a', 'b'])})
display(tdf2.groupby('lang').apply(lambda x: x.agg({'name': lambda y: y.values})))
我们现在非常小。删除上述代码的几乎任何位都会导致生成的数据框对齐到正确的形状。
.groupby('lang')
生成的空数据帧。 ,它会恢复已从数据中删除的类别。在
apply()
内部重新加入的结果似乎有些奇怪.
y.values
来自
apply()
lambda 是其中的一部分:如果我返回
y
(系列)相反,奇怪的结构不会发生。
最佳答案
最后,我找到了。奇怪的结构结果是因为空数据帧上的单列 agg 的结果是一个数据帧,但如果该数据帧有行,结果是一个系列:
tdf2 = pd.DataFrame([], columns=['lang', 'name'])
print(type(tdf2.agg({'name': lambda y: y.values})))
tdf2 = pd.DataFrame([['a', 'boof']], columns=['lang', 'name'])
print(type(tdf2.agg({'name': lambda y: y.values})))
<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.series.Series'>
groupby的
apply()
返回奇怪的结构,因为它试图将两者结合起来:
tdf2 = pd.DataFrame([['a', 'boof'], ['b', 'toop']], columns=['lang', 'name'])
print(tdf2.groupby('lang').apply(lambda x: x['name'] if x.iloc[0,0] == 'a' else x))
0 lang name
lang
a 0 boof NaN NaN
b 1 NaN b toop
我不知道我是否会称其为错误。这当然是令人惊讶的行为,以及一般的程序
should not be surprising .
observed=True
在应用之前添加到 groupby,消除空数据帧。
关于python - Pandas DataFrame.agg 在选择缺少类别后生成多索引,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67697606/
我有两种方法来汇总数据。 首先,我过滤mysql数据并进行汇总 其次,i aggs将数据过滤为aggs。 如下: 我发现了不同的结果,我不知道为什么。 有人可以解释吗? 最佳答案 从Docs By d
在一个具体问题上,假设我有一个 DataFrame DF word tag count 0 a S 30 1 the S 20 2 a T
我正在使用Python进行数据分析,但我遇到了部分CH的问题。9(数据聚合和分组操作)部分,介绍“使用函数分组”。。具体地说,如果我使用GroupBy对象方法或Numpy定义的函数,一切都会正常工作。
接听this question原来 df.groupby(...).agg(set) 和 df.groupby(...).agg(lambda x: set(x)) 正在产生不同的结果。 数据: df
如何在这样的字符串列中执行最大值? dataframe = pandas.DataFrame.from_dict( { "DEP
我有一个查询,用于查询给定日期时间窗口(即2017-02-17T15:00:00.000和2017-02-17T16:00:00.000之间)中的条目数。执行此查询时,我得到的结果不正确(最好说结果是
我正在尝试进行一些聚合查询并遇到一些问题。 GET /my_index/_search { "size" : 0, "aggs":{ "group_by":{ "terms": {
对于pandas agg,有没有办法根据数据类型指定聚合函数?例如,对象类型的所有列都获得“第一”,所有 float 获得“平均值”,等等?以避免必须输入所有列及其各自的聚合函数。 示例数据: imp
这是我当前的代码: pipe_exec_df_final_grouped = pipe_exec_df_final.groupBy("application_id").agg(collect_list
我有一个简单的 dataframe (df),如下所示: index Job Person 1 j1 Cathy 2 j2 Mark 3 j3 Cathy 4
我正在尝试对术语(count_bucket)进行AVG计数,但是出现错误: "buckets_path must reference either a number value or a single
我正在执行弹性查询并使用 REST 调用读取 java 代码中的响应。 当我阅读响应时,字段的顺序 - 200、204、4xx、5xx 不会按照响应中的顺序返回。 在下面找到示例请求 GET appl
我希望对文档下的属性值进行 Max 聚合,该属性是复杂对象(键和值)的列表。这是我的数据: [{ "id" : "1", "listItems" : [
我使用 Elasticsearch 来存储我的生物数据。 我尝试使用过滤后的 aggs 进行查询,但返回的数据不是我想要的。 问题来自这样一个事实,即我为每个样本都有一个“d_”属性,它是一个数组。我
当我尝试运行此查询时,elasticsearch无法回答,并且发生大量缓存逐出(与字段缓存有关)。 我不想在此查询中缓存任何字段,因为这是一个分析查询,我每天只运行一次。有什么办法可以在不使用字段缓存
我想将 DataFrame.agg 的输出转换为一个系列,其中索引是列名称和 agg 函数名称的组合。 看我有 In [132]: df = pd.DataFrame({ ...:
我想根据索引的第二级对具有多重索引的数据帧应用不同的函数。 例如,对于数据框: In [4]: df = pd.DataFrame({'a': [1,2,6,7],'b': [7,1,4,5]}, i
假设我有这样的代码: meanData = all_data.groupby(['Id'])[features].agg('mean') 这按'Id' 值对数据进行分组,选择所需的特征,并通过计算的'
下面是我的数据框的一个小样本,它有 25000 奇数行长: In [58]: df Out[58]: Send_Agent Send_Amount 0 ADR000264 361
假设我有一个 pandas dataFrame (data_stores) 类似于以下内容: store| item1 | item2 | item3 ------------------------
我是一名优秀的程序员,十分优秀!