- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想了解 pandas 中使用 category
背后的微妙之处。
我通过创建了一个随机三列 DataFrame
import pandas as pd
import numpy as np
a = np.random.choice(['a', 'A'], size=100000)
b = np.random.choice(range(10000), size=100000)
df = pd.DataFrame(data=dict(A1=a, A2=a, B=b))
df['A2'] = df.A2.astype('category')
处理A2
有一个category
类型列。
df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 3 columns):
A1 100000 non-null object
A2 100000 non-null category
B 100000 non-null int64
dtypes: category(1), int64(1), object(1)
memory usage: 1.6+ MB
在 B
上运行 groupby
运算符并在 A1
和 A2
上应用一个简单的函数会导致性能方面的巨大差异,
%%timeit
df_ = df.groupby(by='B').agg(
dict(
A1=lambda s: len(s.unique())
)
)
1 loop, best of 3: 666 ms per loop
和
%%timeit
df_ = df.groupby(by='B').agg(
dict(
A2=lambda s: len(s.unique())
)
)
1 loop, best of 3: 2.73 s per loop
您能告诉我这背后的原因吗?
最佳答案
我认为你可以使用SeriesGroupBy.nunique
,它与 category
一起工作只是稍微慢一点:
print (df.groupby(by='B')['A1'].nunique())
print (df.groupby(by='B')['A2'].nunique())
In [71]: %timeit (df.groupby(by='B')['A1'].nunique())
10 loops, best of 3: 19.8 ms per loop
In [72]: %timeit (df.groupby(by='B')['A2'].nunique())
10 loops, best of 3: 20.2 ms per loop
有趣,如果将 agg
与 dict
一起使用,性能是相同的:
In [77]: %timeit df.groupby(by='B').agg({'A1':'nunique'})
100 loops, best of 3: 20.1 ms per loop
In [78]: %timeit df.groupby(by='B').agg({'A2':'nunique'})
10 loops, best of 3: 20.1 ms per loop
但是如果使用lambda
函数,dtype
category
会更慢(与您相同的问题):
In [73]: %timeit df.groupby(by='B').agg(dict(A1=lambda s: s.nunique()))
1 loop, best of 3: 824 ms per loop
In [74]: %timeit df.groupby(by='B').agg(dict(A2=lambda s: s.nunique()))
1 loop, best of 3: 3.07 s per loop
关于python - pandas中groupby处理 `category`类型时的性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38496930/
我正在尝试根据 magento 中的产品 ID 在类别路径中获取类别名称。 假设我的产品 ID = 1,并且我在其中定义了 category5 (id = 5),并且我得到了类似 2/3/5 的类别路
我试图弄清楚如何通过 AngularJS 中的 $http.get() 方法发送数组。这就是我正在做的事情: $http.get('/events.json', {params: {category_
我在产品类别和子类别网站上工作,可以创建的子类别数量是无限的,这意味着我们可以自己拥有子类别的子类别。一切正常,我只是有一个问题:假设“PRODUCT 1”属于“SUB SUB CATEGORY 1”
在 stackoverflow 上所有这些 mod 重写主题之后,我仍然没有找到我的问题的答案。我有一个顶级站点,基本上我想做的就是将 /index.php?method=in&cat=Half+Li
我正在为我的未婚夫构建一个 Rails 应用程序来进行一些非常基本的库存跟踪。我们已经经历了几种选择,因为无论如何我都想学习 Rails,所以我们想出了为什么不。无论如何,如果我可以将一些产品按这样分
我需要在 Prestashop 主题的类别页面中列出同级类别。目前它确实显示子类别(如果有)但不兄弟类别。 如果能快速回答,我们将不胜感激!谢谢。 最佳答案 首先我会在/override/contro
关闭。这个问题需要details or clarity .它目前不接受答案。 想改进这个问题吗? 通过 editing this post 添加细节并澄清问题. 关闭 7 年前。 Improve
我正在使用以下维基媒体 API 列出具有特定类别的所有页面:https://www.mediawiki.org/wiki/API:Categorymembers 例如https://en.wikipe
我应该如何命名用户类别和文章类别的表和模型?我有两个表,一个是用户,另一个是文章。我想对它们进行分类,以便我可以仅调用新闻文章或仅使用公司类别中的用户。所以我需要这些模型/表之间的关系。 我考虑过为文
在 UI Router 中实现此类功能的最佳方法是什么? /category/product /category/category/product 例如: /telephones/apple/ipho
我有以下 SQL 架构: tbl_产品: - ID - id_category tbl_categories: - ID - id_parent tbl_products_categories:- i
我需要创建一个对用户隐藏的应用程序。但在它被隐藏之前,我需要在 GUI 上设置一些配置,然后我必须从应用程序列表中隐藏图标。如果我删除 应用程序未显示在应用程序列表中。但是我的配置 GUI 也没有显
我正在尝试派生一个 MySQL 查询来转换这个: product | sold milk | 6 milk | 4 bread | 3 bread | 2 bread
我正在使用 ^category/|categories/$。 为什么 ^categor[y|ies]/$ 不起作用? 最佳答案 你的正则表达式应该是, ^categor(?:y|ies)/$ 使用非捕
据我所知,有两种情况会导致以下错误: ld: warning: instance method 'resetAudioSystem' in category from /opentok-ios-sdk
我希望我的问题很清楚,但我会尝试再解释一下。 在我的数据库中,我有两列名为“category”和“images”。在我的表单中,人们需要添加一个类别,以便我的 PHP 向 MySQL 添加一个新条目。
我在 pandas 中有以下 df 数据框: weekday venta_total_cy 0 Viernes 5.430211e+09 1 Lunes 3.4255
我目前陷入困境。场景是这样的。我有可能与多个类别相关联的产品。数据结构如下图: Products Table: product_id name 1 Lemon 2
我使用 openActivity()使用 Kotlin 在 Android Studio 3.1.2 中创建首选项 UI。 看来代码A和代码B都可以正常工作。 android.intent.categ
我有一个 Postgres 数据库。我正在尝试根据表 2 中表达的条件删除表 1 中的行。 表 1:id, object_id, time, action_type 表 2:object_id, ob
我是一名优秀的程序员,十分优秀!