- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我今天观察到,选择两列或更多列数据框可能比仅选择一列慢得多。
如果我使用 loc 或 iloc 选择多个列,并使用列表传递列名或索引,那么与使用 iloc 选择单列或多列(但没有传递列表)相比,性能会下降 100 倍
示例:
df = pd.DataFrame(np.random.randn(10**7,10), columns=list('abcdefghij'))
一列选择:
%%timeit -n 100
df['b']
3.17 µs ± 147 ns per loop (mean ± std. dev. of 7 runs, 100 loops each)
%%timeit -n 100
df.iloc[:,1]
66.7 µs ± 5.95 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
%%timeit -n 100
df.loc[:,'b']
44.2 µs ± 10.5 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
两列选择:
%%timeit -n 10
df[['b', 'c']]
96.4 ms ± 788 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
%%timeit -n 10
df.loc[:,['b', 'c']]
99.4 ms ± 4.44 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
%%timeit -n 10
df.iloc[:,[1,2]]
97.6 ms ± 1.79 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
只有这个选择才能像预期的那样工作:[编辑]
%%timeit -n 100
df.iloc[:,1:3]
103 µs ± 17.9 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
机制上有哪些差异以及为什么差异如此之大?
[编辑]:正如 @run-out 指出的,pd.Series 的处理速度似乎比 pd.DataFrame 快得多,有人知道为什么会这样吗?
另一方面 - 它没有解释 df.iloc[:,[1,2]]
和 df.iloc[:,1:3]
之间的区别>
最佳答案
Pandas 作为 pandas.Series 使用单行或单列,这比在 DataFrame 架构中工作更快。
当您要求时,Pandas 可以与 pandas.Series 配合使用:
%%timeit -n 10
df['b']
2.31 µs ± 1.59 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
但是,我可以通过将同一列放入列表中来调用该列的 DataFrame。然后你得到:
%%timeit -n 10
df[['b']]
90.7 ms ± 1.73 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
从上面可以看出,Series 的性能优于 DataFrame。
以下是 Pandas 如何处理“b”列。
type(df['b'])
pandas.core.series.Series
type(df[['b']])
pandas.core.frame.DataFrame
编辑:我正在扩展我的答案,因为 OP 想更深入地了解为什么 pd.series 与 pd.dataframe 的速度更快。而且这是一个很好的问题,可以扩展我/我们对底层技术如何工作的理解。请有更专业知识的人士插话。
首先让我们从 numpy 开始,因为它是 pandas 的构建 block 。根据 pandas 和 Python for Data Analysis 的作者 Wes McKinney 的说法,numpy 的性能优于 python:
This is based partly on performance differences having to do with the
cache hierarchy of the CPU; operations accessing contiguous blocks of memory (e.g.,
summing the rows of a C order array) will generally be the fastest because the mem‐
ory subsystem will buffer the appropriate blocks of memory into the ultrafast L1 or
L2 CPU cache.
让我们看看这个示例的速度差异。让我们从数据帧的“b”列创建一个 numpy 数组。
a = np.array(df['b'])
现在进行性能测试:
%%timeit -n 10
a
结果是:
32.5 ns ± 28.2 ns per loop (mean ± std. dev. of 7 runs, 10 loops each)
与 2.31 µs 的 pd.series 时间相比,性能有了显着提升。
性能提升的另一个主要原因是 numpy 索引直接进入 NumPy C 扩展,但是当你索引到 Series 时,会发生很多 python 的事情,而且速度要慢得多。 (read this article)
让我们看看为什么会这样的问题:
df.iloc[:,1:3]
大幅超越:
df.iloc[:,[1,2]]
值得注意的是,在这种情况下,.loc 与 .iloc 具有相同的性能效果。
我们发现问题的第一个重要线索是在以下代码中:
df.iloc[:,1:3] is df.iloc[:,[1,2]]
False
它们给出相同的结果,但是是不同的对象。我进行了深入研究,试图找出其中的区别。我无法在互联网或我的图书馆中找到对此的引用。
查看源代码,我们可以开始看到一些差异。我引用的是indexing.py。
在 _iLocIndexer 类中,我们可以发现 pandas 为 iloc 切片中的列表所做的一些额外工作。
马上,我们在检查输入时遇到了这两个差异:
if isinstance(key, slice):
return
对比
elif is_list_like_indexer(key):
# check that the key does not exceed the maximum size of the index
arr = np.array(key)
l = len(self.obj._get_axis(axis))
if len(arr) and (arr.max() >= l or arr.min() < -l):
raise IndexError("positional indexers are out-of-bounds")
仅此一点就足以导致性能下降吗?我不知道。
尽管 .loc 略有不同,但在使用值列表时它的性能也会受到影响。查看index.py,查看 def _getitem_axis(self, key, axis=None): --> in class _LocIndexer(_LocationIndexer):
处理列表输入的 is_list_like_indexer(key) 的代码部分相当长,包括大量开销。它包含注释:
# convert various list-like indexers
# to a list of keys
# we will use the *values* of the object
# and NOT the index if its a PandasObject
当然,处理值或整数列表会产生足够的额外开销,然后直接切片会导致处理延迟。
其余的代码超出了我的工资等级。如果有人能看一下并敲响它,那将是非常受欢迎的
关于 Pandas 性能: columns selection,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54767327/
这正确地呈现了标题,因为我可以看到一个列带有“Product ID”标题的表:。我正试图重构它,这样我就可以重用它,因为它们在整个应用程序中几乎是相同的:。在这种情况下,头不会呈现...检查页面元素中
我什至不知道如何表达这一点,但在 Python 中有没有一种方法可以引用等号之前的文本,而无需实际再次编写? ** 编辑 - 我在 Jupyter 中使用 python3 我似乎用了半辈子的时间来写作
假设我有一个包含以下列的字典 dict_ = [ {'key1': 'value1', 'key2': 'value2', 'key3': 'value3', '
假设我有一个包含以下列的字典 dict_ = [ {'key1': 'value1', 'key2': 'value2', 'key3': 'value3', '
假设我的数据库中有一张地铁 map ,其中每条线路的每个站点都是一行。如果我想知道我的线路在哪里互连: mysql> SELECT LineA.stop_id FROM LineA, LineB WH
代码 select c1,c2,c3,c4,c5,c6 from table where c5 in ('a', 'b') 从这里开始,我想将 c5 列拆分为两列,然后根据它们对 c
我正在尝试搜索表格中的两列,即标题和描述。但我想先搜索标题,然后再搜索描述。所以匹配标题的所有行排在第一位,所有匹配描述的行排在第二位 我可以使用单个 SQL 查询来实现吗? 最佳答案 您还可以使用
下面有以下 Python 数据框。 “标志”字段是我想要用代码创建的所需列。 我想要执行以下操作: 如果“分配类型”是预测的并且“Activities_Counter”大于 10,我想创建一个名为“F
我有两列,area 和 block,其中 area 是一个 int 类型,block 是一个 varchar。 现在我正在写两个查询: select * from table where area a
使用 Slick 2,我试图生成一个带有元组 IN 子句的查询: select * from my_table where (a, b) IN ((1, 87)); 给定: val seq: Seq[
我正在尝试从数据透视表中获取一组值,其中 A 列等于值数组,例如 ID 12 的 attribute_value_id 等于 3 和 9。这可以做到吗?我已经走了这么远... ID | post_id
我找不到这样做的有效方法。我在 Python 中有以下 DataFrame,列从 A 到 Z A B C ... Z 0 2.0 8.0 1.0 ... 5.0 1
我的数据框中有以下格式的数据: >>> df = pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('ABCD')) >>> df
我有多个与我公司销售的产品相关的表被新产品取代,随着时间的推移,这导致了多个表的出现。 我一遍又一遍地使用以下查询,直到最终表中只剩下 2 个产品... CREATE TABLE mar15a
我有如下 2 个表:- 表A ------------------------------- | product_id | price | --------------------
我有一个名为 tbl_mainsheet7 的表,创建方式如下: pk_mainsheet client_id project_id mainsheet_id project_cat EA_
我得到了以下 HTML 结构: ... ... 我的 CSS: #main-container { width:80%; margin:20px auto;
对于我的以下要求,我无法获得解决方案。 如果 data.table(如下)在 Col1 和 Col3 中有匹配的值。替换 Col2 值(旧的 New-Val)。 Col1 Col2 Col3
我正在通过连接几个表来构建一个 View ,以通过 Entity Framework 提取数据。由于此 View 没有唯一列,EntityFramework 无法检索正确的结果集(即第一列重复)。 为
好的,我已经尝试了太久了,是时候寻求帮助了。我有一个看起来有点像这样的数据框: person fruit quantity all_fruits 0 p1 grapes 2
我是一名优秀的程序员,十分优秀!