- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
选择/过滤 dataframe whose index is a MultiIndex 的行的最常见的 Pandas 方法是什么? ?
mux = pd.MultiIndex.from_arrays([
list('aaaabbbbbccddddd'),
list('tuvwtuvwtuvwtuvw')
], names=['one', 'two'])
df = pd.DataFrame({'col': np.arange(len(mux))}, mux)
col
one two
a t 0
u 1
v 2
w 3
b t 4
u 5
v 6
w 7
t 8
c u 9
v 10
d w 11
t 12
u 13
v 14
w 15
col
one two
a t 0
u 1
v 2
w 3
col
two
t 0
u 1
v 2
w 3
col
one two
a t 0
b t 4
t 8
d t 12
col
one two
b t 4
u 5
v 6
w 7
t 8
d w 11
t 12
u 13
v 14
w 15
col
one two
a t 0
w 3
b t 4
w 7
t 8
d w 11
t 12
w 15
(x, y)
df
检索横截面,即具有特定索引值的单行?具体来说,我如何检索
('c', 'u')
的横截面,由
col
one two
c u 9
[(a, b), (c, d), ...]
('c', 'u')
对应的两行, 和
('a', 'w')
?
col
one two
c u 9
a w 3
col
one two
a t 0
u 1
v 2
w 3
b t 4
t 8
d t 12
col
one two
a u 1
v 2
b u 5
v 6
d w 11
w 15
Question 7 will use a unique setup consisting of a numeric level:
np.random.seed(0)
mux2 = pd.MultiIndex.from_arrays([
list('aaaabbbbbccddddd'),
np.random.choice(10, size=16)
], names=['one', 'two'])
df2 = pd.DataFrame({'col': np.arange(len(mux2))}, mux2)
col
one two
a 5 0
0 1
3 2
3 3
b 7 4
9 5
3 6
5 7
2 8
c 4 9
7 10
d 6 11
8 12
8 13
1 14
6 15
col
one two
b 7 4
9 5
c 7 10
d 6 11
8 12
8 13
6 15
最佳答案
MultiIndex / Advanced Indexing
Note
This post will be structured in the following manner:
- The questions put forth in the OP will be addressed, one by one
- For each question, one or more methods applicable to solving this problem and getting the expected result will be demonstrated.
Notes (much like this one) will be included for readers interested in learning about additional functionality, implementation details,and other info cursory to the topic at hand. These notes have beencompiled through scouring the docs and uncovering various obscurefeatures, and from my own (admittedly limited) experience.
All code samples have created and tested on pandas v0.23.4, python3.7. If something is not clear, or factually incorrect, or if you did notfind a solution applicable to your use case, please feel free tosuggest an edit, request clarification in the comments, or open a newquestion, ....as applicable.
DataFrame.loc
- 通过标签选择的通用解决方案(+ pd.IndexSlice
用于涉及切片的更复杂的应用程序)DataFrame.xs
- 从系列/数据帧中提取特定横截面。DataFrame.query
- 动态指定切片和/或过滤操作(即作为动态评估的表达式。比其他场景更适用于某些场景。另请参阅 this section of the docs 以查询多索引。MultiIndex.get_level_values
生成掩码的 bool 索引(通常与 Index.isin
结合使用,尤其是在使用多个值进行过滤时)。这在某些情况下也非常有用。Question 1
How do I select rows having "a" in level "one"?
col
one two
a t 0
u 1
v 2
w 3
loc
,作为适用于大多数情况的通用解决方案:
df.loc[['a']]
此时,如果你得到
TypeError: Expected tuple, got str
这意味着您使用的是旧版本的 Pandas 。考虑升级!否则,使用
df.loc[('a', slice(None)), :]
.
xs
在这里,因为我们正在提取单个横截面。请注意
levels
和
axis
参数(这里可以假设合理的默认值)。
df.xs('a', level=0, axis=0, drop_level=False)
# df.xs('a', drop_level=False)
在这里,
drop_level=False
需要参数来防止
xs
从在结果中删除级别“一”(我们切片的级别)。
query
:
df.query("one == 'a'")
如果索引没有名称,则需要将查询字符串更改为
"ilevel_0 == 'a'"
.
get_level_values
:
df[df.index.get_level_values('one') == 'a']
# If your levels are unnamed, or if you need to select by position (not label),
# df[df.index.get_level_values(0) == 'a']
Additionally, how would I be able to drop level "one" in the output?
col
two
t 0
u 1
v 2
w 3
df.loc['a'] # Notice the single string argument instead the list.
或者,
df.xs('a', level=0, axis=0, drop_level=True)
# df.xs('a')
请注意,我们可以省略
drop_level
参数(默认情况下假定为
True
)。
Note
You may notice that a filtered DataFrame may still have all the levels, even if they do not show when printing the DataFrame out. For example,v = df.loc[['a']]
print(v)
col
one two
a t 0
u 1
v 2
w 3
print(v.index)
MultiIndex(levels=[['a', 'b', 'c', 'd'], ['t', 'u', 'v', 'w']],
labels=[[0, 0, 0, 0], [0, 1, 2, 3]],
names=['one', 'two'])You can get rid of these levels using
MultiIndex.remove_unused_levels
:v.index = v.index.remove_unused_levels()
print(v.index)
MultiIndex(levels=[['a'], ['t', 'u', 'v', 'w']],
labels=[[0, 0, 0, 0], [0, 1, 2, 3]],
names=['one', 'two'])
Question 1b
How do I slice all rows with value "t" on level "two"?
col
one two
a t 0
b t 4
t 8
d t 12
slice()
的东西。 :
df.loc[(slice(None), 't'), :]
It Just Works!™ 但它很笨重。我们可以使用
pd.IndexSlice
促进更自然的切片语法。 API在这里。
idx = pd.IndexSlice
df.loc[idx[:, 't'], :]
这要干净得多。
Note
Why is the trailing slice:
across the columns required? This is because,loc
can be used to select and slice along both axes (axis=0
oraxis=1
). Without explicitly making it clear which axis the slicingis to be done on, the operation becomes ambiguous. See the big red box in the documentation on slicing.If you want to remove any shade of ambiguity,
loc
accepts anaxis
parameter:df.loc(axis=0)[pd.IndexSlice[:, 't']]
Without the
axis
parameter (i.e., just by doingdf.loc[pd.IndexSlice[:, 't']]
), slicing is assumed to be on the columns,and aKeyError
will be raised in this circumstance.This is documented in slicers. For the purpose of this post, however, we will explicitly specify all axes.
xs
,它是
df.xs('t', axis=0, level=1, drop_level=False)
与
query
,它是
df.query("two == 't'")
# Or, if the first level has no name,
# df.query("ilevel_1 == 't'")
最后,与
get_level_values
,你可以
df[df.index.get_level_values('two') == 't']
# Or, to perform selection by position/integer,
# df[df.index.get_level_values(1) == 't']
都是一样的效果。
Question 2
How can I select rows corresponding to items "b" and "d" in level "one"?
col
one two
b t 4
u 5
v 6
w 7
t 8
d w 11
t 12
u 13
v 14
w 15
df.loc[['b', 'd']]
要解决上面选择“b”和“d”的问题,还可以使用
query
:
items = ['b', 'd']
df.query("one in @items")
# df.query("one == @items", parser='pandas')
# df.query("one in ['b', 'd']")
# df.query("one == ['b', 'd']", parser='pandas')
Note
Yes, the default parser is'pandas'
, but it is important to highlight this syntax isn't conventionally python. ThePandas parser generates a slightly different parse tree from theexpression. This is done to make some operations more intuitive tospecify. For more information, please read my post onDynamic Expression Evaluation in pandas using pd.eval().
get_level_values
+
Index.isin
:
df[df.index.get_level_values("one").isin(['b', 'd'])]
Question 2b
How would I get all values corresponding to "t" and "w" in level "two"?
col
one two
a t 0
w 3
b t 4
w 7
t 8
d w 11
t 12
w 15
loc
,这只能与
pd.IndexSlice
结合使用.
df.loc[pd.IndexSlice[:, ['t', 'w']], :]
第一个冒号
:
在
pd.IndexSlice[:, ['t', 'w']]
意味着切开第一层。随着被查询级别的深度增加,您将需要指定更多切片,每个切片一个切片。但是,除了被切片的级别之外,您不需要指定更多级别。
query
,这是
items = ['t', 'w']
df.query("two in @items")
# df.query("two == @items", parser='pandas')
# df.query("two in ['t', 'w']")
# df.query("two == ['t', 'w']", parser='pandas')
与
get_level_values
和
Index.isin
(与上面类似):
df[df.index.get_level_values('two').isin(['t', 'w'])]
Question 3
How do I retrieve a cross section, i.e., a single row having a specific valuesfor the index from
df
? Specifically, how do I retrieve the crosssection of('c', 'u')
, given bycol
one two
c u 9
loc
通过指定一个键元组:
df.loc[('c', 'u'), :]
或者,
df.loc[pd.IndexSlice[('c', 'u')]]
Note
At this point, you may run into aPerformanceWarning
that looks like this:PerformanceWarning: indexing past lexsort depth may impact performance.
This just means that your index is not sorted. pandas depends on the index being sorted (in this case, lexicographically, since we are dealing with string values) for optimal search and retrieval. A quick fix would be to sort yourDataFrame in advance using
DataFrame.sort_index
. This is especially desirable from a performance standpoint if you plan on doingmultiple such queries in tandem:df_sort = df.sort_index()
df_sort.loc[('c', 'u')]You can also use
MultiIndex.is_lexsorted()
to check whether the indexis sorted or not. This function returnsTrue
orFalse
accordingly.You can call this function to determine whether an additional sortingstep is required or not.
xs
,这再次简单地传递一个元组作为第一个参数,所有其他参数设置为其适当的默认值:
df.xs(('c', 'u'))
与
query
,事情变得有点笨拙:
df.query("one == 'c' and two == 'u'")
现在您可以看到,这将相对难以概括。但是对于这个特定问题仍然可以。
get_level_values
仍然可以使用,但不推荐:
m1 = (df.index.get_level_values('one') == 'c')
m2 = (df.index.get_level_values('two') == 'u')
df[m1 & m2]
Question 4
How do I select the two rows corresponding to
('c', 'u')
, and('a', 'w')
?col
one two
c u 9
a w 3
loc
,这仍然很简单:
df.loc[[('c', 'u'), ('a', 'w')]]
# df.loc[pd.IndexSlice[[('c', 'u'), ('a', 'w')]]]
与
query
,您将需要通过迭代您的横截面和级别来动态生成查询字符串:
cses = [('c', 'u'), ('a', 'w')]
levels = ['one', 'two']
# This is a useful check to make in advance.
assert all(len(levels) == len(cs) for cs in cses)
query = '(' + ') or ('.join([
' and '.join([f"({l} == {repr(c)})" for l, c in zip(levels, cs)])
for cs in cses
]) + ')'
print(query)
# ((one == 'c') and (two == 'u')) or ((one == 'a') and (two == 'w'))
df.query(query)
100% 不推荐!但这是可能的。
droplevel
删除您没有检查的级别,然后使用
isin
测试成员资格,然后对最终结果进行 bool 索引。
df[df.index.droplevel(unused_level).isin([('c', 'u'), ('a', 'w')])]
Question 5
How can I retrieve all rows corresponding to "a" in level "one" or"t" in level "two"?
col
one two
a t 0
u 1
v 2
w 3
b t 4
t 8
d t 12
loc
做到。同时确保正确性并仍然保持代码清晰。
df.loc[pd.IndexSlice['a', 't']]
不正确,解释为
df.loc[pd.IndexSlice[('a', 't')]]
(即,选择横截面)。您可能会想到
pd.concat
的解决方案分别处理每个标签:
pd.concat([
df.loc[['a'],:], df.loc[pd.IndexSlice[:, 't'],:]
])
col
one two
a t 0
u 1
v 2
w 3
t 0 # Does this look right to you? No, it isn't!
b t 4
t 8
d t 12
但是您会注意到其中一行是重复的。这是因为该行满足两个切片条件,因此出现了两次。你将需要做
v = pd.concat([
df.loc[['a'],:], df.loc[pd.IndexSlice[:, 't'],:]
])
v[~v.index.duplicated()]
但是,如果您的 DataFrame 固有地包含重复的索引(您想要的),那么这将不会保留它们。
谨慎使用 .
query
,这非常简单:
df.query("one == 'a' or two == 't'")
与
get_level_values
,这仍然很简单,但没有那么优雅:
m1 = (df.index.get_level_values('one') == 'a')
m2 = (df.index.get_level_values('two') == 't')
df[m1 | m2]
Question 6
How can I slice specific cross sections? For "a" and "b", I would like to select all rows with sub-levels "u" and "v", andfor "d", I would like to select rows with sub-level "w".
col
one two
a u 1
v 2
b u 5
v 6
d w 11
w 15
loc
.这样做的一种方法是:
keys = [('a', 'u'), ('a', 'v'), ('b', 'u'), ('b', 'v'), ('d', 'w')]
df.loc[keys, :]
如果你想节省一些打字,你会发现有一个模式来切片“a”,“b”及其子级别,所以我们可以将切片任务分成两部分和
concat
结果:
pd.concat([
df.loc[(('a', 'b'), ('u', 'v')), :],
df.loc[('d', 'w'), :]
], axis=0)
“a”和“b”的切片规范稍微干净一点
(('a', 'b'), ('u', 'v'))
因为被索引的相同子级别对于每个级别都是相同的。
Question 7
How do I get all rows where values in level "two" are greater than 5?
col
one two
b 7 4
9 5
c 7 10
d 6 11
8 12
8 13
6 15
query
来完成,
df2.query("two > 5")
和
get_level_values
.
df2[df2.index.get_level_values('two') > 5]
Note
Similar to this example, we can filter based on any arbitrary condition using these constructs. In general, it is useful to remember thatloc
andxs
are specifically for label-based indexing, whilequery
andget_level_values
are helpful for building general conditional masksfor filtering.
Bonus Question
What if I need to slice a
MultiIndex
column?
np.random.seed(0)
mux3 = pd.MultiIndex.from_product([
list('ABCD'), list('efgh')
], names=['one','two'])
df3 = pd.DataFrame(np.random.choice(10, (3, len(mux))), columns=mux3)
print(df3)
one A B C D
two e f g h e f g h e f g h e f g h
0 5 0 3 3 7 9 3 5 2 4 7 6 8 8 1 6
1 7 7 8 1 5 9 8 9 4 3 0 3 5 0 2 3
2 8 1 3 3 3 7 0 1 9 9 0 4 7 3 2 7
这些是您需要对四个习语进行的以下更改,以使它们与列一起使用。
loc
切片,使用 df3.loc[:, ....] # Notice how we slice across the index with `:`.
或者, df3.loc[:, pd.IndexSlice[...]]
xs
如果合适,只需传递一个参数 axis=1
.df.columns.get_level_values
直接访问列级值。 .然后你需要做类似的事情 df.loc[:, {condition}]
哪里{condition}
表示使用 columns.get_level_values
构建的一些条件.query
,您唯一的选择是转置,查询索引,然后再次转置: df3.T.query(...).T
不推荐,使用其他 3 个选项之一。关于python - 在 Pandas MultiIndex DataFrame 中选择行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53927460/
猫f1.txt阿曼维沙尔阿杰贾伊维杰拉胡尔曼尼什肖比特批评塔夫林现在输出应该符合上面给定的条件 最佳答案 您可以在文件读取循环中设置一个计数器并打印它, 计数=0 读取行时做 让我们数一数++ if
我正在尝试查找文件 1 和文件 2 中的共同行。如果公共(public)行存在,我想写入文件 2 中的行,否则打印文件 1 中的非公共(public)行。fin1 和 fin2 是这里的文件句柄。它读
我有这个 SQL 脚本: CREATE TABLE `table_1` ( `IDTable_1` int(11) NOT NULL, PRIMARY KEY (`IDTable_1`) );
我有 512 行要插入到数据库中。我想知道提交多个插入内容是否比提交一个大插入内容有任何优势。例如 1x 512 行插入 -- INSERT INTO mydb.mytable (id, phonen
如何从用户中选择user_id,SUB(row, row - 1),其中user_id=@userid我的表用户,id 为 1、3、4、10、11、23...(不是++) --id---------u
我曾尝试四处寻找解决此问题的最佳方法,但我找不到此类问题的任何先前示例。 我正在构建一个基于超本地化的互联网购物中心,该区域分为大约 3000 个区域。每个区域包含大约 300 个项目。它们是相似的项
preg_match('|phpVersion = (.*)\n|',$wampConfFileContents,$result); $phpVersion = str_replace('"','',
我正在尝试创建一个正则表达式,使用“搜索并替换全部”删除 200 个 txt 文件的第一行和最后 10 行 我尝试 (\s*^(\h*\S.*)){10} 删除包含的前 10 行空白,但效果不佳。 最
下面的代码从数据库中获取我需要的信息,但没有打印出所有信息。首先,我知道它从表中获取了所有正确的信息,因为我已经在 sql Developer 中尝试过查询。 public static void m
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它,visit the help center 。 已关
我试图在两个表中插入记录,但出现异常。您能帮我解决这个问题吗? 首先我尝试了下面的代码。 await _testRepository.InsertAsync(test); await _xyzRepo
这个基本的 bootstrap CSS 显示 1 行 4 列: Text Text Text
如果我想从表中检索前 10 行,我将使用以下代码: SELECT * FROM Persons LIMIT 10 我想知道的是如何检索前 10 个结果之后的 10 个结果。 如果我在下面执行这段代码,
今天我开始使用 JexcelApi 并遇到了这个:当您尝试从特定位置获取元素时,不是像您通常期望的那样使用sheet.getCell(row,col),而是使用sheet.getCell(col,ro
我正在尝试在我的网站上开发一个用户个人资料系统,其中包含用户之前发布的 3 个帖子。我可以让它选择前 3 条记录,但它只会显示其中一条。我是不是因为凌晨 2 点就想编码而变得愚蠢? query($q)
我在互联网上寻找答案,但找不到任何答案。 (我可能问错了?)我有一个看起来像这样的表: 我一直在使用查询: SELECT title, date, SUM(money) FROM payments W
我有以下查询,我想从数据库中获取 100 个项目,但 host_id 多次出现在 urls 表中,我想每个 host_id 从该表中最多获取 10 个唯一行。 select * from urls j
我的数据库表中有超过 500 行具有特定日期。 查询特定日期的行。 select * from msgtable where cdate='18/07/2012' 这将返回 500 行。 如何逐行查询
我想使用 sed 从某一行开始打印 n 行、跳过 n 行、打印 n 行等,直到文本文件结束。例如在第 4 行声明,打印 5-9,跳过 10-14,打印 15-19 等 来自文件 1 2 3 4 5 6
我目前正在执行验证过程来检查用户的旧密码,但问题是我无法理解为什么我的查询返回零行,而预期它有 1 行。另一件事是,即使我不将密码文本转换为 md5,哈希密码仍然得到正确的答案,但我不知道为什么会发生
我是一名优秀的程序员,十分优秀!