- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
示例数据说明:
import pandas as pd
animals = pd.DataFrame({'name': ['ostrich', 'parrot', 'platypus'],
'legs': [2, 2, 4],
'flight': [False, True, False],
'beak': [True, True, True],
'feathers': [True, True, False]})
bipeds = (animals.legs == 2)
print(animals[bipeds])
name legs flight beak feathers
0 ostrich 2 False True True
1 parrot 2 True True True
在我的用例中,每个这样的条件都是从文本搜索字符串中的一个术语中解析出来的,所以我需要以编程方式构造它们。 (我知道 Pandas 的
query ,但我需要不同的功能。)为此编写一个函数非常简单:
def comp_search(df, column_name, comp, value):
return getattr(df[column_name], f'__{comp}__')(value)
bipeds = comp_search(animals, 'legs', 'eq', 2)
检查任何给定的 boolean 列就像
animals[animals.feathers]
一样简单。 .
set(df[features]) <= set(values)
假设这样的条件可以这样构建:
def set_comp_search(df, column_names, comp, values):
return getattr(set(df[column_names]), f'__{comp}__')(set(values))
当然,这些都不起作用,如
set()
的数据框创建一组普通的列名。
apply
来实现将每行 boolean 值转换为一个集合,然后与生成的一系列集合进行比较:
def row_to_set(row):
return set(label for label, value
in zip(row.index, row)
if value)
def set_comp_search(df, column_names, comp, values):
series_of_sets = df[column_names].apply(row_to_set, axis=1)
return getattr(series_of_sets, f'__{comp}__')(set(values))
简洁明了!不幸的是,使用
apply
进行迭代当源数据帧长到数千行时,速度会变得非常慢。
def set_comp_search(df, column_names, comp, values):
other_column_names = set(column_names) - set(values)
value_columns = df[values]
other_columns = df[other_column_names]
if comp == 'gt':
# All the searched features, and at least one other
return value_columns.all(axis=1) & other_columns.any(axis=1)
if comp == 'ge':
# All the searched features
return value_columns.all(axis=1)
if comp == 'eq':
# All the searched features, and none other
return value_columns.all(axis=1) & ~other_columns.any(axis=1)
if comp == 'le':
# No other features
return ~other_columns.any(axis=1)
if comp == 'lt':
# Not all of the searched features, and none other
return ~value_columns.all(axis=1) & ~other_columns.any(axis=1)
所以如果我想要一个条件来表示
set(animals[features]) > {'beak'}
:
more_than_beak = set_comp_search(animals, {'flight', 'beak', 'feathers'},
'gt', {'beak'})
# Converts to: (animals.beak) & (animals.flight | animals.feathers)
print(animals[more_than_beak])
name legs flight beak feathers
0 ostrich 2 False True True
1 parrot 2 True True True
# Correctly omits the platypus
除了笨拙之外,这运行得足够快。但我觉得我必须重新发明一个轮子。这似乎与
Series.str
的用例大致相似。方法可以,尽管它需要使用数据帧、系列序列或 numpy 数组而不是单个系列进行操作。 (遗憾的是没有
DataFrame.set
模块。)
最佳答案
在我看来,您可能会从使用 numpy 向量化的函数中受益。以下是此类函数的示例,即矢量化及其应用:
def analyze_birds (name: str, legs: int, feathers: bool):
if feathers and legs == 2 :
return name + "-Feathered Biped"
if legs > 2 :
return name + "-Quadruped"
vector_analyze_birds = np.vectorize(analyze_birds)
animals['Analysis'] = vector_analyze_birds(animals['name'], animals['legs'], animals['feathers'])
Output
关于python - 用于与多个 boolean 列/系列进行类似集合比较的矢量化 Pandas 方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65430204/
我正在 csv 上使用 hadoop 来分析一些数据。我使用sql/mysql(不确定)来分析数据,现在陷入了僵局。 我花了好几个小时在谷歌上搜索,却没有找到任何相关的东西。我需要一个查询,在该查询中
我正在为 Bootstrap 网格布局的“简单”任务而苦苦挣扎。我希望在大视口(viewport)上有 4 列,然后在中型设备上有 2 列,最后在较小的设备上只有 1 列。 当我测试我的代码片段时,似
对于这个令人困惑的标题,我深表歉意,我想不出这个问题的正确措辞。相反,我只会给你背景信息和目标: 这是在一个表中,一个人可能有也可能没有多行数据,这些行可能包含相同的 activity_id 值,也可
具有 3 列的数据库表 - A int , B int , C int 我的问题是: 如何使用 Sequelize 结果找到 A > B + C const countTasks = await Ta
我在通过以下功能编写此查询时遇到问题: 首先按第 2 列 DESC 排序,然后从“不同的第 1 列”中选择 只有 Column1 是 DISTINCT 此查询没有帮助,因为它首先从第 1 列中进行选择
使用 Bootstrap 非常有趣和有帮助,目前我在创建以下需求时遇到问题。 “使用 bootstrap 在桌面上有 4 列,在平板电脑上有 2 列,在移动设备上有 1 列”谁能告诉我正确的结构 最佳
我是 R 新手,正在问一个非常基本的问题。当然,我在尝试从所提供的示例中获取指导的同时做了功课here和 here ,但无法在我的案例中实现这个想法,即可能是由于我的问题中的比较维度更大。 我的实
通常我会使用 R 并执行 merge.by,但这个文件似乎太大了,部门中的任何一台计算机都无法处理它! (任何从事遗传学工作的人的附加信息)本质上,插补似乎删除了 snp ID 的 rs 数字,我只剩
我有一个 df , delta1 delta2 0 -1 2 0 -1 0 0 0 我想知道如何分配 delt
您好,我想知道是否可以执行以下操作。显然,我已经尝试在 phpMyAdmin 中运行它,但出现错误。也许还有另一种方式来编写此查询。 SELECT * FROM eat_eat_restaurants
我有 2 个列表(标题和数据值)。我想要将数据值列 1 匹配并替换为头文件列 1,以获得与 dataValue 列 1 和标题值列 2 匹配的值 头文件 TotalLoad,M0001001 Hois
我有两个不同长度的文件,file2 是一个很大的引用文件,我从中提取文件 1 的数据。 我有一行 awk,我通常会对其进行调整以在我的文件中进行查找和替换,但它总是在同一列中进行查找和替换。 所以对于
假设我有两个表,如下所示。 create table contract( c_ID number(1) primary key, c_name varchar2(50) not
我有一个带有 varchar 列的 H2 表,其检查约束定义如下: CONSTRAINT my_constraint CHECK (varchar_field <> '') 以下插入语句失败,但当我删
这是最少量的代码,可以清楚地说明我的问题: One Two Three 前 2 个 div 应该是 2 个左列。第三个应该占据页面的其余部分。最后,我将添加选项来隐藏和
在 Azure 中的 Log Analytics 中,我为 VM Heartbeat 选择一个预定义查询,我在编辑器中运行查询正常,但当我去创建警报时,我不断收到警报“查询未返回 TimeGenera
在 Azure 中的 Log Analytics 中,我为 VM Heartbeat 选择一个预定义查询,我在编辑器中运行查询正常,但当我去创建警报时,我不断收到警报“查询未返回 TimeGenera
今天我开始使用 JexcelApi 并遇到了这个:当您尝试从特定位置获取元素时,不是像您通常期望的那样使用sheet.getCell(row,col),而是使用sheet.getCell(col,ro
我有一个包含 28 列的数据库。第一列是代码,第二列是名称,其余是值。 public void displayData() { con.Open(); MySqlDataAdapter
我很沮丧:每当我缩小这个网页时,一切都变得一团糟。我如何将网页居中,以便我可以缩小并且元素不会被错误定位。 (它应该是 2 列,但所有内容都合并为 1)我试过 但由于某种原因,这不起作用。 www.o
我是一名优秀的程序员,十分优秀!