python - 在 Python/Pandas 中使用正则表达式运算符有条件地计算数据条目数-6ren

python - 在 Python/Pandas 中使用正则表达式运算符有条件地计算数据条目数

转载作者：行者123 更新时间：2023-12-01 08:49:11

24

4

使用 Python 中的 pandas 库，我的代码中有一个如下所示的设备:

BadData = len(df[df.A1.str.contains('A|T|C|G')==False])

我在这里想做的是计算数据帧df的A1列中不包含的条目数字母 A、T、C 和 G 的任意组合。

这些表达式应计为 BadData:

123
<%*&
富

但是这些表达式不应该:

一个
ATCG
加特卡塔

我的问题:如何使用正则表达式字符在 中包含“Apple”或“Golfing”等条目坏数据？

我可以像这样将条件链接在一起:

BadData = len(df[(df.A1.str.contains('A|T|C|G')==False) & (df.A1.str.contains('0|1|2|3')==TRUE)])

但是这里我面临一个困难:我是否必须定义每个违反条件的字符？这看起来很笨拙，我相信有一种更优雅的方法。

最佳答案

您可以使用:

df['A1'].str.contains('^[ACTG]+$')

这确保它以 ACTG 中的字母开始(正则表达式 ^)和结束(正则表达式 $)，并且仅包含一个或多个这些字符。

要获取 len，您只需将 False 值相加即可:

bad_data = sum(~df['A1'].str.contains('^[ACTG]+$'))

这相当于:

bad_data = len(df[df.A1.str.contains('^[ACTG]+$')==False])

但我认为读起来更好。

例如:

>>> df
             A1
0         Apple
1       Golfing
2             A
3          ATTC
4          ACGT
5         AxTCG
6           foo
7             %
8  ACT Golf GTC
9           ACT


>>> df['A1'].str.contains('^[ACTG]+$')
0    False
1    False
2     True
3     True
4     True
5    False
6    False
7    False
8    False
9     True
Name: A1, dtype: bool

bad_data = sum(~df['A1'].str.contains('^[ACTG]+$'))
# 6

关于python - 在 Python/Pandas 中使用正则表达式运算符有条件地计算数据条目数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53199705/

24

4

0

文章推荐： python - SQLAlchemy 和 Flask 的关系

文章推荐： java - 运算符 '+' 不能应用于对象和字符串

文章推荐： common-lisp - CL 实现之间的包系统有何不同？

文章推荐： python - RPi.GPIO 中断调用函数的时间不够长

VBS教程：运算符-Or 运算符
Or 运算符对两个表达式进行逻辑“或”运算。 result = expression1 Or expression2 参数 result 任意数值变量。 expression1 任意
VBS教程：运算符-Not 运算符
Not 运算符对表达式执行逻辑非运算。 result = Not expression 参数 result 任意数值变量。 expression 任意表达式。说明下表显示如何
VBS教程：运算符-Is 运算符
Is 运算符比较两个对象引用变量。 result = object1 Is object2 参数 result 任意数值变量。 object1 任意对象名。 object2 任意
VBS教程：运算符-\ 运算符
\ 运算符两个数相除并返回以整数形式表示的结果。 result = number1\number2 参数 result 任意数值变量。 number1 任意数值表达式。 numbe
VBS教程：运算符-And 运算符
And 运算符对两个表达式进行逻辑“与”运算。 result = expression1 And expression2 参数 result 任意数值变量。 expression1
VBS教程：运算符-运算符(+)
运算符(+) 计算两个数之和。 result = expression1 + expression2 参数 result 任意数值变量。 expression1 任意表达式。 exp
Javascript + 运算符 vs - 运算符
我对此感到困惑snippet : var n1 = 5-"4"; var n2 = 5+"4"; alert(n1); alert(n2); 我知道 n1 是 1。那是因为减号运算符会将字符串“4”转
c++ - |运算符 ,++ 和 I 运算符
我想我会得到 12，而不是 7。 w++，那么w就是4，也就是100，而w++， w 将是 8，1000；所以 w++|z++ 将是 100|1000 = 1100 将是 12。我怎么了？ int
VBS教程：运算符-Xor 运算符
Xor 运算符对两个表达式进行逻辑“异或”运算。 result = expression1 Xor expression2 参数 result 任意数值变量。 expression1
VBS教程：运算符-Mod 运算符
Mod 运算符两个数值相除并返回其余数。 result = number1 Mod number2 参数 result 任意数值变量。 number1 任意数值表达式。 numbe
VBS教程：运算符-Imp 运算符
Imp 运算符对两个表达式进行逻辑蕴涵运算。 result = expression1 Imp expression2 参数 result 任意数值变量。 expression1 任
VBS教程：运算符-Eqv 运算符
Eqv 运算符执行两个表达式的逻辑等价运算。 result = expression1 Eqv expression2 参数 result 任意数值变量。 expression1 任
c++ - 时序运算符+、运算符-、运算符*和运算符/
我有一个运算符重载的简单数学 vector 类。我想为我的运算符(operator)获取一些计时结果。我可以通过计时以下代码轻松计时我的 +=、-=、*= 和/=: Vector sum; for(s
c++ - 用户定义的比较运算符(运算符>、运算符<等)
我是用户定义比较运算符的新手。我正在读一本书，其中提到了以下示例: struct P { int x, y; bool operator、运算符<等)，我们
sql - 标准 SQL bool 运算符 IS 与等于 (=) 运算符
在 SQL 的维基百科页面上，有一些关于 SQL 中 bool 逻辑的真值表。 [1] 维基百科页面似乎来源于 SQL:2003 标准。等号运算符 (=) 的真值表与 SQL:2003 草案中的 I
c++ - 奇怪的 c++ 运算符(运算符 unsigned short())
我遇到了一个奇怪的 C++ 运算符。 http://www.terralib.org/html/v410/classoracle_1_1occi_1_1_number.html#a0f2780081f
C++:如果我重载 new 运算符，我是否也必须重载 delete 运算符？
我正在阅读关于 SO 和 answers 中的一个问题，它被提到为: If no unambiguous matching deallocation function can be found, pr
python - 如何在不使用 * 运算符(或/运算符)的情况下递归地将两个正整数相乘？ .您可以使用加法、减法和位移
我偶然发现了这个解决方案，但我无法理解其中到底发生了什么。谁能解释一下! 据我了解，它试图通过计算一半的单元格然后将其加倍来计算 a*b 网格中的单元格数量。但是我无法理解递归调用。请不要建议其他解
Go学习笔记（6）Go基本类型&运算符
Go的基本类型布尔类型bool 长度：1字节取值：布尔类型的取值只能是true或者false，不能用数字来表示整型通用整型 int / uint（有符号 / 无符号，下面也类似）长度：根据运
JavaScript 运算符
在本教程中，您将学习JavaScript中可用的不同运算符，以及在示例的帮助下如何使用它们。什么是运算符？在JavaScript中，运算符是一种特殊符号，用于对运算数（值和变量）执行操作。例如，

首页

博学

6Ren·AI

商城

python - 在 Python/Pandas 中使用正则表达式运算符有条件地计算数据条目数