python - 如何对 Pandas RE .str.extract() 使用 RE OR 操作数-6ren

python - 如何对 Pandas RE .str.extract() 使用 RE OR 操作数

转载作者：行者123 更新时间：2023-12-05 07:36:08

24

4

我是新手，我确信这在我的代码中有些愚蠢。在我的辩护中，我尝试重新阅读 Python RE 文档 here在询问和搜索之前，但到目前为止没有看到重复的问题(这让我感到惊讶。)

在 DataFrame 之外，我在这里有重新工作的示例:

x = 'my best friend's birthday is 24 Jan 2001.'
print(re.findall('\d{1,2}\s(?:Jan|Feb|Mar|Apr|May|Jun|Jul|Aug|Sep|Oct|Nov|Dec)[a-z]*\s\d{2,4}', x))
<Anaconda console returns:> 24 Jan 2001

但是在我的 Dataframe (df1) 中我有以下内容:

index     text
0         My birthday is 2/21/19
1         Your birthday is 4/1/20
2         my best friend's birthday is 24 Jan 2001.

当我运行以下代码时:

df1['dates'] = df1['text'].str.extract('.*?(\d+[/-]\d+[/-]?\d*).*?|\d{1,2}\s(?:Jan|Feb|Mar|Apr|May|Jun|Jul|Aug|Sep|Oct|Nov|Dec)[a-z]*\s\d+')
print('df1['dates'])

我得到以下结果:

     dates
0    2/21/19
1    4/1/20
2    NaN

我曾尝试使用括号、重新阅读文档以及其他一些导致无休止错误的调整。我确定这是一个明显的错误，但我没有看到。有人可以帮忙吗？谢谢。

最佳答案

在 pandas 中使用 .extract() 时，您必须有一个捕获组。您在 OR 之前的捕获组 | 正在查找带斜线的日期。但是在 OR 之后，您只有一个非捕获组。

这里我在整个搜索模式周围放置了一个捕获，并且 OR 的每一侧也有一个非捕获组。

import pandas as pd

df = pd.DataFrame({'text': ['My birthday is 2/21/19', 
    'Your birthday is 4/1/20', 
    'my best friend\'s birthday is 24 Jan 2001.']})

df.text.str.extract(
    r'((:?\d+[/-]\d+[/-]?\d*)|' + 
    r'(:?\d{1,2}\s(:?Jan|Feb|Mar|Apr|May|Jun|Jul|Aug|Sep|Oct|Nov|Dec)[a-z]*\s\d+))', 
    expand=False)[0]

# returns:
0        2/21/19
1         4/1/20
2    24 Jan 2001

关于python - 如何对 Pandas RE .str.extract() 使用 RE OR 操作数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49254224/

24

4

0

文章推荐：使用动态 SQL ALTER USER 查询的 SQL 注入(inject)预防

文章推荐： android - 在 test.Jar 中启动 startActivity() ，Cordova 插件

文章推荐： python - 如何使用 R 按列将 .csv 拆分为多个 .csv？

python - TypeError from use of "|"in re.search ("RE"|"RE"|"RE", string)
根据文档，“|”可用于创建匹配任一由“|”分隔的模式的正则表达式。我正在尝试使用以下内容来查看 moves 是否包含与“UP”“DOWN”“LEFT”“RIGHT”之一匹配的字符串: moves =
python - re.match、re.search、re.fullmatch 之间的差异
这个问题在这里已经有了答案: What is the difference between re.search and re.match? (8 个回答) 1年前关闭。来自 regex docs它说
python - 组合重新标记 re.IGNORECASE、re.MULTILINE 和 re.DOTALL
谁能告诉我是否可以组合像 re.IGNORECASE 这样的标志, re.MULTILINE和 re.DOTALL正则表达式匹配？ r = re.compile(regex, re.IGNORECAS
python - re.DOTALL 适用于 re.match 但不适用于 re.sub？
这个问题在这里已经有了答案: Python re.sub with a flag does not replace all occurrences (3 个答案) 关闭 6 年前。为什么这符合预期
python RE "re,findall"
提前致谢。我的问题是: 我有一段 Python 代码，我在其中尝试使用“os.walk,re and re.findall ip”来尝试在多个文件中查找所有 ip 地址，例如: file1:192.1
python - re.findall 和 re.finditer 的区别——Python 2.7 re 模块中的错误？
在演示 Python 的正则表达式功能时，我编写了一个小程序来比较 re.search()、re.findall() 和 re 的返回值.finditer()。我知道 re.search() 每行只会
python - Python 2.7.1 的 re 模块中 re.split 函数和 re.DOTALL 标志的错误
我有一台运行 Lion 和 Python 2.7.1 的 Mac。我注意到 re 模块中有一些非常奇怪的东西。如果我运行以下行: print re.split(r'\s*,\s*', 'a, b,\n
python - 为什么 re.search(r'(ab* )',' aaAaABBbbb',re.I) 在 python 中给出结果 'a' 而不是 'ABBbbb' 尽管使用了 're.I'？
在 python 中，re.search() 检查字符串中任何位置的匹配项(这是 Perl 默认执行的操作)。那么，为什么我们不像在 Ex(2) 中那样在 Ex(1) 中得到 'ABBbbb' 的输
Python re.sub、re.split 无法分割长段落中的单词
我正在尝试从存储在光盘上的 HTML 文档中创建单词列表。当我尝试拆分单词并将它们添加到我的单词向量中时，我最终陷入了困惑。 def get_word_vector(self): line =
python re.compile() 和 re.findall()
所以我尝试只打印月份，当我使用时: regex = r'([a-z]+) \d+' re.findall(regex, 'june 15') 它打印:六月但是当我尝试对这样的列表执行相同操作时: re
python - re{ n,} 和 re{ n, }
我正在学习 Python 的正则表达式。下面有两个略有不同的 re.search() 函数。唯一的区别是我在'}'之前添加了一个空格。任何人都可以解释导致结果差异的原因吗？谢谢! 我的代码: impo
Python re.sub 的行为不同于 re.findall
我被难住了。我正在编写 Python 3.6.2，使用 PyCharm 作为我的 IDE。以下脚本片段说明了我的问题: def dosubst(m): return m.group() + "
Python re.search() 和 re.findall()
这个问题在这里已经有了答案: Python re.search (2 个答案) 关闭 9 年前。我正在尝试从 Hackerrank 的问题中解决这个问题。这是一个机器学习问题。最初，我试图从语料库
python re.findall 与 re.sub
请解释一下为什么使用 re.find 和 re.sub 会得到不同的结果我解析的字符串: GRANT USAGE ON *.* TO 'testuser'@'10.10.10.10' IDENTIF
python - re.match 与 re.findall
为什么re.match返回的是None对象，而类似的re.findall返回的是非空结果？我正在解析电子邮件主题。有问题的是 subject = "=?UTF-8?B?0JLQsNGI0LUg0YH
Python:re.compile 和 re.sub
问题第 1 部分我得到了这个文件 f1: George Washington Joe Taylor 我想重新编译它，它看起来像这样 f1:(带空格) George Washington Joe
python 正则表达式 re.sub & re.subn
python正则表达式模块简介 Python 自1.5版本起增加了re 模块，它提供 Perl 风格的正则表达式模式。Python 1.5之前版本则是通过 regex 模块提供 Emacs 风格的
python - re.sub 和 re.findall 之间的区别
我的字符串看起来像“Billboard Bill SpA”。我想要一个删除 SpA 的正则表达式，但前提是它前面有一个大写单词。我使用的正则表达式是“[A-Z][a-z]*\s(SpA)”。如果我使用
python - re.findall 给出的结果与具有相同模式的 re.search 不同
我有一个 str，我想获取单引号内的子字符串 ('): line = "This is a 'car' which has a 'person' in it!" 所以我用了: name = re.fi
python - re.DOTALL 和 re.MULTILINE 有什么区别？
这个问题在这里已经有了答案: Difference between regular expression modifiers (or flags) 'm' and 's'? (3 个答案) Pyth

首页

博学

6Ren·AI

商城

python - 如何对 Pandas RE .str.extract() 使用 RE OR 操作数