当搜索到的词在定义的表达式中时，python 绕过 re.finditer 匹配-6ren

当搜索到的词在定义的表达式中时，python 绕过 re.finditer 匹配

转载作者：行者123 更新时间：2023-12-04 15:08:02

24

4

我有一个要在文本中查找的单词列表 (find_list) 和一个包含那些我想在文本中绕过的单词的表达式列表 (scape_list)。

我可以使用这段代码找到文本中的所有单词:

find_list = ['name', 'small']
scape_list = ['small software', 'company name']

text = "My name is Klaus and my middle name is Smith. I work for a small company. The company name is Small Software. Small Software sells Software Name."

final_list = []

for word in find_list:
    
    s = r'\W{}\W'.format(word)
    matches = re.finditer(s, text, (re.MULTILINE | re.IGNORECASE))

    for word_ in matches:
        final_list.append(word_.group(0))

最终名单是:

['name', 'name', 'name', 'Name.', 'small', 'Small', 'Small']

有没有办法绕过 scape_list 中列出的表达式并获得像这样的 final_list:

['name', 'name', 'name.', 'small']

final_list 和 scape_list 一直在更新。所以我认为正则表达式是一个很好的方法。

最佳答案

您可以使用正则表达式捕获 find_list 单词前后的单词，并检查这两个组合是否不存在于 scape_list 中。我在更改代码的地方添加了注释。 (最好将 scape_list 更改为 set，如果它将来会变大的话)

find_list = ['name', 'small']
scape_list = ['small software', 'company name']

text = "My name is Klaus and my middle name is Smith. I work for a small company. The company name is Small Software. Small Software sells Software Name."

final_list = []

for word in find_list:
    
    s = r'(\w*\W)({})(\W\w*)'.format(word) # change the regex to capture adjacent words
    matches = re.finditer(s, text, (re.MULTILINE | re.IGNORECASE))

    for word_ in matches:
        if ((word_.group(1) + word_.group(2)).strip().lower() not in scape_list
            and (word_.group(2) + word_.group(3)).strip().lower() not in scape_list): # added this condition
            final_list.append(word_.group(2)) # changed here

final_list
['name', 'name', 'Name', 'small']

关于当搜索到的词在定义的表达式中时，python 绕过 re.finditer 匹配，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/65724901/

24

4

0

文章推荐： aws-lambda - 部署为 Docker 镜像时如何运行多个 lambda 函数？

文章推荐： twitter-bootstrap - 定制的 Bootstrap 和 CDN

文章推荐： stored-procedures - SQL Server的存储过程的隔离级别？

文章推荐： kubernetes - 同一集群中 Kubernetes pod 之间的连接被拒绝

Lua __metatable 绕过？
我想知道是否有任何方法可以逃避 __metatable 元方法。我知道没有，但我正在尝试做这样的事情，但显然 __metatable 阻止了这种情况的发生: -- pretend that t
java - 绕过 do while 循环
我想知道如果满足某些条件，是否可以跳过 do while 循环，甚至中途退出方法？这是我的意思的一个例子(一切正常) public void loanBook() { Sc
javascript - 绕过 stopPropagation()
曾几何时，一位前端开发人员有一些菜单，当有人在页面上的任何位置单击菜单之外时，他想要关闭一些菜单，因此他使用了一些 if 和提到的方法来处理他的工作。当然，后来这又让他痛不欲生，因为在上述菜单中进行的
c - 绕过 softlockup_threshold
我开发了一个内核模块，它完成了繁重的工作，当然需要时间。问题是模块使用 CPU 超过 20 秒，并且结果引发了softlockup_threshold的BUG。我的问题是，有什么办法可以绕过这个吗？
java - 绕过 if 语句中的相似变量重复
我相信我对避免代码重复这个长期存在的问题提出了一个略有不同的看法。设置相当标准——一堆 if 语句执行类似的操作。下面是一个简短示例。我正在尝试从代码效率、紧凑性和程序员易用性方面找出解决此类情况的
php - 绕过 max_execution_time？
我的服务器上有 10 秒，这对我想要做的事情来说还不够。它也被网络托管商禁用了。如果在执行了一定时间后，我执行了一个单独的 PHP 页面，这算在同一时间还是在该页面上重新开始？还有别的办法吗？最
c++ - 绕过 DrawText
我已经下载并编译了 Microsoft 迂回库。在我的项目中，我包含了头文件并添加了 .lib 文件作为依赖项。一切都编译无误。现在我一直在尝试绕过 DrawText，但由于某种原因根本没有调用绕过的
java - 绕过 Mockito 中的静态方法
我正在使用 Mockito 编写一个 JUnit 测试用例，我试图绕过我的测试方法中的静态方法调用。运行测试用例时出现 NullPointerException。是否有任何方法可以在不使用 Powe
vba - 绕过 Workbook_SheetChange 事件
我不知道为什么，这很奇怪，但是我的代码在循环。实际上，在第一张表 (ws1) 中，我正在 Worksheet_Change 上执行此操作事件 : Application.EnableEvents =
ubuntu - 绕过 dockerfile 中的安装配置
我正在尝试在 Ubuntu Docker 容器上安装 icinga2-ido-pgsql。我的数据库在一个单独的容器中。要安装它，我运行 RUN apt-get install -q -y ici
axapta - 绕过 AOT 查询中的有效时间状态
我在 Dynamics AX 2012 中有一个 AOT 查询，它由 HcmWorker 和 HcmEmployment 表(等等)组成。我的问题是，当我创建报告(不是 SSRS)或以其他方式使用此查
reactjs - 绕过 Flow 中的几行
我需要通过cdn将SDK集成到我的next.js项目中所以我需要把 ' />进入我的代码。然后运行 window.sdk = new PrivateSDK()和 window.sdk.someFu
java - 绕过 Java 错误
有没有办法可以绕过 Java 中的错误消息？如果我得到一个错误，但没有可行的方法来改变我的程序怎么办？如果我怀疑我可能会从代码块中得到错误，但我不知道它何时或是否会发生，该怎么办？有很多次我不得不让
javascript - 绕过 Safari 中的弹出窗口拦截器
我有以下 HTML Facebook 我有一个 onclick 事件处理程序，当单击上面的链接时，会调用 window.open。这在 Chrome 中有效，但在 Safari 中无效。如何让它在 S
javascript - 绕过 Javascript 表单处理程序
我们正在编写一个 ASP.NET MVC 应用程序。默认情况下，如果客户端浏览器具有 Javascript，页面上每个表单的处理程序都会由 Javascript 设置为将提交内容发送到 Ajax“管道
cloudflare - 绕过 Cloudflare 的上传最大值
我正在使用 Cloudflare 来加速我的网站，它非常适合。不幸的是，我的一些用户需要将大于 Cloudflare 允许的最大值(即 300MB 大小)的视频上传到我的网站。有什么方法可以告诉 Cl
clojure - 绕过 Compojure 中的链的自定义中间件
我正在尝试编写一个自定义中间件，通过检查请求中是否存在 :user key 来检查用户是否经过身份验证。 (defn wrap-authenticated [handler] (fn [{user
c++ - 无需源代码即可调试/绕过 BSOD
你好，祝你有美好的一天。这里需要一些帮助: 情况: 我有一个不起眼的 DirectX 9 应用程序(名称和应用程序详细信息与问题无关)，自某些驱动程序版本以来，它会导致所有 nvidia 卡(GeF
.net - 绕过 WPF 渲染瓶颈
我喜欢制作高效的应用程序，并且经常寻求并发和多线程来提高应用程序响应能力等，但最近我的尝试似乎总是被 WPF 的单线程性所阻碍。无论我的代码多么高效和并行，WPF 似乎都会不断地拖延我的 UI，并使我
cloudflare - 绕过 Cloudflare 的上传最大值
我正在使用 Cloudflare 来加速我的网站，它非常适合。不幸的是，我的一些用户需要将大于 Cloudflare 允许的最大值(即 300MB 大小)的视频上传到我的网站。有什么方法可以告诉 Cl

首页

博学

6Ren·AI

商城

当搜索到的词在定义的表达式中时，python 绕过 re.finditer 匹配