gpt4 book ai didi

python - 匹配文本中存储的关键字/短语

转载 作者:行者123 更新时间:2023-11-30 21:22:57 27 4
gpt4 key购买 nike

我有一个包含大约 1000 个关键字/短语(一到四个字长)的数据库表 - 这个表很少更改,所以我可以将数据提取到更有用的东西中(比如正则表达式?) - 所以这没有找到/基于自然语言处理猜测关键词..

然后,我让用户将一些文本输入到我希望与我的关键字和词组匹配的表单中。

然后该程序会存储指向文本旁边匹配的每个短语的链接。

因此,如果我们针对此处的几个短语在此问题文本上运行算法,我们将得到如下结果:

{"inputting some text" : 1,
"extract the data" : 1,
"a phrase not here" : 0}

我有哪些选择?

  1. 编译一个正则表达式
  2. 某种SQL查询
  3. 第三种方式?

记住有 1000 个可能的短语..

我正在使用 MySQL 运行 Django/Python。

编辑:我目前正在这样做:

>>> text_input = "This is something with first phrase in and third phrase" 
>>> regex = "first phrase|second phrase|third phrase"
>>> p = re.compile(regex, re.I)
>>> p.findall(text_input)
['first phrase','third phrase']

最佳答案

这个作业的算法是Aho-Corasick ...请参阅底部的链接,该链接指向 Python 的 C 扩展。

关于python - 匹配文本中存储的关键字/短语,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1846833/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com