nlp - 如何在文本中搜索(可分离的)短语-6ren

nlp - 如何在文本中搜索(可分离的)短语

转载作者：行者123 更新时间：2023-12-03 23:59:07

25

4

我正在寻找一种在文本中搜索短语或惯用表达的方法，无论时态或可能的介词/副词如何，例如如果我正在寻找

call off

我还想找到

My boss called the meeting off.

之类的用法

这可能吗(使用 spacy)？如果是这样，我在寻找 NLP 的什么特性或能力？

最佳答案

是的，你可以用 spacy 来做到这一点:你需要一个依赖解析器来检测单词之间的关系，并使用 lemmatizer 来找到这些单词的正常形式。 spacy 两者都有。

依赖解析器显示词对之间的句法关系，如下所示:

import spacy
from spacy import displacy
nlp = spacy.load("en_core_web_sm")
doc = nlp('My boss called the meeting off.')
displacy.render(doc, style="dep", jupyter=True)

惯用表达倾向于由此类句法树的紧凑子树表示，其特征在于它们之间的特定关系。在不同的句子中，作为成语一部分的单词的确切形式和位置可能会有所不同，但它们之间的关系保持不变。

当我们搜索一个表达式时，我们实际上可以遍历文档中的所有单词，寻找一个具有范式“call”的词，该词具有一个连接的(“子”)词，该词具有依赖关系“prt”和范式“关闭”:

def detect_collocations(doc, parent_lemma, dep, child_lemma):
    """ Create a generator of all occurences of collocation in a document.
    The elements of generator are all pairs of tokens with lemmas `parent_lemma` and `child_lemma`
    and dependency of type `dep` between them that are found in a spacy document `doc`.
    """
    for token in doc:
        if token.lemma_ == parent_lemma:
            for child in token.children:
                if child.dep_ == dep and child.lemma_ == child_lemma:
                    yield token, child

result = list(detect_collocations(doc, 'call', 'prt', 'off'))
print(result)
# [(called, off)]

因为上面的函数返回成对的 spacy.Token 对象，你可以从中提取元数据，例如在文本中突出显示它们的位置:

positions = {t.idx for pair in result for t in pair}
for token in doc:
    print('_{}_'.format(token) if token.idx in positions else token, end=' ')
# My boss _called_ the meeting _off_ .

这里是 colab notebook你可以一起玩。

关于nlp - 如何在文本中搜索(可分离的)短语，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/64823090/

25

4

0

文章推荐： java - 如何使用 Java 获取注解名称

文章推荐： python - 将 pandas df 转换为嵌套字典

文章推荐： c - 为什么静态全局变量可以在其他文件中访问？

文章推荐： r - 如何将 "MMM DD,YYYY"转换为正确的日期格式？

jpa - 同一实体的多个表示正在合并、分离
我在尝试使用 jpa2.0 将包含持久实体和分离实体(新创建的实体)的实体列表更新到我的数据库中时遇到错误。我的实体包含在合并数据时出现错误(在标题中提到)的内部实体: Class supercla
java - 分离 JLayeredPane
我在分层 Pane 中有一组面板。我需要一个分隔符来将 sideBar 与 topBar 和 tabbedPanel 分开。我留了一个 10 像素的缓冲区来放置它。不幸的是，可能由于它是 JLayer
android - 分离 EditText
在我从数据库中读取的代码中，我还使用自定义适配器打印出每一行，该行中有一个 texttview、2 个按钮和一个 edittext。这一切都很好，但是当按下按钮时，edittext 会递增或递减，有没
java - 分离/逐出具有非持久化子对象的对象树
我有一个由 Hibernate 4.3.4 管理的实体，它有一个其他实体的一对多集合。在我的处理过程中，我必须分离父实体(将分离级联到子列表)。但是，当我向列表中添加一个尚未持久化的新项目并执行分离
javascript - 确保附加行始终是动态创建的行组成的表中的最后一行。。分离()
我想追加一行，该行应该是表格的最后一行。在我的代码中，它似乎在第一次动态添加行时起作用。但是当添加其他行时它不会成为最后一行。我总是希望“subtot”行成为最后一行，但是当我追加其他行时，它不
html - 分离 Div
我试图用它们之间的空格分隔这 2 个 div(请参见图 1)。问题是当我添加边距或填充时会发生这种情况(请参见图 2)。这是我的代码，请注意我没有使用 Bootstrap: .row { mar
c# - 如何检测远程参与者断开连接(分离)？
我的服务器包含一些 ServerActor。该 actor 接收 RegisterClient 消息并将 ActorRefs 添加到已注册客户端列表中。我还有多个客户端，每个客户端都包含 Clien
Clojure:分离 comp 和部分参数
假设我有一个需要两个参数的函数，并且参数的顺序会影响结果。是否可以将第一个参数传递给 partial 或 comp 函数，然后将另一个参数传递给它，如下所示: (defn bar [arg1 arg
clojure - 分离 map 的多个后代键？
如何搜索和分离多个后代键。例子: (def d {:foo 123 :bar { :baz 456 :bam { :w
scala - Slick:动态创建查询连接/分离
我正在尝试为 Slick 表创建一个类型安全的动态 DSL，但不确定如何实现这一点。用户可以通过以 form/json 格式发送过滤器来将过滤器发布到服务器，我需要使用所有这些来构建一个 Slick
Reactjs 分离 UI 和业务逻辑
我是新来的，我发现看到充满大量函数和变量初始化以及 UI 的组件时眼睛很痛。是否可以将它们分开？而不是默认设置，如下所示。如何将业务逻辑分离到另一个文件中？ function MyComponent
r - 传递一个字符 arg。分离
我试图通过将参数粘贴在一起来使用分离。这应该是一件容易的工作，但不适合我。当我想到使用 eval(parse()) 时，我知道是时候寻求帮助了通常，如果我加载一个包，我可以按如下方式分离它: det
clojure - 与 pred 分离
(dissoc :a m)允许我解除给定的键。但是，有没有办法使用谓词函数来分离 pred 为真的任何键？ (dissoc-with-pred pred? m) 所以给了一张 map - {:a 2
r - 分离 R 包以升级它的可靠过程是什么？
我编写了一个使用 devtools 来包含内部数据的包: devtools::use_data(.data, internal = T, overwrite = T) 我最近更改了该数据并重建了包。我
terminal - 运行脚本时 tmux 分离
所以我有一个脚本，我想在我的服务器上运行它而不会打扰我。所以我想我会在 tmux 窗口中运行服务器，然后 detach这样我就可以简单地 attach如果我想查看进度(此脚本需要数天才能运行)。但是
javascript - 分离 ThreeJS 模型和动画数据
ThreeJS中动画数据和模型数据是否可以解耦？这样就可以交换模型并保留动画？我认为这可能非常强大我知道如何在 ThreeJS 中做到这一点的方法是将每个动画一个接一个地打包在一个模型中，这似乎是
docker - 分离 Docker 文件和应用程序源文件以优化生产环境
我有一堆(Ruby)脚本存储在服务器上。到目前为止，我的团队通过打开一个启动脚本名称列表的访问器应用程序来使用它们，然后他们在工作文件夹中的文件上选择要在该实例中运行的脚本。脚本直接从服务器运行，因此
javascript - 分离 Javascript 函数
我想知道 javascript 如何包含在 jsp 中 - 我们是否可以在 .js 文件中放置 jsp 能够识别的任何代码，而不仅仅是 javascript 代码？我有一些常见的 JavaScrip
默认为后台运行的 Dockerfile 选项(分离)
您是否可以在 Dockerfile 中指定一个选项，默认使用它构建的容器以分离方式运行。这将导致与 -d 相同的结果: docker run -d 这样 docker run 默认情况下会分离运
Java:分离 JAR 版本
我正在为现有的 Java 程序开发 Java 插件。现有程序使用特定版本的 eclipse.uml2.*，我的插件也是如此。不幸的是，我的插件需要更新版本。为了运行该插件，我需要将其导出到 Jar

首页

博学

6Ren·AI

商城

nlp - 如何在文本中搜索(可分离的)短语