gpt4 book ai didi

spacy - 将 SpaCy PhraseMatcher 保存到磁盘

转载 作者:行者123 更新时间:2023-12-05 03:56:13 27 4
gpt4 key购买 nike

我正在像这样使用 SpaCy 创建一个短语匹配器:

import spacy
from spacy.matcher import PhraseMatcher

nlp = spacy.load("en")
label = "SKILL"
print("Creating the matcher...")

start = time.time()
matcher = PhraseMatcher(nlp.vocab)
for i in list_skills:
matcher.add(label, None, nlp(i))

我的list_skills很大,所以matcher的创建时间很长,我经常复用。有没有办法将匹配器保存到磁盘,并在以后重新加载它而不必每次都重新创建它?

最佳答案

您最初可以通过使用 nlp.tokenizer.pipe() 来处理您的文本来节省一些时间:

for doc in nlp.tokenizer.pipe(list_skills):
matcher.add(label, None, doc)

这只是标记化,这比运行完整的 en 管道要快得多。如果您将某些 attr 设置与 PhraseMatcher 一起使用,您可能需要 nlp.pipe() 代替,但如果这样做,您应该会收到错误消息是这样的。

您可以 pickle PhraseMatcher 以将其保存到磁盘。 Unpickling 不是非常快,因为它必须重建一些内部数据结构,但它应该比从头开始创建 PhraseMatcher 快很多。

关于spacy - 将 SpaCy PhraseMatcher 保存到磁盘,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59609202/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com