- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我是 NLP 的初学者。我正在为我的 NLP 项目使用 spaCy python 库。这是我的要求,
我有一个包含所有国家/地区名称的 JSON 文件。现在我需要解析并获取文档中每个国家/地区的金牌数量。鉴于在例句下方,
"Czech Republic won 5 gold medals at olympics. Slovakia won 0 medals olympics"
我可以获取国家名称,但不能获取奖牌数。在我的代码下面给出。请帮助进一步进行。
import json
from spacy.lang.en import English
from spacy.matcher import PhraseMatcher
with open("C:\Python36\srclcl\countries.json") as f:
COUNTRIES = json.loads(f.read())
nlp = English()
nlp.add_pipe(nlp.create_pipe('sentencizer'))
doc = nlp("Czech Republic won 5 gold medals at olympics. Slovakia won 0 medals olympics")
matcher = PhraseMatcher(nlp.vocab)
patterns = list(nlp.pipe(COUNTRIES))
matcher.add("COUNTRY", None, *patterns)
for sent in doc.sents:
subdoc = nlp(sent.text)
matches = matcher(subdoc)
print (sent.text)
for match_id, start, end in matches:
print(subdoc[start:end].text)
此外,如果给定的文本是 ,
"Czech Republic won 5 gold medals at olympics in 1995. Slovakia won 0 medals olympics"
最佳答案
Spacy 提供 Rule-based matching你可以使用。
它们可以按如下方式使用:
import spacy
from spacy.pipeline import EntityRuler
nlp = spacy.load('en_core_web_sm', disable=["ner", "parser"])
countries = ['Czech Republic', 'Slovakia']
ruler = EntityRuler(nlp)
for a in countries:
ruler.add_patterns([{"label": "country", "pattern": a}])
nlp.add_pipe(ruler)
doc = nlp("Czech Republic won 5 gold medals at olympics. Slovakia won 0 medals olympics")
with doc.retokenize() as retokenizer:
for ent in doc.ents:
retokenizer.merge(doc[ent.start:ent.end])
from spacy.matcher import Matcher
matcher = Matcher(nlp.vocab)
pattern =[{'ENT_TYPE': 'country'}, {'lower': 'won'},{"IS_DIGIT": True}]
matcher.add('medal', None, pattern)
matches = matcher(doc)
for match_id, start, end in matches:
span = doc[start:end]
print(span)
输出:
Czech Republic won 5
Slovakia won 0
上面的代码应该可以帮助您入门。自然地,您将不得不编写自己的更复杂的规则,以便您可以处理以下情况:“捷克共和国在 1995 年的奥运会上毫不意外地获得了 5 枚金牌。”以及其他更复杂的句子结构。
关于python - spaCy NLP 自定义规则匹配器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57479028/
我是一名优秀的程序员,十分优秀!