gpt4 book ai didi

python - spacy 通过正则表达式或模式添加特殊情况标记化规则

转载 作者:行者123 更新时间:2023-11-28 20:02:54 24 4
gpt4 key购买 nike

我想根据 documentation 在 spacy 中添加标记化的特殊情况.该文档显示了如何将特定单词视为特殊情况。我希望能够指定一个模式(例如后缀)。比如我有这样一个字符串

text = "A sample string with <word-1> and <word-2>"

哪里<word-i>指定一个单词。

我知道我可以通过以下代码一次针对一种特殊情况使用它。但是我怎样才能为它指定一个模式呢?

import spacy
from spacy.symbols import ORTH
nlp = spacy.load('en', vectors=False,parser=False, entity=False)
nlp.tokenizer.add_special_case(u'<WORD>', [{ORTH: u'<WORD>'}])

最佳答案

您可以使用正则表达式匹配来查找特殊大小写字符串的边界,然后使用 spacy's merge method将它们合并为单个标记。add_special_case 仅适用于定义的词。这是一个例子:

>>> import spacy
>>> import re
>>> nlp = spacy.load('en')
>>> my_str = u'Tweet hashtags #MyHashOne #MyHashTwo'
>>> parsed = nlp(my_str)
>>> [(x.text,x.pos_) for x in parsed]
[(u'Tweet', u'PROPN'), (u'hashtags', u'NOUN'), (u'#', u'NOUN'), (u'MyHashOne', u'NOUN'), (u'#', u'NOUN'), (u'MyHashTwo', u'PROPN')]
>>> indexes = [m.span() for m in re.finditer('#\w+',my_str,flags=re.IGNORECASE)]
>>> indexes
[(15, 25), (26, 36)]
>>> for start,end in indexes:
... parsed.merge(start_idx=start,end_idx=end)
...
#MyHashOne
#MyHashTwo
>>> [(x.text,x.pos_) for x in parsed]
[(u'Tweet', u'PROPN'), (u'hashtags', u'NOUN'), (u'#MyHashOne', u'NOUN'), (u'#MyHashTwo', u'PROPN')]
>>>

关于python - spacy 通过正则表达式或模式添加特殊情况标记化规则,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44594759/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com