gpt4 book ai didi

python - NER 标记器的替代品用于长的、异构的短语?

转载 作者:行者123 更新时间:2023-12-05 09:35:12 26 4
gpt4 key购买 nike

我正在寻找关于以下问题的想法/想法:

我正在处理食品成分数据,例如:牛奶、糖、鸡蛋、面粉,可能含有坚果

我希望能够从这样的文本中识别和提取像可能包含坚果这样的短语,以分别对其进行预处理

这类短语在长度和内容方面可以有很大的变化。我想过使用 NER 标注器,但我不知道它们是否能正确完成这项工作,因为它们主要用于识别单词实体...

关于将什么用作短语实体识别系统有什么想法吗?还有你会使用哪个包?干杯

最佳答案

IMHO NER(或一般的基于模型的实体提取)本身对于这个特定问题来说是一个糟糕的方法选择,因为它需要大量的手动注释才能正确完成。相反,我建议使用 Word2Vec ( https://radimrehurek.com/gensim/models/word2vec.html ) 和措辞 ( https://radimrehurek.com/gensim/models/phrases.html )。

我们的想法是建立一个包含短语及其相似性的无监督模型,然后可以使用一些种子词查询这些短语以列出所有可能的成分(例如“猫”产生类似的词,如“狗”或“老鼠”)。下一步是创建包含成分词和短语的词典,或者尝试使用每个词/短语对之间的余弦相似度对模型的词汇表进行聚类。

现在,如果您想更进一步,您始终可以将创建的词典/集群与训练 W2V 模型的语料库进行匹配,然后使用这些匹配训练自定义实体识别模型,因为您现在已经有了带注释的示例。

关于python - NER 标记器的替代品用于长的、异构的短语?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66024941/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com