gpt4 book ai didi

javascript - 避免在通过 AutoTag(文本标记算法)生成的数组中使用同义词

转载 作者:行者123 更新时间:2023-12-01 00:36:13 26 4
gpt4 key购买 nike

我一直在从事文本分析任务。我应该在其中识别段落中使用最多的单词。

我正在使用算法 - npm 包来达到目的。这为我提供了文本中重复次数最多的单词。

该包工作得很好,但我仍然有两个问题:

(1) 我得到了如下所示的标签数组:

['集成'、'集成'、'策略'、'对话'、'演示'、'测试']

这里,“整合”和“整合”具有相同的含义。我想避免在这里“集成”。

(2) 该过程使用重复次数最多的单词来识别标签。我的输入段落中有“定价”、“成本”、“付款”等词语,但由于它不完全匹配,所以我没有得到“成本”或类似标签。

改进其中任何一个逻辑都会帮助我完成任务。

<小时/>

我已经尝试过很多同义词、名词、动词等库。但似乎没有成功。让我们提一下我已经尝试过的软件包:

同义词库

句子相似度

字符串相似度

妥协

词网

Node 雪球

数据缪斯

<小时/>

我还尝试设置阈值并匹配“集成”和“集成”一词,它确实删除了“集成”标签,但也影响了我需要存在的一些其他标签。

<小时/>

提前致谢

最佳答案

您的问题在于自然语言理解的深处。您不仅要处理“查找”相似的单词,还要处理这些单词下面的概念。

就您而言,“集成”和“集成”根本不相似。它们甚至不是同义词。一个是动词,另一个是名词,一个是 Action ,另一个是情况。

他们所做的是共享一个共同的语义根源 -> 将事物整合在一起的想法,整体

(到目前为止)还没有可用的工具来执行此操作。您可以混合使用多种工具。

您提到了 Wordnet 并说它不起作用。但是,这可能是解决您的问题的最佳选择。 Wordnet 自己的解释显示了它在您的情况下如何有用:

“[在 WordNet 中,]名词、动词、形容词和副词被分为一组认知同义词 (synsets),每个同义词集表达一个不同的概念。同义词集通过概念语义和词汇关系相互关联。” 而且 “WordNet 表面上类似于同义词库,因为它根据单词的含义将单词组合在一起。但是,有一些重要的区别。首先,WordNet 不仅链接单词形式- 字母串 - 但单词的特定含义。因此,在网络中发现的彼此非常接近的单词在语义上消除了歧义。” - WordNet Official Website

通过 wordnet,您可以找到真正的同义词并将它们分组在一起(例如“定价”和“成本” - “付款”是另一个完整的故事......)。

现在,关于您原来的“集成”和“集成”,如果您确实想将它们组合在一起,请添加另一个启发式方法,该启发式方法使用词干分析器根据词干将单词打包在一起(不能保证 100% 有效,因为它取决于词干分析器规则)。

关于javascript - 避免在通过 AutoTag(文本标记算法)生成的数组中使用同义词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58115843/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com