gpt4 book ai didi

search - 同义词样式文本查找和解析

转载 作者:行者123 更新时间:2023-12-05 00:08:53 25 4
gpt4 key购买 nike

我们有一个客户正在寻找一种方法来导入和分类大量文本数据。必须对这些数据进行分类,并且建议最简单的方法是查看描述字段并尝试匹配其中包含的单词,以查看是否可以为该特定记录派生类别。

人们认为做到这一点的最佳方法是将单词与针对每个类别的关键词进行匹配,如果不成功,则使用某种同义词查找以查看是否可以使用它。因此,例如,如果特定记录中包含单词“automobile”,则同义词查找可以将该单词与单词“car”匹配,该单词将与类别“vehicle”相对应。

有谁知道网络服务或其他查找字典以查找特定单词的同义词的方法?项目经理建议为此购买 Google Enterprise Search 许可证,但据我所知,这并不能提供这些人正在寻找的东西。

任何其他让客户得到他们正在寻找的东西的建议都将被感激地接受。

谢谢!我将研究 Wordnet。

你知道那里有任何其他类型的文本分类软件产品吗?我看到有一些关于使用 Bayasian 算法的讨论,但我看不到任何真实世界的例子。

最佳答案

首先想到的是Wordnet . Wordnet 是一个人工生成的单词和相关单词数据库,包括同义词。 The Wikipedia Wordnet entry列出了 Wordnet 的几个接口(interface)。我相信其中一些是网络服务。
您也可以自己滚动。 Manning and Schutze's chapter 5 (free PDF)显示了执行此操作的方法。

话虽如此,您是否解决了正确的问题?您如何构建类别列表?
是等级制度吗?标签云?见 Clay Shirky's Ontology is Overrated对等级类别的批评。我认为,如果您将分类基于单词集(例如朴素贝叶斯)而不是单个单词,那么同义词就不那么重要了。

关于search - 同义词样式文本查找和解析,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1067752/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com