gpt4 book ai didi

language-agnostic - 项目与领域知识匹配

转载 作者:行者123 更新时间:2023-12-04 07:44:02 25 4
gpt4 key购买 nike

我有各种产品项目,我需要确定它们是否相同。一个简单的例子:

带中键的 Microsoft RS400 鼠标 应该匹配 Microsoft Red Style 400 三键鼠标 但不是 Microsoft Red Style 500 鼠标

除了名字之外,没有什么好匹配的了,光靠匹配词的比例来匹配是不够的(错误率太高了)

我确实知道域,所以我可以(例如)手写一个事实,即三键鼠标可能与带有中间按钮的鼠标相同。我也知道制造商(或者可以很好地猜测他们)。

到目前为止我唯一的想法是通过尝试使用手写规则来减少字符串的大小然后检查匹配的单词来匹配它们,但我想知道是否有人有任何想法进行这种匹配的最佳方法是具有更好的准确性和精确度(或从哪里开始寻找),是否有人知道在该领域所做的任何工作? (论文、示例等)。

最佳答案

"I do know about the domain..."

您对域确切了解多少?如果您对域了如指掌,那么最好为所有制造商的产品建立索引(基本上是制造商网页上的产品描述)。然后,与其尝试将您的描述相互匹配,不如将它们与您的产品索引相匹配。

这种方法的优点:

  • 大概产品描述中使用的所有词都已在宣传资料的某处使用过
  • 如果在构建索引时您能够对某些信息(例如产品代码)进行加权,那么您可能会取得更大的成功

缺点:

  • 创建索引可能需要很长时间(尤其是手动完成时)

如果您对您的域不是很了解,那么您可能会考虑降低非常常见的词的排名(您可以从互联网上获得常用词的列表),并提高不常见的数字和词的排名在字典中(您可以从互联网上获取单词列表/大多数 linux/unix 发行版都带有它们用于拼写检查)。


我不知道您对搜索了解多少,但过去我发现 W. Bruce Croft、Donald Metzler 和 Trevor Strohman 所著的“搜索引擎:实践中的信息检索”一书很有用。出版商网站上有一些示例章节,可以告诉您这本书是否适合您:pearsonhighered.com

希望对您有所帮助。

关于language-agnostic - 项目与领域知识匹配,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11203556/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com