gpt4 book ai didi

machine-learning - 意义的层次

转载 作者:行者123 更新时间:2023-11-30 08:30:39 25 4
gpt4 key购买 nike

我正在寻找一种构建单词层次结构的方法。

背景:我是一名“业余”自然语言处理爱好者,目前我感兴趣的问题之一是从一组单词中确定单词语义的层次结构。

例如,如果我有一个包含其他人的“ super ”表示的集合,即

[cat, dog, monkey, animal, bird, ... ]

我有兴趣使用任何可以让我提取“动物”一词的技术,该词对于该集合中的其他单词具有最有意义和最准确的表示。

注意:它们的含义不同。猫!=狗!=猴子!=动物但是猫是动物的子集,狗是动物的子集。

我知道现在你们很多人都会告诉我使用 wordnet。好吧,我会尝试,但我实际上有兴趣做一个 WordNet 不适用的特定领域,因为:1) 大多数单词在 Wordnet 中找不到2)所有单词都是另一种语言;翻译是可能的,但效果有限。

另一个例子是:

[ noise reduction, focal length, flash, functionality, .. ]

所以功能包括该集中的所有内容。

我也尝试过抓取维基百科页面并在 td-idf 等上应用一些技术,但维基百科页面也没有真正做太多事情。

有人可以告诉我我的研究应该朝哪个方向发展吗? (我可以使用任何东西)

最佳答案

看起来您想使用类似 hypernym/hyponym relationships 的内容在 WordNet 中,但由于语言和领域特定的覆盖问题而没有实际使用 WordNet?也就是说,如果您具有特定于域的上位词关系,则只需查找包含列表中所有单词的最近父级或等于列表单词之一的最近节点即可获得“ super ”表示并包含所有其他人。

首先,我首先要指出,WordNet 实际上可用于许多世界主要语言,请参阅 Global WordNet 上的列表。 .

要获得域特定的上位关系,您可以使用 Snow 等人的 Learning syntactic patterns for automatic hypernym discovery 中介绍的技术。 。也就是说,您可以从一小部分种子上位词开始,然后使用它们来训练分类器以检测语料库中的上位词。然后,您可以对域中的数据运行此分类器,以构建域特定上位词对的列表。

关于machine-learning - 意义的层次,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2509631/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com