- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在使用 wordnet 来计算两个单词之间的相似度测量。我正在使用 edu.mit.jwi_2.1.4.jar
和 edu.sussex.nlp.jws.beta.11.jar
但是当我计算单词“apple”时而“香蕉”,通过雷斯尼克测量,是8,4。为什么大于1?
public class test {
String dir = "C:/Program Files (x86)/WordNet";
JWS ws = new JWS(dir,"2.1");
/**
* @param args
*/
public void testResnikSimilarity() {
Resnik jcn = ws.getResnik();
System.out.println("Resnik");
// all senses
TreeMap scores1 = jcn.res("apple", "banana", "n"); // all senses
//TreeMap scores1 = jcn.jcn("apple", 1, "banana", "n");
// fixed;all
//TreeMap scores1 = jcn.jcn("apple", "banana", 2, "n");
// all;fixed
for(String s : scores1.keySet())
System.out.println(s + "\t" + scores1.get(s));
// specific senses
System.out.println("\nspecific pair\t=\t" + jcn.res("apple", 1, "banana",
1, "n") + "\n");
// max.
System.out.println("\nhighest score\t=\t" + jcn.max("apple", "banana",
"n") + "\n\n\n");
}
}
最佳答案
Resnik Similarity: Return a score denoting how similar two word senses are, based on the Information Content (IC) of the Least Common Subsumer (most specific ancestor node). Note that for any similarity measure that uses information content, the result is dependent on the corpus used to generate the information content and the specifics of how the information content was created.
我不知道如何设置JWS中的信息内容。在 NLTK 中,您可以使用来自 Brown Corpus 和 BNC 的数据执行以下操作:
ic = wordnet_ic.ic('ic-brown.dat')
banana.res_similarity(apple, ic=ic)
>>> 8.1703339116227411
ic = wordnet_ic.ic('ic-bnc.dat')
banana.res_similarity(apple, ic=ic)
>>> 7.9753635531935334
另请参阅 paper了解详情。
关于java - 使用 wordnet 进行相似度测量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12967153/
我正在尝试为 WOLF(Wordnet Libre du Français,免费法语 Wordnet)创建一个界面。目标是为阿拉伯语 Wordnet (http://www.talp.upc.edu/
我正在尝试将 Wordnet 3.0 同义词集映射到 Wordnet 3.1例如:purl.org/vocabularies/princeton/wn30/synset-embrace-verb-2
虽然我拥有 EE 背景,但我没有机会参加自然语言处理类(class)。 我想为土耳其语构建情感分析工具。我认为最好创建一个土耳其语 wordnet 数据库,而不是将文本翻译成英语,然后使用提供的工具用
我对 WordNet 数据文件格式有疑问。 wndb(5) 手册页部分内容如下: The source/target field distinguishes lexical and semantic
一些相似度得分介于 0 和 1 之间,例如最短路径和 WuP。因此汽车与汽车之间的相似度将为 1,但 LCh 等其他度量将为 lch( car, automobile ) = 3.6889 我想知道这
是否有可用于 wordnet 3.0 同义词集到其他本体的映射,如 Cyc , YAGO和 EuroWordNet喜欢SUMO ? 最佳答案 Yago 是 linked to Wordnet , 以及
我正在尝试在 OSX 10.8 的 Mac 上安装 Wordnet 3.0。 我已经配置好了,但是当我尝试 make 时, 我收到一堆错误... ..... /usr/include/tkDecls.
想了解WordNet的文件格式,主要文档是WNDB和 WNINPUT .正如我在 WNDB 中所了解的,有名为 index.something 的文件和 data.something ,这里somet
如何使用 wordnet 按单词类别标记文本(java 作为接口(interface))? 示例 考虑以下句子: 1) 计算机需要键盘、显示器、CPU 才能工作。 2)汽车使用齿轮和离合器。 现在我的
我在java中使用wordnet,使用一些已知的api(JAWS、JWNL)。我想使用相同类型的 API 在 Wordnet Affect (WNA) 中进行搜索,但 Internet 上没有关于 W
我正在使用 WordNet 2.1 工具 并通过 JAWSpro-grammatically 访问它(Java用于 WordNet 搜索的 API)。 今天我遇到了一个名为 WordNet 域 的新事
我一直在分析 WordNet 3.0 MySql 数据库文件,我从以下位置下载了这些文件: http://www.princeton.edu/wordnet/download/current-vers
我正在尝试用 python 编写一个程序,它将记录我输入的段落。它将对该段落的第一句和最后一句以及带有日期和数字的句子进行排序。然后它会用同义词替换一些单词,并去掉无用的形容词。我知道 python
因此,我第一次尝试使用 wordnet 为我正在开发的基于小型文本的冒险游戏项目构建文本识别脚本。现在,我有这段代码来尝试构建一个对象,该对象由每个单词作为键以及该单词的每个同义词作为附加到该键的数组
我正在尝试编写一个程序来查找两个文档之间的相似性,并且由于我只使用英语,所以我决定使用 wordnet,但是我找不到将 wordnet 与 php 链接的方法,我找不到任何 wordnet api P
我用了rita使用 Java 框架 WordNet .它工作正常,但我如何在 android 中使用它?是否有任何框架/API 可以从 android 访问 WordNet? JAWS 要求安装 Wo
我一直在寻找一些 Java 库,它可以提供有关同义词集“频率计数”的信息。我检查了 JWNL 和 JWI,他们不提供此类信息。有人知道其他 Java WordNet API 吗? 最佳答案 我相信这也
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。 要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的,因为
我有一个项目,我需要获得一个单词的词汇含义。我正在考虑使用 WordNet,因为它有自己的词典编纂者类,也称为超感官。我刚刚下载了 MIT JWI 并试图查看这个 JWI 是否支持它。该手册没有说明返
假设我有两个句子中每对单词的单词相似度分数,根据这些分数确定整体句子相似度的合适方法是什么? 单词分数是使用代表每个单词的向量的余弦相似度计算的。 既然我有了单词得分,那么把单词得分加起来除以两个句子
我是一名优秀的程序员,十分优秀!