- mongodb - 在 MongoDB mapreduce 中,如何展平值对象?
- javascript - 对象传播与 Object.assign
- html - 输入类型 ="submit"Vs 按钮标签它们可以互换吗?
- sql - 使用 MongoDB 而不是 MS SQL Server 的优缺点
我正在尝试启动并运行一个简单的同义词数据库,以便我可以找到用户输入的单词的同义词(没有别的!)。为此,我获取了 Wordnet sql 词库 ( http://wnsql.sourceforge.net/ ) 的副本,但现在我看到了所有这些表格,但我无法在任何地方找到对其内容的任何简单解释:
adjpositions
adjpositiontypes
casedwords
lexdomains
lexlinks
linktypes
morphmaps
morphs
postypes
samples
semlinks
senses
synsets
vframemaps
vframes
vframesentencemaps
vframesentences
words
最佳答案
WordNet 是一个 super 酷的词数据库。我自己一直在研究。我将在下面列出我的发现 - 希望它能帮助您更好地理解这些表格。
同义词表
Synsets 表是数据库中最重要的表之一。它负责容纳 WordNet 中的所有定义。 synset 表中的每一行都有一个 synsetid、一个定义、一个 pos(词性字段)和一个 lexdomainid(链接到 lexdomain 表)
WordNet 数据库中有 117373 个同义词集。
单词表
WordNet 也有一个“words”表,它只有两个字段:wordid 和“lemma”。词表负责容纳 Wordnet 数据库中的所有引理(基本词)。
此表中有 146625 个条目
那么..这两个表是如何链接的?答案?感觉表!
感应表
意义表负责将单词(在单词表中)与定义(在同义词表中)链接在一起。
词义表中的条目被称为“词义对”——因为 wordid 与同义词集的每个配对都是词的一个完整含义——“词义”。
WordNet 数据库中共有 206,354 个词义。
Lexdomains 表
Lexdomains 表由词义表引用,用于定义词义对所属的词法域。 lexdomains 表中有 45 个词法域。
因此,词法域表是 WordNet 的“标记”词义对的方式。然而,它是非常有限的,因为一个词义对只能属于一个词法域。
45 个词汇域包括:
形容词:
全部,佩特
副词
全部
名词
上衣、行为、动物、工件、属性、 body 、认知、通信、事件、感觉、食物、组、位置、动机、对象、人、现象、植物、拥有、过程、数量、链接定义、形状、状态、物质,时间,
动词
body 、变化、认知、交流、竞争、消费、接触、创造、情感、运动、感知、占有、社会、静态、天气、人
词表
单词表中的一些单词自然首字母大写,例如:“A-team”。由于 words 表将所有单词存储为小写,因此 WordNet 使用此表来指定单词的大写版本。
此表中有 40313 个条目。
WordNet DB 中还有很多其他的表,等我研究好之后再发。
查找同义词
要回答有关同义词的问题 - 您需要执行以下操作。
假设您要查找单词“Carry”的同义词。为此,您首先要在单词表中搜索与单词“carry”匹配的引理。这将产生 wordid 21253。然后您将搜索词义表,以查找词进位的所有词义对。这会产生 41 个结果 - 每个结果列出 wordid 21253,以及一个 senseid(它是 word-sense 对的索引)和一个 synsetid。
现在,您需要查询每个返回的synsetid 的synset 表,以便您可以访问synset 表中的关联定义字段。
最后,要查找列出的每个同义词集的同义词,您只需在词义表中搜索共享相同同义词集的其他词义对。
例子:
下面列出了“carry”这个词的 41 个词义对之一:
如果我们查找这个synsetid 202083512的定义,你会发现“传输或作为传输的媒介”
要查找此定义的所有同义词,您将在词义表中搜索相同的 synsetid 202083512。这将产生同义词:channel、conduct、envy、invert 和 transfer
(注意:您需要离开加入 words 表才能获得实际的引理)
我希望这有助于为您揭开 WordNet 的神秘面纱……我发现它很酷……
关于mysql - Wordnet SQL 说明,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18278219/
我正在尝试为 WOLF(Wordnet Libre du Français,免费法语 Wordnet)创建一个界面。目标是为阿拉伯语 Wordnet (http://www.talp.upc.edu/
我正在尝试将 Wordnet 3.0 同义词集映射到 Wordnet 3.1例如:purl.org/vocabularies/princeton/wn30/synset-embrace-verb-2
虽然我拥有 EE 背景,但我没有机会参加自然语言处理类(class)。 我想为土耳其语构建情感分析工具。我认为最好创建一个土耳其语 wordnet 数据库,而不是将文本翻译成英语,然后使用提供的工具用
我对 WordNet 数据文件格式有疑问。 wndb(5) 手册页部分内容如下: The source/target field distinguishes lexical and semantic
一些相似度得分介于 0 和 1 之间,例如最短路径和 WuP。因此汽车与汽车之间的相似度将为 1,但 LCh 等其他度量将为 lch( car, automobile ) = 3.6889 我想知道这
是否有可用于 wordnet 3.0 同义词集到其他本体的映射,如 Cyc , YAGO和 EuroWordNet喜欢SUMO ? 最佳答案 Yago 是 linked to Wordnet , 以及
我正在尝试在 OSX 10.8 的 Mac 上安装 Wordnet 3.0。 我已经配置好了,但是当我尝试 make 时, 我收到一堆错误... ..... /usr/include/tkDecls.
想了解WordNet的文件格式,主要文档是WNDB和 WNINPUT .正如我在 WNDB 中所了解的,有名为 index.something 的文件和 data.something ,这里somet
如何使用 wordnet 按单词类别标记文本(java 作为接口(interface))? 示例 考虑以下句子: 1) 计算机需要键盘、显示器、CPU 才能工作。 2)汽车使用齿轮和离合器。 现在我的
我在java中使用wordnet,使用一些已知的api(JAWS、JWNL)。我想使用相同类型的 API 在 Wordnet Affect (WNA) 中进行搜索,但 Internet 上没有关于 W
我正在使用 WordNet 2.1 工具 并通过 JAWSpro-grammatically 访问它(Java用于 WordNet 搜索的 API)。 今天我遇到了一个名为 WordNet 域 的新事
我一直在分析 WordNet 3.0 MySql 数据库文件,我从以下位置下载了这些文件: http://www.princeton.edu/wordnet/download/current-vers
我正在尝试用 python 编写一个程序,它将记录我输入的段落。它将对该段落的第一句和最后一句以及带有日期和数字的句子进行排序。然后它会用同义词替换一些单词,并去掉无用的形容词。我知道 python
因此,我第一次尝试使用 wordnet 为我正在开发的基于小型文本的冒险游戏项目构建文本识别脚本。现在,我有这段代码来尝试构建一个对象,该对象由每个单词作为键以及该单词的每个同义词作为附加到该键的数组
我正在尝试编写一个程序来查找两个文档之间的相似性,并且由于我只使用英语,所以我决定使用 wordnet,但是我找不到将 wordnet 与 php 链接的方法,我找不到任何 wordnet api P
我用了rita使用 Java 框架 WordNet .它工作正常,但我如何在 android 中使用它?是否有任何框架/API 可以从 android 访问 WordNet? JAWS 要求安装 Wo
我一直在寻找一些 Java 库,它可以提供有关同义词集“频率计数”的信息。我检查了 JWNL 和 JWI,他们不提供此类信息。有人知道其他 Java WordNet API 吗? 最佳答案 我相信这也
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。 要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的,因为
我有一个项目,我需要获得一个单词的词汇含义。我正在考虑使用 WordNet,因为它有自己的词典编纂者类,也称为超感官。我刚刚下载了 MIT JWI 并试图查看这个 JWI 是否支持它。该手册没有说明返
假设我有两个句子中每对单词的单词相似度分数,根据这些分数确定整体句子相似度的合适方法是什么? 单词分数是使用代表每个单词的向量的余弦相似度计算的。 既然我有了单词得分,那么把单词得分加起来除以两个句子
我是一名优秀的程序员,十分优秀!