- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我用 python 编写了一个程序,使用 word net 查找单词之间的语义相似性。但我觉得它是静态的。我想给它一个动态的方法。我想从维基百科访问每个单词的定义。我怎样才能访问这样一个词的定义?当我用谷歌搜索时,我发现通过解析维基百科转储文件我们可以获得定义。但我不知道如何解析。是否有人可以实现解析器以从转储文件中获取单词的定义。这是唯一的方法吗?方法正确。
最佳答案
您不需要重新发明轮子。怀卡托大学的研究人员建立了一个非常好的维基百科数据挖掘服务,称为 WikipediaMiner .
This package converts regular Wikipedia dumps into MySql database format and provides an object-oriented access to parts of Wikipedia like articles, disambiguation pages and hyperlinks. Wikipedia Miner also implements an algorithm for computing semantic relatedness between articles that Maui uses to disambiguate documents to Wikipedia articles and for computing semantic features.
他们还在此基础上公开了各种 API。例如,如果您想获取逻辑回归
的定义,只需使用他们的exploreArticle
API:
响应 xml 如下所示:
<message service="/services/exploreArticle" id="226631" title="Logistic regression">
<request>
<param name="title">logistic regression</param>
<param name="definition">true</param>
</request>
<definition><![CDATA[In <a href="http://www.en.wikipedia.org/wiki/Statistics">statistics</a>, <b>logistic regression</b> (sometimes called the <b>logistic model</b> or <b><a href="http://www.en.wikipedia.org/wiki/Logit">logit</a> model</b>) is used for prediction of the <a href="http://www.en.wikipedia.org/wiki/Probability">probability</a> of occurrence of an event by fitting data to a logit function <a href="http://www.en.wikipedia.org/wiki/Logistic function">logistic curve</a>.]]>
</definition>
</message>
要比较单词之间的语义相似度,您可以尝试他们的compare
API。
例如,将 kiwi
与 takahe
进行比较,您可以使用以下 API 调用:
Here是有关他们用于相关性度量的算法的更多详细信息。
您还可以托管自己的 wikipediaMiner 服务(详情 here )。在 here 找到更多关于如何使用他们的服务的信息.他们的相关出版物是 here .
关于nlp - 使用动态技术的单词之间的语义相似性(使用维基百科),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12866776/
我需要在基于 Java 的应用程序中使用 Wordnet。我想: 搜索同义词集 找到同义词集之间的相似性/相关性 我的应用程序使用 RDF 图,我知道 Wordnet 有 SPARQL 端点,但我想最
假设我们有一个 IEnumerable Collection,其中包含 20 000 人 对象项。那么假设我们创建了另一个 Person 对象。 我们想列出所有与这个人相似的人。这意味着,例如,如果姓
我使用 JAWS 作为普通的 wordnet 来查找单词之间的相似性。 我安装了 wordnet 2.1 并添加了 jar 文件:edu.mit.jwi_2.1.4.jar 和 edu.sussex.
我用这段代码做了一个词嵌入: with open("text.txt",'r') as longFile: sentences = [] single= []
我正在尝试找出确定各种对象或数组之间的共性或相似性的最佳方法,并且有兴趣获得社区的意见。我目前正在用 javascript 构建一个早期研究原型(prototype),我需要采用一种巧妙的方式来比较对
我在将 Flash 游戏转换为 C# 时遇到问题。在 Flash 中我会使用这种语法: public function doMove() { eaze(this).to(actionTime,
我有一批形状为 (bs, m, n) 的向量(即维度为 mxn 的 bs 向量)。对于每个批处理,我想计算第一个向量与其余 (m-1) 个向量的 Jaccard 相似度 例子: a = [ [
如何使用 Whoosh 获取文档的相似性度量? 我想创建一个“相关”特征,对与文档具有高度相似性的其他先前编入索引的文档进行排名。 我是否将文档作为长查询字符串输入?我是否将文档添加到索引并以某种方式
我编写了一个 Python 函数,它接受两个列表,使用 Levenshtein 比较它们并将足够相似的单词合并到一个名为“merged”的列表中。 我如何为超过 6 个列表执行此操作?确保将每个列表与
请原谅我对 Go 的了解非常有限。我有这样的定义 type ErrorVal int const ( LEV_ERROR ErrorVal = iota LEV_WARNING
我正在从事文本分析项目,一次比较两个不同的报告并将结果保存到 pandas 数据框中。 我能够得到 cosine 和 jacard 的相似性,但需要确保我得到正确的度量。作为参数,我使用位于给定文件夹
我是一名优秀的程序员,十分优秀!