nlp - 使用动态技术的单词之间的语义相似性(使用维基百科)-6ren

nlp - 使用动态技术的单词之间的语义相似性(使用维基百科)

转载作者：行者123 更新时间：2023-12-02 01:14:43

34

4

我用 python 编写了一个程序，使用 word net 查找单词之间的语义相似性。但我觉得它是静态的。我想给它一个动态的方法。我想从维基百科访问每个单词的定义。我怎样才能访问这样一个词的定义？当我用谷歌搜索时，我发现通过解析维基百科转储文件我们可以获得定义。但我不知道如何解析。是否有人可以实现解析器以从转储文件中获取单词的定义。这是唯一的方法吗？方法正确。

最佳答案

您不需要重新发明轮子。怀卡托大学的研究人员建立了一个非常好的维基百科数据挖掘服务，称为 WikipediaMiner .

This package converts regular Wikipedia dumps into MySql database format and provides an object-oriented access to parts of Wikipedia like articles, disambiguation pages and hyperlinks. Wikipedia Miner also implements an algorithm for computing semantic relatedness between articles that Maui uses to disambiguate documents to Wikipedia articles and for computing semantic features.

他们还在此基础上公开了各种 API。例如，如果您想获取逻辑回归的定义，只需使用他们的exploreArticle API:

http://wikipedia-miner.cms.waikato.ac.nz/services/exploreArticle?title=logistic%20regression&definition=true

响应 xml 如下所示:

<message service="/services/exploreArticle" id="226631" title="Logistic regression">
<request>
  <param name="title">logistic regression</param>
  <param name="definition">true</param>
</request>
<definition><![CDATA[In <a href="http://www.en.wikipedia.org/wiki/Statistics">statistics</a>, <b>logistic regression</b> (sometimes called the <b>logistic model</b> or <b><a href="http://www.en.wikipedia.org/wiki/Logit">logit</a> model</b>) is used for prediction of the <a href="http://www.en.wikipedia.org/wiki/Probability">probability</a> of occurrence of an event by fitting data to a logit function <a href="http://www.en.wikipedia.org/wiki/Logistic function">logistic curve</a>.]]>
</definition>
</message>

要比较单词之间的语义相似度，您可以尝试他们的compare API。

例如，将 kiwi 与 takahe 进行比较，您可以使用以下 API 调用:

http://wikipedia-miner.cms.waikato.ac.nz/services/compare?term1=kiwi&term2=takahe&disambiguationDetails&connections&snippets

Here是有关他们用于相关性度量的算法的更多详细信息。

您还可以托管自己的 wikipediaMiner 服务(详情 here )。在 here 找到更多关于如何使用他们的服务的信息.他们的相关出版物是 here .

关于nlp - 使用动态技术的单词之间的语义相似性(使用维基百科)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12866776/

34

4

0

文章推荐： WordPress，使用永久链接列出自定义帖子类型的所有分类法

文章推荐： java - 如何从ArrayList<>中获取数组

文章推荐： perl - DBI:selectall_arrayref 和列名

java - Java 中的 Wordnet 相似性:JAWS、JWNL 或 Java WN::相似性？
我需要在基于 Java 的应用程序中使用 Wordnet。我想: 搜索同义词集找到同义词集之间的相似性/相关性我的应用程序使用 RDF 图，我知道 Wordnet 有 SPARQL 端点，但我想最
C# 搜索具有相似性/相似性
假设我们有一个 IEnumerable Collection，其中包含 20 000 人对象项。那么假设我们创建了另一个 Person 对象。我们想列出所有与这个人相似的人。这意味着，例如，如果姓
java - JAWS Wordnet 相似性
我使用 JAWS 作为普通的 wordnet 来查找单词之间的相似性。我安装了 wordnet 2.1 并添加了 jar 文件:edu.mit.jwi_2.1.4.jar 和 edu.sussex.
python - Word2Vec Python 相似性
我用这段代码做了一个词嵌入: with open("text.txt",'r') as longFile: sentences = [] single= []
javascript - 对象/数组比较算法以确定共性/相似性
我正在尝试找出确定各种对象或数组之间的共性或相似性的最佳方法，并且有兴趣获得社区的意见。我目前正在用 javascript 构建一个早期研究原型(prototype)，我需要采用一种巧妙的方式来比较对
c# - C# 上的 Flash 相似性
我在将 Flash 游戏转换为 C# 时遇到问题。在 Flash 中我会使用这种语法: public function doMove() { eaze(this).to(actionTime,
python - 在 PyTorch 中找到一批向量之间的 jaccard 相似性
我有一批形状为 (bs, m, n) 的向量(即维度为 mxn 的 bs 向量)。对于每个批处理，我想计算第一个向量与其余 (m-1) 个向量的 Jaccard 相似度例子: a = [ [
python - 使用 Whoosh Python 搜索库的文档比较/相似性
如何使用 Whoosh 获取文档的相似性度量？我想创建一个“相关”特征，对与文档具有高度相似性的其他先前编入索引的文档进行排名。我是否将文档作为长查询字符串输入？我是否将文档添加到索引并以某种方式
python - 比较多个 Python 列表并合并 Levenshtein 相似性
我编写了一个 Python 函数，它接受两个列表，使用 Levenshtein 比较它们并将足够相似的单词合并到一个名为“merged”的列表中。我如何为超过 6 个列表执行此操作？确保将每个列表与
c++ - 在 C++ 中使用枚举编程 iota 相似性
请原谅我对 Go 的了解非常有限。我有这样的定义 type ErrorVal int const ( LEV_ERROR ErrorVal = iota LEV_WARNING
python - 如何比较两个大文本之间的度量 - Python 中的余弦、Jaccard 相似性、Sim_MinEdit (Sim_String) 和 Sim_Simple
我正在从事文本分析项目，一次比较两个不同的报告并将结果保存到 pandas 数据框中。我能够得到 cosine 和 jacard 的相似性，但需要确保我得到正确的度量。作为参数，我使用位于给定文件夹

首页

博学

6Ren·AI

商城

nlp - 使用动态技术的单词之间的语义相似性(使用维基百科)