- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在使用词嵌入来寻找两个句子之间的相似性。使用 word2vec,如果一个句子是英语而另一个句子是荷兰语(虽然不是很好),我也会得到一个相似性度量。
所以我开始想知道是否有可能计算两种不同语言的两个句子之间的相似度(没有明确的翻译),特别是如果这些语言有一些相似之处(英语/荷兰语)?
最佳答案
让我们假设您的句子相似度方案仅使用词向量作为输入——就像在简单的词向量平均方案或词移动距离中一样。
如果满足以下条件,应该可以执行您的建议:
第二种质量不会自动得到保证。事实上,考虑到 word2vec 模型的随机初始化,以及算法/实现引入的其他随机化,即使是在完全相同的数据上运行的后续训练也不会将单词放在完全相同的位置。因此,在完全独立的英语/荷兰语语料库上训练的词向量不太可能将等同的词放在相同的坐标上。
但是,您可以根据某些 anchor /引用词对(您知道应该具有相似的向量)学习两个空间之间的代数转换。然后,您可以将该转换应用于两组中一组中的所有单词,这会导致您在“规范”单词集的可比较坐标空间内拥有那些“外来”单词的向量。
事实上,这个想法在第一篇 word2vec 论文中被使用过:
"Exploiting Similarities among Languages for Machine Translation "
如果您要对您的一个语言词向量集应用类似的转换,然后使用这些转换后的向量作为您的句子向量方案的输入,这些句子向量可能与另一种语言,从同一坐标空间中的词向量引导。
更新:有一个非常有趣的recent paper它设法同时训练多种语言的词向量,使用的语料库包括每种语言的原始句子和一组(较小的)已知在两种语言中含义相同的对齐句子。 Gensim 尚不支持此模式,但有 discussion of supporting it在未来的重构中。
关于nlp - 跨多种语言的语义相似性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45571295/
我需要在基于 Java 的应用程序中使用 Wordnet。我想: 搜索同义词集 找到同义词集之间的相似性/相关性 我的应用程序使用 RDF 图,我知道 Wordnet 有 SPARQL 端点,但我想最
假设我们有一个 IEnumerable Collection,其中包含 20 000 人 对象项。那么假设我们创建了另一个 Person 对象。 我们想列出所有与这个人相似的人。这意味着,例如,如果姓
我使用 JAWS 作为普通的 wordnet 来查找单词之间的相似性。 我安装了 wordnet 2.1 并添加了 jar 文件:edu.mit.jwi_2.1.4.jar 和 edu.sussex.
我用这段代码做了一个词嵌入: with open("text.txt",'r') as longFile: sentences = [] single= []
我正在尝试找出确定各种对象或数组之间的共性或相似性的最佳方法,并且有兴趣获得社区的意见。我目前正在用 javascript 构建一个早期研究原型(prototype),我需要采用一种巧妙的方式来比较对
我在将 Flash 游戏转换为 C# 时遇到问题。在 Flash 中我会使用这种语法: public function doMove() { eaze(this).to(actionTime,
我有一批形状为 (bs, m, n) 的向量(即维度为 mxn 的 bs 向量)。对于每个批处理,我想计算第一个向量与其余 (m-1) 个向量的 Jaccard 相似度 例子: a = [ [
如何使用 Whoosh 获取文档的相似性度量? 我想创建一个“相关”特征,对与文档具有高度相似性的其他先前编入索引的文档进行排名。 我是否将文档作为长查询字符串输入?我是否将文档添加到索引并以某种方式
我编写了一个 Python 函数,它接受两个列表,使用 Levenshtein 比较它们并将足够相似的单词合并到一个名为“merged”的列表中。 我如何为超过 6 个列表执行此操作?确保将每个列表与
请原谅我对 Go 的了解非常有限。我有这样的定义 type ErrorVal int const ( LEV_ERROR ErrorVal = iota LEV_WARNING
我正在从事文本分析项目,一次比较两个不同的报告并将结果保存到 pandas 数据框中。 我能够得到 cosine 和 jacard 的相似性,但需要确保我得到正确的度量。作为参数,我使用位于给定文件夹
我是一名优秀的程序员,十分优秀!