gpt4 book ai didi

java - 转换相似声音的单词部分

转载 作者:行者123 更新时间:2023-11-30 09:56:37 25 4
gpt4 key购买 nike

我无法在此处搜索正确的术语来解决以下问题;我确信这件事已经完成了,我只是找不到合适的术语来表达问题!

我基本上是在尝试创建一个分类器,它将获取单词比较输出(例如,Levenstein 距离的一些输出)并确定单词是否足够不同。一个重要的输入可能是类似于 soundex 比较的东西。我遇到的麻烦是为算法创建训练集(在本例中为支持 vector 机)。我有一长串名字,我需要对它们进行一些改变(基于单词中相似的发音)。

例如JohnJon 将是一个突变,我可以在测试集中将其标记为等效。 JohnJohann 的声音和字母距离差异很大,可以被视为不同。

所以我有点要求一种实现音素变化生成器的方法,但需要能够保留英文字母结构。

即使是简单的翻译也可能足够了,比如“f”(有时)可以被“ph”替换。我正在用 Java 做这件事,所以任何关于这个方向的提示都会很棒!谢谢。

编辑

这是迄今为止我遇到的最接近的:http://www.isi.edu/natural-language/people/hovy/papers/07IJCAI-spelling-variants.pdf

最佳答案

我只是在大声思考。

基于规则:应用基于规则的系统,您可以使用标准替换规则(例如“ph”替换“f”)和插入规则(例如在元音和 a 之间插入 h)辅音。

字符 n 元语法对齐:使用单词对齐工具(例如 Giza++)来对齐来自并行语料库(例如 Europarl)的字符 n 元语法。我想您将能够找到有趣的单词拼写变体,例如“house”、“haus”等。您可以使用不同的 n 值。

使用基于规则的引导字符 n 元语法对齐:您可能还想使用两者的组合,原则上您可以通过使用一组外部规则和启发法。

关于java - 转换相似声音的单词部分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25273963/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com