- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
trie 数据结构通常是存储英语字符串的好方法。它的工作原理是构建一棵树,其中每条边都标有一个字母,并且树中标记节点的路径拼出数据结构中的一个单词。
这个数据结构在英语中运行良好,因为英语字母表中“只有”26个字母(一个“合理的”分支因子),这些字符具有连续的 ASCII 值(因此子指针可以存储在由每个 child 使用的字母的索引),并且有很多具有共同前缀的英语单词(因此结构中有很多冗余)。
我的母语是英语,对其他语言和字母表的了解有限,但似乎其中许多属性在其他语言中并不成立。例如,我知道法语、西类牙语、德语和匈牙利语经常使用重音字符,这些字符不与 Unicode 空间中的其余字母连续存储。希伯来语和阿拉伯语有元音标记,通常标在每个字母的上方或下方。中文使用语标系统,韩文韩文字符由组合在一起的三个较小字符组成。
尝试对于以这些语言和字母存储的数据仍然有效吗?要对此类数据使用尝试,需要进行哪些更改(如果有)?是否有任何数据结构适用于那些特别适合它们的语言和字母表中的字符串,但在英语中却没有用或高效?
最佳答案
我发现这种尝试对于西欧语言以及西里尔字母和许多其他字母语言都很有效。想想看,我唯一遇到困难的语言是中文、日文和其他表意书写系统。对于这些,特里树是没有用的。
英文字符的连续 Unicode 值实际上并不是一个巨大的好处。尽管它建议简单的节点实现:
CharNode
char
array[26] of CharNode
该结构并不是特别有用。它可以使事情变得更快,但内存成本相当高。即使在特里树的第二层,该数组也非常稀疏。到了第四层、第五层的时候,这里就几乎全是死角了。我曾经对此进行过分析。我会环顾四周,看看是否还有这些数字。
我发现节点中的可变长度数组几乎与按频率排序的项目一样快。除了特里树的第二层或第三层之外,我要查找的字符几乎总是位于该数组中的第一或第二位置。而且节省的空间也相当大。我没有每个节点 26 个引用(在我的实现中为 104 个字节),而是采用一字节计数,然后每个引用 5 个字节。因此,只要特定节点的子节点数少于 21 个(这是大多数情况),我就节省了空间。有一个小的运行时间损失,但在我的应用程序中还不足以产生影响。
这是我必须对我的 trie 结构进行的唯一修改,以使其支持我正在使用的所有字母语言。正如我所说,我主要使用西欧语言,对于那些语言来说它效果很好。我知道它确实适用于希伯来语和阿拉伯语,但我不知道它的效果如何。它满足了我们的目的,但是否能让母语人士满意还不得而知。
我构建的 trie 足以满足我们的目的,对于任何字符适合 Unicode 基本多语言平面的语言。使用代理对时有一点奇怪,但我们几乎忽略了这些。基本上,我们只是将代理对视为两个角色,然后就这样了。
您必须决定是否要将重音字符视为单独的字符,或者是否要映射它们。例如,考虑一下法语单词“garçon”,有些人会将其拼写为“garcon”,要么是因为他们不知道更好,要么他们不知道如何拼写字符“ç”。根据您使用 trie 的用途,您可能会发现将重音字符转换为非重音字符非常有用。但我认为这更多的是一个输入清理问题,而不是一个特里问题。
这是我相当冗长的说法,标准特里树应该适用于任何字母语言,而不需要任何特定于语言的修改。我没有看到任何明显的方法来使用 trie 作为语标语言。我对韩文一无所知,所以我不能说 trie 在那里是否有用。
关于string - 英语以外语言的尝试的局限性和替代方案?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27304455/
至少在某些 ML 系列语言中,您可以定义可以执行模式匹配的记录,例如http://learnyouahaskell.com/making-our-own-types-and-typeclasses -
这可能是其他人已经看到的一个问题,但我正在尝试寻找一种专为(或支持)并发编程而设计的语言,该语言可以在 .net 平台上运行。 我一直在 erlang 中进行辅助开发,以了解该语言,并且喜欢建立一个稳
As it currently stands, this question is not a good fit for our Q&A format. We expect answers to be
我正在寻找一种进程间通信工具,可以在相同或不同系统上运行的语言和/或环境之间使用。例如,它应该允许在 Java、C# 和/或 C++ 组件之间发送信号,并且还应该支持某种排队机制。唯一明显与环境和语言
我有一些以不同语言返回的文本。现在,客户端返回的文本格式为(en-us,又名美国英语): Stuff here to keep. -- Delete Here -- all of this below
问题:我希望在 R 中找到类似 findInterval 的函数,它为输入提供一个标量和一个表示区间起点的向量,并返回标量落入的区间的索引。例如在 R 中: findInterval(x = 2.6,
我是安卓新手。我正在尝试进行简单的登录 Activity ,但当我单击“登录”按钮时出现运行时错误。我认为我没有正确获取数据。我已经检查过,SQLite 中有一个与该 PK 相对应的数据。 日志猫。
大家好,感谢您帮助我。 我用 C# 制作了这个计算器,但遇到了一个问题。 当我添加像 5+5+5 这样的东西时,它给了我正确的结果,但是当我想减去两个以上的数字并且还想除或乘以两个以上的数字时,我没有
关闭。此题需要details or clarity 。目前不接受答案。 想要改进这个问题吗?通过 editing this post 添加详细信息并澄清问题. 已关闭 4 年前。 Improve th
这就是我所拥有的 #include #include void print(int a[], int size); void sort (int a[], int size); v
你好,我正在寻找我哪里做错了? #include #include int main(int argc, char *argv[]) { int account_on_the_ban
嘿,当我开始向数组输入数据时,我的代码崩溃了。该程序应该将数字读入数组,然后将新数字插入数组中,最后按升序排列所有内容。我不确定它出了什么问题。有人有建议吗? 这是我的代码 #include #in
我已经盯着这个问题好几个星期了,但我一无所获!它不起作用,我知道那么多,但我不知道为什么或出了什么问题。我确实知道开发人员针对我突出显示的行吐出了“错误:预期表达式”,但这实际上只是冰山一角。如果有人
我正在编写一个点对点聊天程序。在此程序中,客户端和服务器功能写入一个唯一的文件中。首先我想问一下我程序中的机制是否正确? I fork() two processes, one for client
基本上我需要找到一种方法来发现段落是否以句点 (.) 结束。 此时我已经可以计算给定文本的段落数,但我没有想出任何东西来检查它是否在句点内结束。 任何帮助都会帮助我,谢谢 char ch; FI
我的函数 save_words 接收 Armazena 和大小。 Armazena 是一个包含段落的动态数组,size 是数组的大小。在这个函数中,我想将单词放入其他称为单词的动态数组中。当我运行它时
我有一个结构 struct Human { char *name; struct location *location; int
我正在尝试缩进以下代码的字符串输出,但由于某种原因,我的变量不断从文件中提取,并且具有不同长度的噪声或空间(我不确定)。 这是我的代码: #include #include int main (v
我想让用户选择一个选项。所以我声明了一个名为 Choice 的变量,我希望它输入一个只能是 'M' 的 char 、'C'、'O' 或 'P'。 这是我的代码: char Choice; printf
我正在寻找一种解决方案,将定义和变量的值连接到数组中。我已经尝试过像这样使用 memcpy 但它不起作用: #define ADDRESS {0x00, 0x00, 0x00, 0x00, 0x0
我是一名优秀的程序员,十分优秀!