java - 实现 Patricia Trie 用作字典-6ren

java - 实现 Patricia Trie 用作字典

转载作者：太空狗更新时间：2023-10-29 18:27:04

26

4

我正在尝试使用 addWord()、isWord() 和 isPrefix() 方法实现帕特里夏树作为意思是存储一个大的单词词典，以便快速检索(包括前缀搜索)。我已经阅读了这些概念，但它们只是没有阐明实现。我想知道(在 Java 或 Python 代码中)如何实现 Trie，特别是节点(或者我应该递归地实现它)。我看到一个人用一个包含 26 个子节点的数组设置为 null/None 来实现它。是否有更好的策略(例如将字母视为位)以及您将如何实现它？

最佳答案

不久前有人问了一个关于 Patricia 尝试的问题，当时我想做一个 Python 实现，但这次我决定真正尝试一下(是的，这太过分了，但它看起来不错项目)。我所做的可能不是纯粹的 Patricia trie 实现，但我更喜欢我的方式。其他 Patricia 尝试(用其他语言)只为 child 使用一个列表并检查每个 child 是否匹配，但我认为这是相当低效的，所以我使用字典。这基本上是我的设置方式:

我将从根节点开始。根只是一本字典。字典的键都是通向分支的单个字符(单词的第一个字母)。与每个键对应的值是列表，其中第一项是一个字符串，它给出与 trie 的这个分支匹配的字符串的其余部分，第二项是一个字典，从这个节点指向更多分支。该词典还具有与单词其余部分的第一个字母相对应的单个字符键，并且该过程继续向下进行。

我应该提到的另一件事是，如果一个给定的节点有分支，但也是 trie 本身中的一个词，那么它通过在字典中有一个 '' 键来表示，这导致具有列表 ['',{}] 的节点。

下面是一个小例子，说明单词是如何存储的(根节点是变量 _d):

>>> x = patricia()
>>> x.addWord('abcabc')
>>> x._d
{'a': ['bcabc', {}]}
>>> x.addWord('abcdef')
>>> x._d
{'a': ['bc', {'a': ['bc', {}], 'd': ['ef', {}]}]}
>>> x.addWord('abc')
{'a': ['bc', {'a': ['bc', {}], '': ['', {}], 'd': ['ef', {}]}]}

请注意，在最后一种情况下，字典中添加了一个“”键，表示“abc”是“abcdef”和“abcabc”之外的一个词。

源代码

class patricia():
    def __init__(self):
        self._data = {}

    def addWord(self, word):
        data = self._data
        i = 0
        while 1:
            try:
                node = data[word[i:i+1]]
            except KeyError:
                if data:
                    data[word[i:i+1]] = [word[i+1:],{}]
                else:
                    if word[i:i+1] == '':
                        return
                    else:
                        if i != 0:
                            data[''] = ['',{}]
                        data[word[i:i+1]] = [word[i+1:],{}]
                return

            i += 1
            if word.startswith(node[0],i):
                if len(word[i:]) == len(node[0]):
                    if node[1]:
                        try:
                            node[1]['']
                        except KeyError:
                            data = node[1]
                            data[''] = ['',{}]
                    return
                else:
                    i += len(node[0])
                    data = node[1]
            else:
                ii = i
                j = 0
                while ii != len(word) and j != len(node[0]) and \
                      word[ii:ii+1] == node[0][j:j+1]:
                    ii += 1
                    j += 1
                tmpdata = {}
                tmpdata[node[0][j:j+1]] = [node[0][j+1:],node[1]]
                tmpdata[word[ii:ii+1]] = [word[ii+1:],{}]
                data[word[i-1:i]] = [node[0][:j],tmpdata]
                return

    def isWord(self,word):
        data = self._data
        i = 0
        while 1:
            try:
                node = data[word[i:i+1]]
            except KeyError:
                return False
            i += 1
            if word.startswith(node[0],i):
                if len(word[i:]) == len(node[0]):
                    if node[1]:
                        try:
                            node[1]['']
                        except KeyError:
                            return False
                    return True
                else:
                    i += len(node[0])
                    data = node[1]
            else:
                return False

    def isPrefix(self,word):
        data = self._data
        i = 0
        wordlen = len(word)
        while 1:
            try:
                node = data[word[i:i+1]]
            except KeyError:
                return False
            i += 1
            if word.startswith(node[0][:wordlen-i],i):
                if wordlen - i > len(node[0]):
                    i += len(node[0])
                    data = node[1]
                else:
                    return True
            else:
                return False

    def removeWord(self,word):
        data = self._data
        i = 0
        while 1:
            try:
                node = data[word[i:i+1]]
            except KeyError:
                print "Word is not in trie."
                return
            i += 1
            if word.startswith(node[0],i):
                if len(word[i:]) == len(node[0]):
                    if node[1]:
                        try:
                            node[1]['']
                            node[1].pop('')
                        except KeyError:
                            print "Word is not in trie."
                        return
                    data.pop(word[i-1:i])
                    return
                else:
                    i += len(node[0])
                    data = node[1]
            else:
                print "Word is not in trie."
                return


    __getitem__ = isWord

您可能已经注意到，最后我将 __getitem__ 设置为 isWord 方法。这意味着

x['abc']

将返回 trie 中是否有 'abc'。

我想也许我应该用它制作一个模块并将其提交给 PyPI，但它需要更多测试，至少需要一个 removeWord 方法。如果您发现任何错误，请告诉我，但它似乎工作得很好。此外，如果您发现效率有任何重大改进，我也很想听听。我考虑过在每个分支的底部做一些空字典的事情，但我现在要离开它。例如，这些空词典可能会被链接到单词的数据替换，以扩展实现的用途。

无论如何，如果您不喜欢我实现它的方式，至少也许这会给您一些关于如何实现您自己的版本的想法。

关于java - 实现 Patricia Trie 用作字典，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/2406416/

26

4

0

文章推荐： Angular 2，将 id 传递给组件

文章推荐： Angular 2 从 ComponentInstruction 获取 URL

文章推荐： python - Twisted:如何将服务器绑定(bind)到指定的 IP 地址？

tsql - 用作 EXISTS 子查询时的慢查询
我有以下查询: SELECT I.InsuranceID FROM Insurance I INNER JOIN JobDetail JD ON I.AccountID = JD.AccountID
swiftui - 用作 SwiftUI 元素的模板
我想在 SwiftUI 布局中将此函数用作具有不可变值的模板，但得到错误 Result of call to 'padding' 未使用: func keys (padding: CGFloat, t
java - 用作 View 标签的整数不起作用
直到最近我才使用 View 的标签元素，此后发现了一些很酷的用途。我遇到了一个不寻常的问题，希望有人能回答。这可能比 Android 更通用，但我不确定。它与 Java 如何处理 Integer 类有
javascript - 用作 onclick 处理程序的函数运算符和函数声明的行为不同
这个问题在这里已经有了答案: What is the purpose of the var keyword and when should I use it (or omit it)? (19 个回
javascript - 用作 KnockoutJS 可观察对象
我有以下脚本(见下文)。我有两个问题: 1.在 Knockoutjs 的上下文中，下面这行是什么意思？ ko.observable(null); 2.如何调用这里尚未定义的函数: that.activ
Java 风格的多重返回，用作 "Guards"
Java 社区中是否存在一种使用 with-repect-to 在方法中使用多个返回的思想流派，如下所示: public SomeClass someMethod(int someValue) {
css - 用作 Sprite 的背景图像未加载
我一直在尝试为我的网站创建一个小型社交媒体栏。出于某种原因，我无法计算出我想用来创建 Sprite 的图像无法加载。我还应该提一下，我在背景图像不显示方面遇到过类似的问题。 HTML调用是这样的:
c++ - 用作 unordered_map 键的一对枚举值的自定义哈希函数
我正在尝试使用 std::pair 枚举值作为 unordered_map 容器的键，但我在定义自定义哈希函数时遇到困难。我尝试了以下方法: // Enum and pair declaration
javascript - 用作 Jquery 回调时匿名函数与命名函数的内存开销
我正在学习 JS/JQuery 以及匿名函数和闭包。我见过这样的例子: $('.button').click(function(){ /* Animations */ /* Other
reactjs - 如何将 MenuItem 用作 NavLink？
我正在尝试使用菜单列表来浏览我的应用程序。尽管应用程序和路由运行良好，但我使用这段代码在控制台中收到了一些警告: {props.itemList.map((item, index) =>(
c# - 如何将 PolicyHttpMessageHandler 用作 "standalone"？
我只是想创建一个简单的测试，我在其中使用 DelegateHandlers 来实例化一个 HttpClient 而无需引入 Asp.net Core 包。我有 2 个删除处理程序 Throttling
wpf - 为什么不应该将 UserControls 用作 ItemsSource？
我是answering another question在这里，用户有一个 ListView与 ItemsSource包含 UserControls .我说我不会推荐它，并被问为什么。这真的让我很惊
python - Pyenv 用作 sudo 时不显示所有版本
我安装了3.5.2和 3.5.3使用 pyenv 的版本。 # pyenv versions * system (set by /usr/local/pyenv/version) 3.5.2
android - 有没有办法将 UnityPlayerActivity 用作 AppcompatActivity？
我正在使用 android studio 制作统一插件，但这里有问题。一些 SDK 提供仅使用 AppcompatActivity 来制作 fragment 但我的MainActivity , 正是
Laravel whereHas 用作 INNER JOIN？
我在 Laravel 中使用 whereHas 来构建查询: })->whereHas('results', function ($query) use ($issued, $mode, $reque
r - 如何在没有自动列检测的情况下将 fread() 用作 readLines()？
我有一个 5Gb .dat 文件(> 1000 万行)。每行的格式如 aaaa bb cccc0123 xxx kkkkkkkkkkkkkk或 aaaaabbbcccc01234xxxkkkkkkkk
iphone - 缓冲 NSOutputStream 用作 NSInputStream？
我有一个消费者类，它采用 NSInputStream 作为参数，它将被异步处理，并且我想推送来自生产者类的数据，该生产者类要求它提供 NSOutputStream 作为其输出源。现在我如何设置一个缓冲
symfony - 用作 Symfony 参数的非标量 ENV
我正在尝试使用 ENVs在 Symfony2 中设置我的参数。标量值很简单，但我有一些参数是数组，我需要使用 ENV 以某种方式设置它们。有问题的参数: parameters: redis.se
我可以成功地将 DEBUG 用作 C 中的常量符号吗？
在我的类作业中，我已经成功地做到了这一点，但只是在非常简单的程序中。今天，我有一个更复杂的程序，在我将 DEBUG 定义为一个符号后，Eclipse 做了可怕的笨拙的事情，并且在我删除定义后这些可怕的
javascript - JQUERY 检查是否选择了列表框选项，用作 if 循环中的条件
我目前有 2 个复选框类别、一个下拉列表和一个表单中的提交按钮。该按钮应保持“禁用”状态，直到选中 A 类的一个复选框和选中 B 类选项之一并选择选择列表中的一个选项。它适用于复选框(当我在没有列表的

首页

博学

6Ren·AI

商城

java - 实现 Patricia Trie 用作字典