- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
情况是这样的:
我有数百万(可能是数十亿)个字符串,我正在尝试解析这些字符串并将其放入排序结构中,假设我有 5,000,000 个字符串。我正在尝试编写一个快速程序,可以将所有这些字符串从一个未排序的 vector 放入一个有序的数据结构中,该结构也可以快速搜索结构,因此是 AVL 树的推理(最终我计划使用哈希表的 a-z 用于更快的查找,但稍后会出现)。我首先将所有字符串放入一个 vector 中,但它们都乱七八糟,未排序且长度不同。我不想在我的树中出现任何重复的字符串,因此如果程序找到字符串“hello”和“hello”,它将只有一个 AVL 条目,并且会增加一个整数持有者以表示该字符串出现的频率。
所以我的问题是:首先对 vector 进行排序(使用诸如多线程快速排序或其他快速排序之类的东西)然后将其输入到 AVL 树中,在所有单词与其他单词一起排序后是否会更快相同的词,或者只是将未排序 vector 中的所有数据放入 AVL 树,并不断检查 AVL 树是否已经存在一个词,然后递增它是否更快。
所以按照操作顺序来描绘它是两种情况:
CASE A:
> Get input/parse strings
> Put strings into vector (unsorted)
> Put vector into array or linked-list
> Quicksort that array/llist
> Input that sorted array into the AVL Tree
CASE B:
> Get input/parse strings
> Put strings into vector (unsorted)
> Insert vector data into AVL tree
> During insertion, check if there are duplicate words, if so, increment the counter
哪种情况更快??
--编辑-- 因此,在听到一些评论后,从一开始就将排序数组插入 AVL 树中将是一个坏主意,因为有多少次旋转是有道理的制成。看起来直接插入到 AVL 树中可能是个好主意,但是当一个词已经在树中某处时,高效插入的最佳方法是什么?我怎样才能确保找到它?这是我的排序可以发挥作用的地方吗?
最佳答案
想想 AVL 树的平衡方式。如果“中间值”先出现,效果最好。对于已排序的输入,您将需要大量的重新平衡,因此预排序可能弊大于利。
例如,考虑以下包含值 1-6 的 AVL 树:
4
/ \
2 5
/ \ \
1 3 6
如果输入顺序是 4, 2, 5, 1, 3, 6
,您永远不需要平衡树。相反,对于已排序的输入 1, 2, 3, 4, 5, 6
,您将需要许多重新平衡操作:
1 +3 2 +4 2 +5 2 +6 3
\ ---> / \ ---> / \ ---> / \ ---> / \
2 1 3 1 3 1 4 2 5
\ / \ / / \
4 3 5 1 4 6
更新 最初的问题是在插入 AVL 树之前对数据进行排序是否会提高性能。现在 OP 编辑了问题,转向了他的具体问题。
but what is the best way to efficiently insert when a word is already in the tree somewhere? How can I make sure that I find it? Is that where my sorting can come in?
AVL 树的全部意义在于有效地查找数据,所以我不明白这个问题。如何遍历二叉搜索树来找到一个值应该是显而易见的。为什么要为此对数据进行排序?
请注意,二叉搜索树是一种很好的存储键的数据结构,但它也可以管理与这些键关联的任意数据。在您的情况下,您希望将计数与 key 一起存储。因此,您不需要单词/字符串树,而是代表单词及其计数的对(字符串、整数)树。对于树顺序,只需考虑字符串键,即单词。
对于每个要插入的单词,在树中查找它。如果它已经存在,更新字数。否则,插入一个字数为 1 的新对。
最后一点:C++ 标准库带有一个 map
类型,通常(总是?)使用平衡树(AVL 或红黑)实现。仅使用此实现,您就可以省去大量工作和错误修复工作。自 C++11 以来,还有一个 unordered_map
,通常(总是?)使用哈希表实现。
关于c++ - 排序一个vector,然后放入AVL树,还是直接输入哪个更快?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27100192/
我有一个测试即将进行,我想澄清两个有关参数的问题。 在我的笔记中指出,将参数传递给函数的推荐方法是使用“按引用传递” const type& x; // for "in" parameters
当我通过 OMG 2.5(Beta)推广的 UML 规范阅读以下概念时: in: Indicates that Parameter values are passed in by the caller
我试图在用户按下 Enter 时触发一个函数。我将此输入设置为只读的原因是限制用户在填充值后修改输入中的值。 该值来自将在点击属性中触发的弹出窗口。问题是 keyup.enter 没有触发该输入。 代
我在jQuery中使用模式弹出窗口控件,该弹出窗口具有由jQuery Tokenize输入插件提供动力的输入文本。问题是,当我在模式弹出文本框中键入内容时, token 化插件的搜索结果显示为隐藏在弹
我有一个问题。当我选中复选框时,系统工作正常,总值发生变化,但一旦我修改文本输入,它就会变为 0。我需要将此文本框输入排除在更改值之外。 这是 html: $15000 $
我正在努力让它发挥作用,但还是有些不对劲。 我想用 CSS 设置提交按钮的样式以匹配我已有的按钮。 风格: input[type="button"], input[type="submit"], b
import java.util.*;; public class selection { Scanner in=new Scanner(System.in); private
这可能是一个非常菜鸟的问题。假设我有一个带宽限制为 100MB/s 的网卡,那么输入/输出带宽是否有可能达到该限制 同时 ?或者我会在任何时候遇到这个不等式:in bandwidth + out ba
看着这个问题,Fill immutable map with for loop upon creation ,我很好奇是什么this表示在 Map(1 -> this) . scala> Map(1
我有这样的东西 一个 乙 问? 是或否 数字 数字或零 我想做的是: 如果 B1 = “Y”,则让用户在 B2 中输入一个数字。 如果 B1 = “N”,则将 B2 中的值更改为零,并且不允许用户在
我有一个包含许多列的表,我想添加 input标题单元格内的字段,但我希望输入适合根据正文内容的宽度。 这是没有 input 的样子领域: 这就是 input 的样子领域: 可以看出,像“index”和
关于为 FTP 客户端设置传出和传入文件夹,您遵循哪些最佳实践(如果有)?我们通常使用“outgoing”和“incoming”,但无论你如何表述方向,它都可以有两种解释方式,具体取决于名称相对于哪一
我正在尝试“求解”给定 d 的 Pell 方程:x^2 - d * y^2 = 1,或者至少我想得到最小的 x > 0 来求解方程。到目前为止,一切都很好。这是我的 Haskell 代码 minX :
我是VS Code的新手,可以使用Ctrl + Enter将代码运行到python交互式窗口中。我希望光标自动移动到下一行,因此我可以逐行浏览代码。 能做到吗? 最佳答案 如this blog pos
我正在创建一个 bool 值矩阵/二维数组,并且我想为 dategrid 推断一种不仅仅是“ANY”的类型。 let yearRange = [2000,2001,2002,2003,2004]; l
我有两个排序的列表,例如 a = [1, 4, 7, 8] b = [1, 2, 3, 4, 5, 6] 我想知道a中的每个项目是否在b中。对于上面的示例,我想找到 a_in_b = [True, T
菜鸟警报 这很奇怪 - 当我编写以下代码时,尝试在 AngularJS 中创建自定义指令: myModule.directive('myTab', function(){ console.lo
已关闭。此问题需要 debugging details 。目前不接受答案。 编辑问题以包含 desired behavior, a specific problem or error, and the
假设我正在使用 gdscript 静态类型,并且对于一个函数参数,我事先不知道我会得到什么。这就是 python 中 typing.Any 的作用。如何使用 gdscript 做到这一点? 似乎 Va
我使用 dropzone 上传多个图像,并且工作正常,直到我想为每个图像插入品牌和网址。 我遇到的唯一问题是,当我要从输入字段获取值时,我会从服务器获取来自字段(品牌、网址)的未定义值,但如果我使用静
我是一名优秀的程序员,十分优秀!