- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我正在编写一个程序来从文本文件生成“multimap ”数据,这些数据基本上是字素与其在文本文件中出现频率之间的映射,例如:
aaaa : 0
aaab : 0
aaac : 0
...
thel : 10
them : 250
...
zzzz : 0
基本思想是,您可以根据 multimap 数据对字符串“评分”,以测试它与文本文件语言的相似程度。评分功能必须非常快。因此,我希望通过n维数组来实现对数据的直接访问。例如:
data[n('t')][n('h')][n('e')][n('m')]
其中 n(char) 是一个对字符进行归一化的函数,例如 a -> 0、b -> 1、c -> 2 等等。无论如何,问题就在这里:26^n 变大,非常快!如果我每个元素使用 4 个字节,则不同的 n 值需要以下内存:
所以看起来当n > 3 时,栈内存不足,而当n > 6 时,大多数堆内存不足。理想情况下,我希望能够生成任何合理长度的 multimap 文件——最多 10 个左右。有什么想法可以实现吗?
我考虑过对数组的每个元素使用少于一个字节的可能性。我真的只需要索引 'a-z' 和一些特殊字符(空格,标点符号),所以可能可以使用 5 位(0 - 31)。这可能吗?如果可以的话,我可能会节省 38% 的内存。您认为这会如何影响时间复杂度?
一种选择是使用散列函数而不是数组。这意味着我只在实际存在的键上使用内存,而不是频率始终为 0 的“qxzf”。内存需求会大大减少,但我担心时间复杂度会受到严重影响。你怎么看?
也许我可以使用某种树数据结构?字素适合这种表示,但同样,时间复杂度肯定会受到影响。我认为访问数据需要“n”步,而不是 1 步。
最后,我正在考虑对评分函数进行多线程处理。我宁愿不为每个线程分配数据拷贝。您认为可以将一两点与 Peterson 的算法结合使用来锁定元素吗?
提前致谢。
最佳答案
Trie 提供了良好的时空权衡。一个普通的 trie ,其中每个节点(例如前缀“iq”)都有一个子指针数组,由字符串中的下一个字符(例如'x')索引,仍然会在子节点中以空值的形式浪费空间指针数组,但您将节省空间,因为没有以该前缀为根的分支(例如“iqx”)。其他尝试通过仅存储指向存在的 child 的指针来减少空间量但增加时间复杂度(尽管不一定很多),这需要搜索 child 指针,通常以 child 数量的对数时间。后一种类型的一些尝试将给定前缀的所有指针存储在单个节点中;其他(例如 ternary search tries )使用多个节点。
通过尝试进行查找的时间复杂度为 O(n),但由于 n 相当小,因此实际性能可能足够快以满足您的需求。根据您的计数方式,多维数组访问本身就是 O(n),因为查找 n 个字符的键涉及评估具有 n 个项的多项式( data[a<sub>1</sub>]...[a<sub>n</sub>] == data + sum(i=1..n, a<sub>i</sub> * 256<sup>i-1</sup>)
).
如果空间要求仍然太高,即使对于虚拟内存,那么您需要将大部分结构存储在磁盘上,例如 B+ trees allow。在这种情况下,B+ 树将提供哈希表的底层实现。这当然会造成相当大的性能损失,但一旦内存需求达到一定水平,这是不可避免的。
I thought about the possibility of using less than one byte to index each dimension of the array.
完全有可能以这种方式减少潜在数组索引的数量。除了使用专门的数据结构之外,您还可以这样做。例如,这将减少 trie 中节点的扇出,从而减少空指针的数量。
您需要一个将字符映射到数组键的函数,这只会稍微增加时间复杂度。使用表查找将导致较低的恒定时间增加和较小的空间增加(~256 字节)。
你可能还需要对样本数据和待测字符串进行预处理,过滤掉/映射无效字符(比如大写转小写),时间复杂度与字符串长度成线性关系.
Finally, I'm considering multi-threading the scoring function.
此处的 yield 取决于评分函数的计算有多少花费在读取字素结构之外。如果在这之外花费的时间很少,那么线程将花费大部分时间等待,并且您不会看到太多性能改进。 Amdahl's law 适用于此。
根据您的评论,多线程评分函数可能不需要锁来进行只读访问。只要只读访问不改变结构本身,遍历结构的所有状态都完全包含在读取函数中,读取函数调用的任何函数(例如哈希函数)都是线程安全的并且整个结构适合可用内存,那么如果多个线程同时从树中读取,就不会有冲突。
如果您使用磁盘支持的方法(例如使用 B+ 树),则最后一个要求将不成立。在这种情况下,您可能需要锁定处理磁盘 block 的代码以防止抖动。
关于c++ - 字素生成 - 时间与内存复杂度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6699817/
我正在维护一些 Java 代码,我目前正在将它们转换为 C#。 Java 代码是这样做的: sendString(somedata + '\000'); 在 C# 中,我正在尝试做同样的事情: sen
如何确定函数中传递的参数是字符串还是字符(不确定如何正确调用它)文字? 我的函数(不正确): void check(const char* str) { // some code here }
我真的不知道如何准确地提出这个问题,但我希望标题已经说明了这一点。 我正在寻找一种方法(一个框架/库),它提供了执行 String.contains() 函数的能力,该函数告诉我给定的字符串是否与搜索
我正在尝试编写一些读取 Lambda 表达式并输出 beta 缩减版本的东西。 Lambda 的类型如下:\variable -> expression,应用程序的形式为 (表达式) (表达式)。因此
StackOverflow 上的第 1 篇文章,如果我没能把它做好,我深表歉意。我陷入了一个愚蠢的练习,我需要制作一个“刽子手游戏”,我尝试从“.txt”文件中读取单词,然后我得到了我的加密函数,它将
我想在 Groovy 中测试我的 Java 自定义注释,但由于字符问题而未能成功。 Groovyc: Expected 'a' to be an inline constant of type cha
当我尝试在单击按钮期间运行 javascript location.href 时,出现以下错误“字 rune 字中的字符过多”。 最佳答案 这应该使用 OnClientClick相反? 您可能还想停
我想要类似的东西: let a = ["v".utf8[0], 1, 2] 我想到的最接近的是: let a = [0x76, 1, 2] 和 "v".data(using: String.Encod
有没有办法在 MySQL 中指定 Unicode 字 rune 字? 我想用 Ascii 字符替换 Unicode 字符,如下所示: Update MyTbl Set MyFld = Replace(
阅读 PNG 规范后,我有点惊讶。我读过字 rune 字应该用像 0x41 这样的二进制值进行硬编码,而不是在(程序员友好的)'A' 中。问题似乎是在具有不同底层字符集的不同系统上编译期间字 rune
考虑一个具有 UTF-8 执行字符集的 C++11 编译器(并且符合要求 char 类型为有符号 8 位字节的 x86-64 ABI) . 字母 Ä(元音变音)具有 0xC4 的 unicode 代码
为什么即使有 UTF-8 字符串文字,C11 或 C++11 中也没有 UTF-8 字 rune 字?我知道,一般来说,字 rune 字表示单个 ASCII 字符,它与单字节 UTF-8 代码点相同,
我怎样才能用 Jade 做到这一点? how would I do this 我几乎可以做任何事情,除了引入一个 span 中间句子。 最佳答案 h3.blur. how would I do t
这似乎是一个非常简单的问题,但我只是想澄清我的疑问。我正在查看其他开发人员编写的代码。有一些涉及 float 的计算。 示例:Float fNotAvlbl = new Float(-99); 他为什
我想知道第 3 行“if dec:”中的“dec”是什么意思 1 def dec2bin(dec): 2 result='' 3 if dec:
我试图在字符串中查找不包含任何“a”字符的单词。我写了下面的代码,但它不起作用。我怎么能对正则表达式说“不包括”?我不能用“^”符号表示“不是”吗? import re string2 = "asfd
这个问题在这里已经有了答案: Is floating point math broken? (31 个答案) Is floating point arbitrary precision availa
我正在创建一个时尚的文本应用程序,但在某些地方出现错误(“字 rune 字中的字符太多”)。我只写了一个字母,但是当我粘贴它时,它会转换成许多这样的字母:“\uD83C\uDD89”,原始字母是“🆉
我正在尝试检查用户是否在文本框中输入了一个数字值,是否接受了小数位。非常感谢任何帮助。 Private Sub textbox1_AfterUpdate() If IsNumeric(textbox1
我知道一个 Byte 是 8 位,但其他的代表什么?我正在参加一个使用摩托罗拉 68k 架构的汇编类(class),我对目前的词汇感到困惑。 最佳答案 如 operator's manual for
我是一名优秀的程序员,十分优秀!