gpt4 book ai didi

c++ - 在非常大的文本中搜索多个字符串

转载 作者:塔克拉玛干 更新时间:2023-11-03 07:24:03 25 4
gpt4 key购买 nike

我有大约 200 万个字符串,我需要在 1 TB 的文本数据中搜索每个字符串。搜索所有这些并不是最好的解决方案,所以我正在考虑一种更好的方法来为所有字符串创建类似 trie 的数据结构。换句话说,其中每个节点都是一个单词的特里树。我想问一下,有什么好的算法、数据结构或库(C++)可以用于此目的吗?


让我在这个问题上更具描述性,伙计们,

例如,我有这些字符串:s1-“我爱你”s2-“你好吗”s3-“怎么了伙计”

我有很多文本数据,例如:t1-“嗨,我叫奥米德,我喜欢电脑。你们好吗?”t2-“你的每一个愿望都会实现,他们告诉我……”t3t4...t10000

然后我想考虑每个文本并搜索其中的每个字符串。最后,对于这个示例,我只想说:t1 包含 s1,仅此而已。我正在寻找一种有效的方法来搜索字符串,但不是每次都愚蠢地搜索每个字符串。

最佳答案

很抱歉只发布链接答案,但如果您不介意阅读研究论文,在我看来关于字符串匹配算法的权威引用是 http://www-igm.univ-mlv.fr/~lecroq/string/和以下 research paper由 Simone Faro 和 Thierry Lecroq 撰写,他们比较了至少 85 种不同的字符串匹配算法的相对性能。我很确定其中有一个适合您的需要。

关于c++ - 在非常大的文本中搜索多个字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21845819/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com