python - 当语料库有 100 亿个独特的 DNA 序列时，如何使用 BK 树实现快速模糊搜索引擎？-6ren

python - 当语料库有 100 亿个独特的 DNA 序列时，如何使用 BK 树实现快速模糊搜索引擎？

转载作者：行者123 更新时间：2023-12-04 11:26:20

26

4

我正在尝试使用 BK-tree python 中的数据结构来存储具有约 100 亿个条目 ( 1e10 ) 的语料库，以实现快速模糊搜索引擎。
一旦我将超过约 1000 万( 1e7 )个值添加到单个 BK 树中，我开始发现查询性能显着下降。
我想将语料库存储到一千个 BK 树的森林中并并行查询它们。
这个想法听起来可行吗？我应该同时创建和查询 1,000 个 BK 树吗？为了在这个语料库中使用 BK 树，我还能做什么。
我用 pybktree.py我的查询旨在查找编辑距离内的所有条目 d .
是否有一些架构或数据库可以让我存储这些树？
备注 :我没有用完内存，而是树开始效率低下(大概每个节点都有太多子节点)。

最佳答案

很少的想法
BK-trees
感谢 Ben Hoyt 及其与 issue 的链接我将从中吸取。话虽如此，上述问题的第一个观察结果是 BK 树并不完全是对数的。根据你告诉我们的，你通常的 d 是 ~6，这是你的字符串长度的 3/10。不幸的是，这意味着如果我们从问题中查看表格，您将获得介于 O(N^0.8) 到 O(N) 之间的复杂度。在乐观的情况下
指数为 0.8(可能会稍微差一些)，您的 10B 条目的改进系数约为 100。因此，如果您有一个相当快的 BK 树实现，那么使用它们或将它们用作进一步优化的基础仍然是值得的。
这样做的缺点是，即使您并行使用 1000 棵树，您也只能从并行化中获得改进，因为树的性能取决于 d 而不是树中节点的数量。但是，即使您用一台大型机器一次运行所有 1000 棵树，我们也会在大约 1000 万个节点/树上，您报告说它很慢。尽管如此，在计算方面，这似乎是可行的。
蛮力方法
如果你不介意付一点钱，我会研究一下谷歌云大查询之类的东西，如果这不与某种数据 secret 性发生冲突。他们将为您强力解决方案 - 收费。当前的费率是 5 美元/TB 的查询。您的数据集是 ~10B 行 * 20chars。每个字符占用一个字节，一个查询将占用 200GB，所以如果你走懒惰的方式，每个查询大约 1 美元。
但是，由于费用是按列中数据的每个字节而不是按问题的复杂性计算的，您可以通过将字符串存储为位来改进这一点 - 每个字母 2 位，这将为您节省 75% 的费用。
进一步改进，您可以将查询编写为一次请求十几个字符串的方式。您可能需要谨慎使用一批类似的字符串来进行查询，以避免过多的一次性结果阻塞结果。
BK 树的暴力破解
因为如果你按照上面的路线走，你将不得不根据数量付费，所需计算量减少约 100 倍，价格减少约 100 倍，这可能很有用，特别是如果你有很多查询运行。
但是，您需要找到一种方法将这棵树存储在多层数据库中以递归查询，因为 Bigquery 定价取决于查询表中的数据量。
为查询的递归处理构建智能批处理引擎以最小化成本可能是有趣的优化练习。
语言选择
还有一件事。虽然我认为 Python 是一种用于快速原型(prototype)设计、分析和总体代码思考的好语言，但您已经过了那个阶段。您目前正在寻找一种方法来做 具体、定义明确且经过深思熟虑 操作尽可能快。 Python 不是一种很好的语言，因为 this example显示。虽然我在 Python 中使用了我能想到的所有技巧，但 Java 和 C 解决方案仍然快了几倍。 (更不用说打败我们所有人的 rust 了——但他也通过算法打败了我们，所以很难比较。)所以如果你从 python 转向一种更快的语言，你可能会获得另一个或十个甚至更多的因素性能增益。这可能是另一个有趣的优化练习。
备注 :我对估计相当保守，因为fuzzywuzzy已经提供在后台使用C库，所以我不太确定有多少工作仍然依赖于python。我在类似情况下的经验是，从纯 python(或更糟，纯 R)到编译语言，性能增益可以是 100 倍。

关于python - 当语料库有 100 亿个独特的 DNA 序列时，如何使用 BK 树实现快速模糊搜索引擎？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/65588433/

26

4

0

文章推荐： gnuplot:如何获得正确的周数？

文章推荐： android - Jetpack Compose 中的过度滚动处理

树结构之MongoDb 使用的到底是 B 树，还是 B+ 树？
关于 B 树与 B+ 树，网上有一个比较经典的问题：为什么 MongoDb 使用 B 树，而 MySQL 索引使用 B+ 树? 但实际上 MongoDb 真的用的是 B 树吗?
c# - 持久(基于磁盘)R 树(或 R* 树)
如何将 R* Tree 实现为持久(基于磁盘)树？保存 R* 树索引或保存叶值的文件的体系结构是什么？注意:此外，如何在这种持久性 R* 树中执行插入、更新和删除操作？注意事项二:我已经实现了一个
java - 给定另一个 AST 树，在 Java 中创建一个 AST 树
目前，我正在努力用 Java 表示我用 SML 编写的 AST 树，这样我就可以随时用 Java 遍历它。我想知道是否应该在 Java 中创建一个 Node 类，其中包含我想要表示的数据，以及一个数
c++ - C++ 中任何好的范围查询库(使用 K-D 树、四叉树或 R 树)
我之前用过这个库http://www.cs.umd.edu/~mount/ANN/ .但是，它们不提供范围查询实现。我猜是否有一个 C++ 范围查询实现(圆形或矩形)，用于查询二维数据。谢谢。最佳
为什么MySQL数据库索引选择使用B+树?
在进一步分析为什么MySQL数据库索引选择使用B+树之前，我相信很多小伙伴对数据结构中的树还是有些许模糊的，因此我们由浅入深一步步探讨树的演进过程，在一步步引出B树以及为什么MySQL数据库索引选择
数据结构-树，三探之代码实现
书接上回，今天和大家一起动手来自己实现树。相信通过前面的章节学习，大家已经明白树是什么了，今天我们主要针对二叉树，分别使用顺序存储和链式存储来实现树。 01、数组实现我们在上一节中说过，
数据结构-树，再探
书节上回，我们接着聊二叉树，N叉树，以及树的存储。 01、满二叉树如果一个二叉树，除最后一层节点外，每一层的节点数都达到最大值，即每个节点都有两个子节点，同时所有叶子节点都在最后一层，则这个
数据结构-树，初探
树是一种非线性数据结构，是以分支关系定义的层次结构，因此形态上和自然界中的倒挂的树很像，而数据结构中树根向上树叶向下。什么是树？ 01、定义树是由n（n>=0）个元素节点组成的
操作系统的那棵“树”---06
操作系统的那棵“树” 今天从一颗开始，我们看看如何从小树苗长成一颗苍天大树。运转CPU CPU运转起来很简单，就是不断的从内存取值执行。 CPU没有好好运转 IO是个耗费时间的活，如果CPU在取值
r - 从物种列表制作简单的系统发育树状图(树)
我想为海洋生物学类(class)制作一个简单的系统发育树作为教育示例。我有一个具有分类等级的物种列表: Group <- c("Benthos","Benthos","Benthos","Be
c++ - 树，无法正确删除节点
我从这段代码中删除节点时遇到问题，如果我插入数字 12 并尝试删除它，它不会删除它，我尝试调试，似乎当它尝试删除时，它出错了树的。但是，如果我尝试删除它已经插入主节点的节点，它将删除它，或者我插入数字
haskell - 如何在Haskell中实现B+树？
B+ 树的叶节点链接在一起。将 B+ 树的指针结构视为有向图，它不是循环的。但是忽略指针的方向并将其视为链接在一起的无向叶节点会在图中创建循环。在 Haskell 中，如何将叶子构造为父内部节点的子
GWT 树，开幕事件
我在 GWT 中使用树控件。我有一个自定义小部件，我将其添加为 TreeItem: Tree testTree = new Tree(); testTree.addItem(myWidget); 我想
c - 树/链表结构的遍历
它有点像混合树/链表结构。这是我定义结构的方式 struct node { nodeP sibling; nodeP child; nodeP parent; char
c - 树:使用队列进行层序遍历
我编写了使用队列遍历树的代码，但是下面的出队函数生成错误，head = p->next 是否有问题？我不明白为什么这部分是错误的。 void Levelorder(void) { node *tmp,
javascript - 将平面数组解析为嵌套结构(树)
例如，我想解析以下数组: var array1 = ["a.b.c.d", "a.e.f.g", "a.h", "a.i.j", "a.b.k"] 进入: var json1 = { "nod
java - 树-路径总和
问题 -> 给定一棵二叉树和一个和，确定该树是否具有从根到叶的路径，使得沿路径的所有值相加等于给定的和。我的解决方案 -> public class Solution { public bo
带有列的 Java 树
我有一个创建 java 树的任务，它包含三列:运动名称、运动类别中的运动计数和上次更新。类似的东西显示在下面的图像上: 如您所见，有 4 种运动:水上运动、球类运动、跳伞运动和舞蹈运动。当我展开 sk
mysql - H2数据库中的B+树
我想在 H2 数据库中实现 B+ Tree，但我想知道，B+ Tree 功能在 H2 数据库中可用吗？最佳答案 H2 已经使用了 B+ 树(PageBtree 类)。关于mysql - H2数据库
java - 字符串数组(树)
假设我们有 5 个字符串数组: String[] array1 = {"hello", "i", "cat"}; String[] array2 = {"hello", "i", "am"}; Str

首页

博学

6Ren·AI

商城

python - 当语料库有 100 亿个独特的 DNA 序列时，如何使用 BK 树实现快速模糊搜索引擎？