recursion - Datomic 的递归数据日志查询真的很慢-6ren

recursion - Datomic 的递归数据日志查询真的很慢

转载作者：行者123 更新时间：2023-12-04 12:12:10

26

4

我目前正在评估 Datomic 用于存储和查询构成本体的已解析符号的用例。数据库中总共有 225122 个符号(实体)(所以它是一个相当大的本体，但对于 DB 来说应该不是什么大问题)。

结构非常标准，符号有

包含它们的父符号(如子符号等)

super 符号(它们继承的符号)

为了更好地访问符号，我们有一个独特的 name对于每个符号。这加起来就是以下 Datomic 模式:

[{:db/ident :ml/name,
  :db/valueType :db.type/string,
  :db/cardinality :db.cardinality/one,
  :db/unique :db.unique/identity}
 {:db/ident :ml/parent,
  :db/valueType :db.type/ref,
  :db/index true,
  :db/cardinality :db.cardinality/one}
 {:db/ident :ml/superclass,
  :db/valueType :db.type/ref,
  :db/index true,
  :db/cardinality :db.cardinality/one}]

现在我有了最基本的递归查询“给我(传递地)包含在符号 p 中的所有符号”。在数据方面:

(def rules
  '[
    [(ubersymbol ?c ?p) (?c :ml/parent ?p)]
    [(ubersymbol ?c ?p) (?c :ml/parent ?c1) (ubersymbol ?c1 ?p) ]
    ])
(q '[:find ?c ?n :in $ % :where
     (ubersymbol ?c ?d) [?d :ml/name "name of a root symbol"] [?c :ml/name ?n]]
   current-db rules)

查询本身(所以是一个中等大小的符号)需要在 之间5 和 5.5 秒并返回 80 次点击。 不是毫秒，而是实秒 .这只是我想询问的有关数据集的最基本查询(它旨在从网络工具中使用，以帮助建模者了解本体的结构)。

我在运行 datomic-pro-0.9.5554 ，使用内存数据库并使用对等库(我按照 "getting started" 指南中的描述启动了服务器。

非常感谢为 Datomic 提供案例的帮助。

马库斯

最佳答案

编辑

如 fricke自己发现，是子句排序的问题，但在查询中，而不是在规则集中。更有效的版本是:

[:find ?c ?n :in $ % :where
   [?d :ml/name "name of a root symbol"]
   (ubersymbol ?c ?d) 
   [?c :ml/name ?n]]

可以通过以下方式进一步改进上述查询:

在查询正文中使用查询参数而不是使用动态参数

使用查找引用通过其 :ml/name 解析输入实体

产生:

(d/q
  '[:find ?c ?n :in % $ ?d :where
    (ubersymbol ?c ?d)
    [?c :ml/name ?n]]
  rules current-db [:ml/name "name of a root symbol"])

我的理论是，您的规则不是以 Datalog 可以针对此读取模式优化的方式编写的 - 可能会导致遍历所有实体。我建议将它们重写如下:

[[(ubersymbol ?c ?p) 
  (?c :ml/parent ?p)]
 [(ubersymbol ?c ?p) 
  ;; we bind a child of the ancestor, instead of a parent of the descendant
  (?c1 :ml/parent ?p)
  (ubersymbol ?c ?c1)]]

这种编写规则集的方式经过优化，可以找到某个节点的后代。您最初编写它的方式经过优化以找到某个节点的祖先。

在我的机器上使用 Datomic 0.9.5385 在 50000 个实体的平衡二叉树上进行的快速基准测试表明，使用第二种方法确实获得了所需的性能。

关于recursion - Datomic 的递归数据日志查询真的很慢，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42457136/

26

4

0

文章推荐： android - 如何去除饼图中的中心白圈

文章推荐： visual-studio-code - 在代码段中转义 $

文章推荐： ecdsa - 如何对 JWK 进行指纹识别？

两个表之间的 Postgis ST_Intersects 真的(真的)很慢
我正在尝试在两个表之间进行空间连接: 表 1:397265 个特征(在 geom 字段上有 gist 索引) 表 2:73 个特征(在 geom 字段上有 gist 索引) 表 1 和表 2 具有相同
两个表之间的 Postgis ST_Intersects 真的(真的)很慢
我正在尝试在两个表之间进行空间连接: 表 1:397265 个特征(在 geom 字段上有 gist 索引) 表 2:73 个特征(在 geom 字段上有 gist 索引) 表 1 和表 2 具有相同
java - 枚举类型的值是该类型的静态变量。真的？
枚举类型的值是该类型的静态变量。据我所知，变量是由引用变量引用的，但没有新的运算符来实例化枚举对象。但这就像初始化数组一样吗？这是对还是错？最佳答案是的，枚举类型的文字是 public sta
autocomplete - *真的*关闭zsh自动更正
我阅读了有关关闭 zsh 自动更正以完成命令的所有提示。但是，它们并没有完全发挥作用。我试过 DISABLE_CORRECTION="true", unsetopt correct, unsetopt
firefox - 如何获得firefox语言设置？ (真的)
我知道这个问题是 answered before ，但给出的答案并不是完整的故事: 我进入了 Firefox 的 Options->Content 并删除了除德语/德国之外的所有语言，navigato
assembly - 汇编语言有多不可移植，/真的/？
我知道用汇编语言编写任何内容或将汇编语言添加到任何程序都会损害其可移植性。但是，有多糟糕呢？我的意思是，现在基本上所有 PC 都是 x86 或 x64，对吧？那么，如果我将汇编嵌入到 C 程序中，为什
java - 我应该用一会儿吗(真的)
我正计划构建一个 Web 服务客户端，它始终检查数据库中的某些记录，并根据数据库内容的结果在每个时刻及时执行某些决策。所以我在想，我怎样才能让客户端一直运行呢？我唯一想到的就是无限循环。像这样的东
python - 获取小部件的背景颜色 - 真的
我无法获取小部件的实际背景颜色。在我的特殊情况下，我在使用 QTabWidget 中的小部件时遇到了问题。这是在 Windows7 上。所以经典小部件有一些灰色背景，而选项卡中的小部件通常用白色背景
android - 如何包装首选项标题？ (真的)
请不要将我指向How to wrap preference title?因为它不适用于(正如我评论的那样)您使用 @strings/ 的情况对 strings.xml 文件的引用。如果你使用 and
hadoop - 在Hive更新期间HDFS中发生了什么(真的)？
情况如下：已知hdfs是仅附加的（本身没有更新）。配置单元将数据写入其位于hdfs中的仓库。可以在配置单元中执行更新这意味着写入了新数据，旧数据应该以某种方式标记为已弃用，然后在某个时间将其清
javascript - *真的*用javascript删除cookies
在javascript中删除cookies的方法是将过期日期设置为过去。现在这实际上并没有删除 cookie，至少在 Firefox 中是这样。这只是意味着 cookie 将在浏览器关闭时被删除。这
c# - 杀死线程，真的!
我需要终止一个卡住的线程，我将 IsBackground 设置为 true 但它仍然存在。线程的属性: ThreadState = AbortRequested IsBackground = true
boolean - 有没有理由写.eqv。。真的。？
在逻辑中，以及在 *ahem* 正确设计的编程语言中，将 boolean 值与 true 进行比较总是多余的，即 a == True 应该简单地替换为 a 。 (类似地， a == False 由 n
multithreading - "thread"(真的)是什么？
我一直在努力寻找一个好的定义，并理解线程到底是什么。看来我一定错过了一些明显的东西，但是每次我读到什么是线程时，它几乎是一个循环定义，la“线程是一个执行线程”或“一种划分运行任务的方法” ”。呃呃
c++ - 你(真的)编写异常安全代码吗？
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
intellij-idea - IntelliJ全面屏，真的
是否可以在 MAC 上以真正的全屏模式运行 IntelliJ Idea？没有工具栏、侧边栏、按钮，只有代码。如果可以，请告诉我。最佳答案您可以通过禁用以下项目在 View 菜单中执行此操作:
scala - 将案例类用于可变状态是否(真的)不好？
考虑以下代码: case class Vector3(var x: Float, var y: Float, var z: Float) { def add(v: Vector3): Unit =
java - 模型 - 持久层和服务层？真的？
我试图确认这个说法是否属实: 模型包括: 持久层:本质上是 DAO + 表示表的类 + DTO 服务层:DAOS + 一些逻辑的组合您能否也引用/支持您的回答？我相信我在Spring Framewo
c++ - 虚拟基类子对象的多个实例(真的)——不可能吗？
给定代码: #include struct X {}; struct Y1: virtual X {}; struct Y2: virtual X {}; struct Y3: virtual X
c++ - 不，真的，浮点提升什么时候发生？
从这个其他QUESTION他们谈论 Bjarne Stroustrup 是如何说的，就像比 int 窄的整数数据类型(例如 short)被提升为 int，float 被提升为 double。但是，与i

首页

博学

6Ren·AI

商城

recursion - Datomic 的递归数据日志查询真的很慢