clojure - 多次添加相同的数据不是最理想的吗？-6ren

clojure - 多次添加相同的数据不是最理想的吗？

转载作者：行者123 更新时间：2023-12-04 13:37:34

26

4

我目前在我的一个项目中使用 Datomic，一个问题困扰着我。

这是我的问题的简化版本:

我需要解析一个小英语句子列表，并将完整的句子及其单词插入 Datomic。
包含句子列表的文件很大(> 10 GB)
同一个句子可以在文件中出现多次，他们的词也可以跨句出现多次
在插入过程中，将设置一个属性，将每个句子与其对应的词相关联

为了简化插入过程，我很想多次写入相同的数据(即不检查数据库中是否已存在记录)。但我担心性能影响。

多次添加相同的数据时，Datomic 中会发生什么情况？
是否值得检查在交易之前是否已经添加了一个 datom？
有没有办法防止 Datomic 覆盖以前的 datom(即，如果记录已经存在，则跳过事务)？

谢谢你的帮助

最佳答案

What happens in Datomic when the same datoms are added multiple times ?

Is it worth checking that a datom has already been added prior to the transaction ?

从逻辑上讲，Datomic 数据库是一组有序的数据原子，因此多次添加相同的数据原子是幂等的。但是，当您使用 tempid 声明一个数据时，您可以创建一个新数据来表示与旧数据相同的信息。这是:db/unique的地方进来了。

为确保实体不会被多次存储，您需要将 :db/unique 属性属性设置为 :db.unique/identity 以获得正确的属性.例如，如果您的模式包含 3 个属性 :word/text、:sentence/text 和 :sentence/words，那么 :word/text 和 :sentence/text 应该是 :db.unique/identity，这会产生以下模式安装事务:

[{:db/cardinality :db.cardinality/one,
  :db/fulltext true,
  :db/index true,
  :db.install/_attribute :db.part/db,
  :db/id #db/id[:db.part/db -1000777],
  :db/ident :sentence/text,
  :db/valueType :db.type/string,
  :db/unique :db.unique/identity}
 {:db/cardinality :db.cardinality/one,
  :db/fulltext true,
  :db/index true,
  :db.install/_attribute :db.part/db,
  :db/id #db/id[:db.part/db -1000778],
  :db/ident :word/text,
  :db/valueType :db.type/string,
  :db/unique :db.unique/identity}
 {:db/cardinality :db.cardinality/many,
  :db/fulltext true,
  :db/index true,
  :db.install/_attribute :db.part/db,
  :db/id #db/id[:db.part/db -1000779],
  :db/ident :sentence/words,
  :db/valueType :db.type/ref}]

那么插入插入的事务看起来是这样的:

[{:sentence/text "Hello World!"
  :sentence/words [{:word/text "hello"
                    :db/id (d/tempid :db.part/user)}
                   {:word/text "world"
                    :db/id (d/tempid :db.part/user)}]
  :db/id (d/tempid :db.part/user)}]

关于性能:

您可能根本不需要优化，但在我看来，您的导入过程的潜在性能瓶颈是:

在 Transactor 中构建交易所花费的时间(包括唯一属性的索引查找等)
建立索引所花费的时间。

改进2.:当你插入的数据被排序时，索引速度更快，所以一个将是插入单词和句子排序。您可以使用 Unix 工具对大文件进行排序，即使它们不适合内存。所以这个过程是:

排序句子，插入它们(:sentence/text)
提取单词，排序，插入(:word/text)
插入词句关系(:sentence/words)

改进 1.:事实上，它可以减轻交易者对已经存储的单词使用实体 ID 而不是整个单词文本的压力(这需要索引查找以确保唯一性) ).一个想法可能是通过利用并行性和/或仅针对频繁的单词在对等点上执行该查找(例如，您可以插入前 1000 个句子中的单词，然后检索它们的实体 ID 并将它们保存在 HashMap 中).

就我个人而言，除非经验表明它们是必要的，否则我不会进行这些优化。

关于clojure - 多次添加相同的数据不是最理想的吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41305070/

26

4

0

文章推荐： python - Acrobat Reader 无法打开 Matplotlib 生成的 pdf

文章推荐： c++ - INT_MIN 的用途

文章推荐： python - PySpark toPandas 函数正在更改列类型

文章推荐： css - 防止页面跳转按钮点击？ ReactJS

clojure - Clojure 为什么命名为 Clojure
为什么该语言的名称是“Clojure”？我用谷歌搜索了一下，在#clojure 中询问。到目前为止，还没有运气。最佳答案 Rich Hickey(他是 Clojure 的设计者)对此的评论是 wi
clojure - 从 Clojure 应用程序转换到最新的 Clojure 时遇到问题
我不明白为什么升级后会出现以下编译错误: Compiling addr-verify.core Exception in thread "main" java.lang.NoClassDefFound
clojure - 如何防止 Clojure 异常 : clojure. lang.LazySeq cannot be cast to clojure.lang.IFn
我试图将从映射操作返回的(惰性)序列传递给另一个映射操作，以便我可以在第一个序列中查找元素。代码从文本文件(以行/列格式)解析一些足球装置，清理它，然后返回一张 map 。这是代码: (ns fix
clojure - 在 Clojure 中过滤集合 clojure.set/select 与 clojure.core/filter
我想过滤一组，例如: (filter-set even? #{1 2 3 4 5}) ; => #{2 4} 如果我使用clojure.core/filter我得到一个不是集合的seq: (filte
clojure - clojure 中具有相同名称的多个函数
(defn hi[](+ 5 6)) (hi) (defn hi[](+ 6 7)) (hi) 你好，我是 clojure 的新手。如上所述，我编写了两个具有相同名称的函数。我们可以在 cloj
clojure - 十进制到二进制 Clojure
我按照这个伪代码递归地将十进制转换为二进制。 findBinary(decimal) if (decimal == 0) binary = 0 else binar
clojure - Clojure 中的浮点精度
我正在尝试学习 Clojure 并尝试定义这个简单的函数: user=> (defn triple [arg] (* 3 arg)) #'user/triple user=> (triple 1) 3
clojure - Clojure 中的宏 -> ->>
是->和 ->>宏只是为了使代码更具可读性还是它们还有其他特定功能？最佳答案线程优先( -> )和线程最后( ->> )是为了使代码更具可读性。但这已经很重要了! 它允许取消嵌套函数调用(示例取自
clojure - Clojure 中的线程安全流行？
我在 http://www.learningclojure.com/2010/11/yet-another-way-to-write-factorial.html 上找到了这个代码，但我不明白 pop
clojure - Clojure 序列推导式中是否存在变量？
我正在阅读 Programming Clojure 2nd edition，在第 49 页它涵盖了 Clojure 的 for 循环结构，它说它实际上是一个序列理解。作者建议使用以下代码: (def
clojure - Clojure 中的双端队列
Clojure 中有双端队列吗？我的印象是 Clojure 的 PersistentQueue 是单端的(我错了吗？)。我需要能够从队列的任一端删除(即“pop”)和“peek”数据。我所说的双端队列
clojure - clojure 有标识符宏吗？
换句话说，有没有办法在看起来不像 (MACRO arg* ...) 的表单上触发宏扩展？ . 举一个假设的例子: (defmacro my-var (do (printf "Using my-va
clojure - Clojure 中最简单的惰性函数
我很难理解懒惰。有人能帮我理解为什么我下面的函数不是懒惰的吗 (defn my-red ([f coll] (my-red f (first coll) (rest coll) ))
clojure - Clojure 中函数参数排序的经验法则
在 Clojure 核心中决定参数函数顺序的规则是什么(如果有的话)？类似 map 的函数和 filter期望数据结构作为最后一个争论。类似 assoc 的函数和 select-keys期待数据
clojure - Clojure 中的完成函数有什么作用？
我在 clojuredocs 上遇到过 completing 函数，但目前没有文档。你能提供一些例子吗？最佳答案 completing 用于扩充可能没有具有一元“完成”元数的一元重载的二元归约函数
clojure - Clojure 中记录的模式匹配
这个现在支持吗？我能找到的唯一信息是来自维基的示例( https://github.com/clojure/core.match/wiki/Deftype-and-defrecord-matching
clojure - clojure 代码示例中的这个函数定义有什么作用？
我正在关注“Clojure in Action”，对此我感到困惑: (defn with-log [function-to-call log-statement ] (fn [& args
clojure - Clojure 中函数名称中的箭头
对于下面的代码，箭头是宏还是函数名称中的简单字符？ (来自 here) (defn file->map [file] ;; TODO ) 最佳答案箭头是函数名称的一部分。有一个函数定义，不是
clojure - clojure 是否具有完全包含的范围功能？
Clojure 的 range函数包含来自 start独家在end (如果提供)。核心库中是否有一个函数可以提供完全包含(开始和结束)的范围？我发现在某些情况下必须调整最终值的代码 - 例如向下而不
clojure - Clojure 中的动态记录
当我尝试从 REPL 运行以下代码时(使用动态记录): (defrecord (symbol "rec2") (vec (map symbol ["f1" "f2"]))) 我收到错误 Compile

首页

博学

6Ren·AI

商城

clojure - 多次添加相同的数据不是最理想的吗？

关于性能: