- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个 CSV,它有 3400 万行长。是的,不是开玩笑。
这是由 parser tracer 生成的 CSV 文件然后导入到 corresponding debugging program .
而问题出在后者。
现在我一一导入所有行:
private void insertNodes(final DSLContext jooq)
throws IOException
{
try (
final Stream<String> lines = Files.lines(nodesPath, UTF8);
) {
lines.map(csvToNode)
.peek(ignored -> status.incrementProcessedNodes())
.forEach(r -> jooq.insertInto(NODES).set(r).execute());
}
}
csvToNode
只是一个映射器,它将把 String
(CSV 的一行)转换为 NodesRecord
以供插入。
现在,行:
.peek(ignored -> status.incrementProcessedNodes())
好吧...方法名称几乎说明了一切;它会增加 status
中的一个计数器,该计数器反射(reflect)到目前为止已处理的行数。
发生的事情是每秒查询一次此 status
对象以获取有关加载过程状态的信息(我们在这里讨论的是 3400 万行;加载它们大约需要 15 分钟)。
但是现在 jooq 有这个(取自他们的文档)可以直接从 CSV 加载:
create.loadInto(AUTHOR)
.loadCSV(inputstream)
.fields(ID, AUTHOR_ID, TITLE)
.execute();
(尽管我个人永远不会使用 .loadCSV()
重载,因为它不考虑 CSV 编码)。
当然,JooQ 会设法将其转化为合适的构造,以便对于这个或那个数据库引擎,吞吐量最大化。
然而,问题是我丢失了从当前代码中获得的“按秒”信息...如果我用 select count(*) from the_victim_table
替换查询,那种失败的重点,更不用说这可能需要很长时间了。
那么,我如何获得“两全其美”呢?也就是说,有没有一种方法可以使用“优化的 CSV 加载”并在任何时间足够快地查询到目前为止已插入了多少行?
(注意:如果有关系,我目前使用 H2;PostgreSQL 版本也在计划中)
最佳答案
有很多方法可以对此进行优化。
在您身边优化查询执行的一种方法是将值集收集到:
INSERT INTO t VALUES(1), (2), (3), (4)
)... 而不是一个一个地执行它们。这也是 Loader
API 的作用(见下文)。所有这些措施都可以大大提高加载速度。
这是您当前可以“收听”加载进度的唯一方式。
(尚未发布,但很快就会发布)
jOOQ在jOOQ 3.6中原生实现了以上三种分区措施
jOOQ 将始终需要通过 JDBC,因此可能不会为您提供最快选项。大多数数据库都有自己的加载 API,例如你提到的那些:
这会更底层,但肯定比其他任何东西都快。
What happens is that this status object is queried every second to get information about the status of the loading process (we are talking about 34 million rows here; they take about 15 minutes to load).
这是一个非常有趣的想法。将此注册为 Loader
API 的功能请求:Using JooQ to "batch insert" from a CSV _and_ keep track of inserted records at the same time?
though personally I'd never use THAT .loadCSV() overload since it doesn't take the CSV encoding into account
我们已经为 jOOQ 3.6 修复了这个问题,感谢您的评论:https://github.com/jOOQ/jOOQ/issues/4141
And of course JooQ will manage to turn that into a suitable construct so that for this or that DB engine the throughput is maximized.
不,jOOQ 不对最大化吞吐量做出任何假设。这非常困难,并且取决于数据库供应商以外的许多其他因素,例如:
jOOQ 帮助您自己最大化吞吐量。例如,在 jOOQ 3.5+ 中,您可以:
commitXXX()
方法完成。在 jOOQ 3.6+ 中,您还可以:
bulkXXX()
方法完成。batchXXX()
方法完成。关于java - 使用 JooQ 从 CSV 中提取 "batch insert"并同时跟踪插入的记录?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29086758/
我正在做一个业余爱好项目,使用 Ruby、PHP 或 Java 来抓取 ASP.net 网站的内容。例如,如果网站 url“www.myaspnet.com/home.aspx”。我想从 home.a
如果我有这些字符串: mystrings <- c("X2/D2/F4", "X10/D9/F4", "X3/D22/F4",
我有以下数据集 > head(names$SAMPLE_ID) [1] "Bacteria|Proteobacteria|Gammaproteobacteria|Pseudomonadales|Mor
设置: 3个域类A,B和C。A和B在插件中。 C在依赖于此插件的应用程序中。 class A{ B b static mapping = { b fetch: 'joi
我不知道如何提取 XML 文件中的开始标记元素名称。我很接近〜意味着没有错误,我正在获取标签名称,但我正在获取标签名称加上信息。我得到的是: {http://www.publishing.org}au
我有一个字符串 x <- "Name of the Student? Michael Sneider" 我想从中提取“Michael Sneider”。 我用过: str_extract_all(x,
我有一个如下所示的文本文件: [* content I want *] [ more content ] 我想读取该文件并能够提取我想要的内容。我能做的最好的事情如下,但它会返回 [更多内容] 请注意
假设我有一个项目集合 $collection = array( 'item1' => array( 'post' => $post, 'ca
我正在寻找一种过滤文本文件的方法。我有许多文件夹名称,其中包含许多文本文件,文本文件有几个没有人员,每个人员有 10 个群集/组(我在这里只显示了 3 个)。但是每个组/簇可能包含几个原语(我在这里展
我已经编写了一个从某个网页中提取网址的代码,我面临的问题是它不会以网页上相同的方式提取网址,我的意思是如果该网址位于某些网页中法语,它不会按原样提取它。我该如何解决这个问题? import reque
如何在 C# 中提取 ZipFile?(ZipFile 是包含文件和目录) 最佳答案 为此使用工具。类似于 SharpZip .据我所知 - .NET 不支持开箱即用的 ZIP 文件。 来自 here
我有一个表达: [training_width]:lofmimics 我要提取[]之间的内容,在上面的例子中我要 training_width 我试过以下方法: QRegularExpression
我正在尝试创建一个 Bash 脚本,该脚本将从命令行给出的最后一个参数提取到一个变量中以供其他地方使用。这是我正在处理的脚本: #!/bin/bash # compact - archive and
我正在寻找一个 JavaScript 函数/正则表达式来从 URI 中提取 *.com...(在客户端完成) 它应该适用于以下情况: siphone.com = siphone.com qwr.sip
关闭。这个问题需要更多focused .它目前不接受答案。 想改进这个问题吗? 更新问题,使其只关注一个问题 editing this post . 关闭 8 年前。 Improve this qu
编辑:添加了实际的 JSON 对象和代码以供审查 我有这种格式的 JSON(只是这种层次结构,假设 JSON 正常工作) {u'kind': u'calendar#events', u'default
我已经编写了代码来使用 BeautifulSoup 提取一本书的 url 和标题来自页面。 但它并没有在 > 之间提取惊人的 super 科学故事 1930 年 4 月这本书的名字。和 标签。 如何提
使用 Java,我想提取美元符号 $ 之间的单词。 例如: String = " this is first attribute $color$. this is the second attribu
您好,我正在尝试找到一种方法来确定字符串中的常量,然后提取该常量左侧的一定数量的字符。 例如-我有一个 .txt 文件,在那个文件的某处有数字 00nnn 数字的例子是 00234 00765 ...
php读取zip文件(删除文件,提取文件,增加文件)实例 从zip压缩文件中提取文件 复制代码 代码如下: <?php /* php 从zip压缩文件
我是一名优秀的程序员,十分优秀!