sql - Spark : optimise writing a DataFrame to SQL Server-6ren

sql - Spark : optimise writing a DataFrame to SQL Server

转载作者：太空狗更新时间：2023-10-30 01:44:44

25

4

我正在使用下面的代码将一个包含 43 列和大约 2,000,000 行的 DataFrame 写入 SQL Server 中的一个表中:

dataFrame
  .write
  .format("jdbc")
  .mode("overwrite")
  .option("driver", "com.microsoft.sqlserver.jdbc.SQLServerDriver")
  .option("url", url)
  .option("dbtable", tablename)
  .option("user", user)
  .option("password", password)
  .save()

遗憾的是，虽然它确实适用于小型数据帧，但它要么非常慢，要么对于大型数据帧超时。关于如何优化它的任何提示？

我试过设置 rewriteBatchedStatements=true

谢谢。

最佳答案

尝试将 batchsize 选项添加到至少 > 10000 的语句中(相应地更改此值以获得更好的性能)并再次执行写入.

From spark docs:

The JDBC batch size, which determines how many rows to insert per round trip. This can help performance on JDBC drivers. This option applies only to writing. It defaults to 1000.

也值得一试:

numPartitions option增加并行度(这也决定了JDBC最大并发连接数)
queryTimeout option 增加写入选项的超时时间。

关于sql - Spark : optimise writing a DataFrame to SQL Server，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55708079/

25

4

0

文章推荐： database - Sequelize中如何使用findOrCreate

文章推荐： python - 用 python 绘制 3d 笛卡尔网格

文章推荐：数据库架构 - 预订/可用性系统

文章推荐： python - 在 matplotlib 中使用 fill 或 fill_between 绘制 donut

sql-server - 为什么 UPDATE .WRITE() 仅在我使用 [column].WRITE() 时才有效，而不是 [table].[column].WRITE()？
我正在执行 UPDATE .WRITE() 语句，并发现它显然只有在您像这样定义它时才有效: string sql = "UPDATE [dbo].[Table] SET [Column].WRITE
c - 使用一系列 write() 而不是单个 write()
我在 Unix 系统上用 C 编程。我知道: write(fd,"ABCD",4); 比这样做更好: write(fd, "A", 1); write(fd, "B", 1); write(fd, "
GoLang, "hash.Write", "write()"函数是从哪里来的？
func hash(s string) uint32 { h := fnv.New32a() h.Write([]byte(s)) return h.Sum32() } 对于这
javascript - Response.write 与 Document.write
在经典的 asp 页面中，有人告诉我您可以使用 vbscript 或 jscript。而 jscript 就是 javascript。所以我不确定 Response.Write、Response.W
javascript - stdin.write 抛出错误 : write EPIPE
当 openssl 子进程尝试 write() 到本地目录时，我收到此错误。在调用 write() 之前连接已关闭。它没有与 ssl 连接，因为我什至无法从 nodejs 文档启动示例代码。我错过了
java - writing 和 writing with flush 有什么区别？
最近我在试验netty。我遇到了以下问题: ctx.channel().write(new TextWebSocketFrame("hello")) 没有在客户端返回 hello，但是 ctx.cha
python - write 和 tempfile.write 的区别
请解释以下内容: def feed(data): import os print "DATA LEN: %s" % len(data) f = open("copy", "w") f.
.net - debug.write 和 Trace.write 有什么区别？
有什么区别debug.write 和 Trace.write ?每个应该什么时候使用？最佳答案在典型的发布构建配置中，Debug class 被禁用并且什么都不做。 Trace但是，仍然可以在发行
c# - Stream.Write 多次或连接字符串和 Stream.Write 一次更好吗？
我只是想知道，就性能而言，哪个更好(我在 FileStream 中使用 StreamWriter): 多次调用 Stream.Write(): StreamWriter sw = new Stream
c# - HttpResponse.Write 与 StringWriter.Write 有何不同？
我发现自己写给 stringwriter，然后在函数末尾执行 resp.Write(sw.ToString())。这是不必要的吗？如果我多次使用 HttpResponse.Write，即使我的页面是
javascript - win.document.write ('content' );无法读取未定义的属性 'write'
我正在尝试通过 JavaScript 文件从 electron 打开一个新窗口，它可以工作，并打开了新窗口，但我无法将 HTML/文本写入新文件。我收到那个错误: Cannot read proper
c++ - Qt QIODevice::write/QTcpSocket::write 和写入的字节
我们对 QIODevice::write 的一般行为和具体的 QTcpSocket 实现感到非常困惑。有一个 similar question已经，但答案并不令人满意。主要的混淆源于分别提到的 byt
fortran - Fortran 中 write(*,*) 和 write(6,*) 的区别
我知道这听起来像是一个愚蠢的问题: write(*,*) 和 write(6,*) ?我在我研究所的 super 计算机上运行一个复杂的代码，它通过一个不同于 6 的单元号输出一个数据文件，显然编译的
rust - 对我的可写类型使用 fmt::Write 或 io::Write trait？
我有一个结构体，它可以通过一系列复杂的方法调用转换为文本，其中包含大量 write!调用。此文本可以写入文件或调试日志。我正在决定是否使用 fmt::Write 或 io::Write .我不能真正使
c - 当我尝试使用 write (man 2 write) 函数时，为什么这段代码会卡住？
已关闭。这个问题是 not reproducible or was caused by typos 。目前不接受答案。这个问题是由拼写错误或无法再重现的问题引起的。虽然类似的问题可能是 on-top
`read()` 后面可以直接跟 `write()` 吗？ `write()` 后面可以直接跟 `read()` 吗？
In the C standard library, an output can't be followed by an input and vice versa. 对于Linux API，可以在re
javascript - 如何 document.write 然后在延迟 document.write 之后再次
我希望能够为一件事做 document.write。然后延迟半秒，然后再记录。写一些。你知道这是否可能吗？而且，如果是这样，怎么办？到目前为止，我已经尝试过了，但没有奏效: document.writ
javascript - 为什么从 onclick 属性调用的函数 write() 解析为 document.write()？
为什么通过 onclick 属性调用的 write() 函数解析为 document.write() 并替换文档？有什么办法可以阻止这种情况发生吗？ Write Function Alternat
Python 3 : write method vs. os.write 返回的字节数
我想创建一个包含多个“页面”的文本文件，并将每个页面的字节偏移量记录在一个单独的文件中。为此，我将字符串打印到主输出文件并使用 bytes_written += file.write(str) 计算字
c# - 一次构建一个大字符串并将其传递给 response.write 或为每个片段调用 response.write 是否更有效
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 8 年前。 Improve this qu

首页

博学

6Ren·AI

商城

sql - Spark : optimise writing a DataFrame to SQL Server