gpt4 book ai didi

hadoop - 在 postgres 中插入数据时,Reduce 代码随机卡住

转载 作者:可可西里 更新时间:2023-11-01 16:06:09 25 4
gpt4 key购买 nike

我们有一个用 Java 编写的 map reduce 代码,它读取多个小文件(比如 10k+),在驱动程序中转换为单个 avro 文件,reducer 将一堆减少的记录插入到 postgres 数据库中。这个过程每小时发生一次。但是有多个 map reduce 作业同时运行,处理不同的 avro 文件并为每个作业打开不同的数据库连接。所以有时(非常随机)所有任务都卡在 reducer 阶段,但出现以下异常 -

    "C2 CompilerThread0" daemon prio=10 tid=0x00007f78701ae000 nid=0x6db5 waiting on condition [0x0000000000000000]
java.lang.Thread.State: RUNNABLE

"Signal Dispatcher" daemon prio=10 tid=0x00007f78701ab800 nid=0x6db4 waiting on condition [0x0000000000000000]
java.lang.Thread.State: RUNNABLE

"Surrogate Locker Thread (Concurrent GC)" daemon prio=10 tid=0x00007f78701a1800 nid=0x6db3 waiting on condition [0x0000000000000000]
java.lang.Thread.State: RUNNABLE

"Finalizer" daemon prio=10 tid=0x00007f787018a800 nid=0x6db2 in Object.wait() [0x00007f7847941000]
java.lang.Thread.State: WAITING (on object monitor)
at java.lang.Object.wait(Native Method)
- waiting on <0x00000006e5d34418> (a java.lang.ref.ReferenceQueue$Lock)
at java.lang.ref.ReferenceQueue.remove(ReferenceQueue.java:135)
- locked <0x00000006e5d34418> (a java.lang.ref.ReferenceQueue$Lock)
at java.lang.ref.ReferenceQueue.remove(ReferenceQueue.java:151)
at java.lang.ref.Finalizer$FinalizerThread.run(Finalizer.java:189)

"Reference Handler" daemon prio=10 tid=0x00007f7870181000 nid=0x6db1 in Object.wait() [0x00007f7847a42000]
java.lang.Thread.State: WAITING (on object monitor)
at java.lang.Object.wait(Native Method)
- waiting on <0x00000006e5d32b50> (a java.lang.ref.Reference$Lock)
at java.lang.Object.wait(Object.java:503)
at java.lang.ref.Reference$ReferenceHandler.run(Reference.java:133)
- locked <0x00000006e5d32b50> (a java.lang.ref.Reference$Lock)

"main" prio=10 tid=0x00007f7870013800 nid=0x6da1 runnable [0x00007f7877a7b000]
java.lang.Thread.State: RUNNABLE
at java.net.SocketInputStream.socketRead0(Native Method)
at java.net.SocketInputStream.read(SocketInputStream.java:152)
at java.net.SocketInputStream.read(SocketInputStream.java:122)
at org.postgresql.core.VisibleBufferedInputStream.readMore(VisibleBufferedInputStream.java:143)
at org.postgresql.core.VisibleBufferedInputStream.ensureBytes(VisibleBufferedInputStream.java:112)
at org.postgresql.core.VisibleBufferedInputStream.read(VisibleBufferedInputStream.java:71)
at org.postgresql.core.PGStream.ReceiveChar(PGStream.java:269)
at org.postgresql.core.v3.QueryExecutorImpl.processResults(QueryExecutorImpl.java:1700)
at org.postgresql.core.v3.QueryExecutorImpl.execute(QueryExecutorImpl.java:255)
- locked <0x00000006e5d34520> (a org.postgresql.core.v3.QueryExecutorImpl)
at org.postgresql.jdbc2.AbstractJdbc2Statement.execute(AbstractJdbc2Statement.java:555)
at org.postgresql.jdbc2.AbstractJdbc2Statement.executeWithFlags(AbstractJdbc2Statement.java:417)
at org.postgresql.jdbc2.AbstractJdbc2Statement.executeQuery(AbstractJdbc2Statement.java:302)
at ComputeReducer.setup(ComputeReducer.java:299)
at org.apache.hadoop.mapreduce.Reducer.run(Reducer.java:162)
at org.apache.hadoop.mapred.ReduceTask.runNewReducer(ReduceTask.java:610)
at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:444)
at org.apache.hadoop.mapred.Child$4.run(Child.java:268)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:415)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1438)
at org.apache.hadoop.mapred.Child.main(Child.java:262)

"VM Thread" prio=10 tid=0x00007f787017e800 nid=0x6db0 runnable

"Gang worker#0 (Parallel GC Threads)" prio=10 tid=0x00007f7870024800 nid=0x6da2 runnable

"Gang worker#1 (Parallel GC Threads)" prio=10 tid=0x00007f7870026800 nid=0x6da3 runnable

发生此异常后,我们必须重新启动数据库,否则所有 reduce jobs seat idle 停留在 70% 左右,甚至下一个小时的作业也无法运行。最初它用于耗尽打开的连接数,但在将连接数增加到相当大的数量后情况并非如此。我应该指出,我不是数据库专家,所以请建议任何可能有帮助的配置更改。只是为了确认这似乎是数据库配置问题吗?如果是,那么通过 postgres 配置连接池是否有助于解决这个问题?

非常感谢任何帮助/建议!提前致谢。

最佳答案

我最初的想法是,如果它是随机的,它可能是一把锁。有两个区域可以寻找锁:

共享资源上线程之间的锁和数据库对象上的锁。

我在您的堆栈跟踪中没有看到任何表明这是数据库锁定问题的信息,但这可能是由于未关闭事务引起的,因此您没有遇到死锁,但您正在等待插入。

您的 Java 代码中更有可能出现死锁,也许两个等待线程正在等待彼此?

关于hadoop - 在 postgres 中插入数据时,Reduce 代码随机卡住,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36587061/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com