google-cloud-platform - Spark-BigTable - HBase 客户端未在 Pyspark 中关闭？-6ren

google-cloud-platform - Spark-BigTable - HBase 客户端未在 Pyspark 中关闭？

转载作者：行者123 更新时间：2023-12-04 03:43:34

27

4

我正在尝试在 Python for 循环中执行写入 BigTable 的 Pyspark 语句，这会导致以下错误(使用 Dataproc 提交的作业)。任何客户端未正确关闭(如建议的 here )，如果是，在 Pyspark 中有什么方法可以关闭？

请注意，每次使用新的 Dataproc 作业手动重新执行脚本都可以正常工作，因此作业本身是正确的。

感谢您的支持!

Pyspark 脚本


from pyspark import SparkContext 
from pyspark.sql import SQLContext 
import json

sc = SparkContext()
sqlc = SQLContext(sc) 

def create_df(n_start,n_stop):

    # Data
        
    row_1 = ['a']+['{}'.format(i) for i in range(n_start,n_stop)]
    row_2 = ['b']+['{}'.format(i) for i in range(n_start,n_stop)]
      
    # Spark schema
    
    ls = [row_1,row_2]
    schema = ['col0'] + ['col{}'.format(i) for i in range(n_start,n_stop)]
    
    # Catalog

    first_col = {"col0":{"cf":"rowkey", "col":"key", "type":"string"}}
    other_cols =  {"col{}".format(i):{"cf":"cf", "col":"col{}".format(i), "type":"string"} for i in range(n_start,n_stop)}
    
    first_col.update(other_cols)
    columns = first_col
        
    d_catalogue = {}
    d_catalogue["table"] = {"namespace":"default", "name":"testtable"}
    d_catalogue["rowkey"] = "key"
    d_catalogue["columns"] = columns
        
    catalog = json.dumps(d_catalogue)
    
    # Dataframe

    df = sc.parallelize(ls, numSlices=1000).toDF(schema=schema) 
    
    return df,catalog

for i in range(0,2):

   N_step = 100
   N_start = 1
   N_stop = N_start+N_step

   data_source_format = "org.apache.spark.sql.execution.datasources.hbase"

   df,catalog = create_df(N_start,N_stop)
   
   df.write\
        .options(catalog=catalog,newTable= "5")\
            .format(data_source_format)\
                .save()

   N_start += N_step
   N_stop += N_step

Dataproc 作业

gcloud dataproc jobs submit pyspark <my_script>.py \
    --cluster $SPARK_CLUSTER \
        --jars <path_to_jar>/bigtable-dataproc-spark-shc-assembly-0.1.jar \
            --region=us-east1

错误

...
ERROR com.google.bigtable.repackaged.io.grpc.internal.ManagedChannelOrphanWrapper: *~*~*~ Channel ManagedChannelImpl{logId=41, target=bigtable.googleapis.com:443} was not shutdown properly!!! ~*~*~*
    Make sure to call shutdown()/shutdownNow() and wait until awaitTermination() returns true.
...

最佳答案

如果您使用的不是最新版本，try updating to it .它看起来类似于 this issue这是最近修好的。我会想象错误消息仍然出现，但现在完成的工作意味着支持团队仍在努力，希望他们会在下一个版本中修复它。

关于google-cloud-platform - Spark-BigTable - HBase 客户端未在 Pyspark 中关闭？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/65540042/

27

4

0

文章推荐： java - 如果 MongoDB 无法访问，如何得到错误？

Java:服务器/客户端 -> 客户端/客户端
我想在一些计算机之间建立点对点连接，这样用户就可以在没有外部服务器的情况下聊天和交换文件。我的第一个想法如下: 我在服务器上创建了一个中央 ServerSocket，所有应用程序都可以连接到该服务器。
c# - 客户端-服务器-客户端*游戏系统
我正在 Unity 中构建多人游戏。为此，我必须将一些值从客户端发送到两个或多个通过服务器连接的客户端。我想将其构建为服务器真实游戏。客户端将使用 Android，他们的数据将通过服务器同步(可能是一
客户端 read() 获取消息的随机尾随字符(使用套接字的 TCP 客户端-服务器)
练习 C 网络编程:我正在编写一个简单的 TCP 客户端-服务器应用程序，它应该将消息(在每个客户端的单独线程中)作为字符串从服务器发送到客户端并在客户端(稍后将成为控制台商店应用程序)。我首先发送消
amazon-web-services - AWS 客户端 VPN 客户端-客户端通信
我使用证书身份验证设置了 AWS Client VPN。我正在为客户端-客户端访问系统进行设置，基本上如 this AWS scenario/example 中所述.一切正常，如果我知道他们的 IP
Java:客户端、客户端、(线程)服务器、流客户端信息、JPanel 创建但消息(？)阻止游戏开始
我正在开发一个小型客户端1/客户端2、服务器(线程)TCP 游戏。在尝试处理延迟问题时，我意识到我的 transmitState() 中存在缺陷。它强制将不必要的信息传递到通讯流中，从而造成迟缓，将汽
azure - 如何将我的 Azure AD 应用程序更改为 secret 客户端？ (非公共(public)客户端)
来自文档:Configurable token lifetimes in Azure Active Directory (Public Preview) 它提到“ secret 客户端”，刷新 tok
react-native - Apollo 客户端 devtool 无法在 React Native 应用程序中检测到 Apollo 客户端
Apollo 客户端开发工具无法连接到我的应用程序。我已在 ApolloClient 构造函数中将 connectToDevTools 传递为 true，但没有任何 react 。我也试过this p
java - 我想在 Pod 内使用 Fabric8 kubernetes 客户端(java)。如何获取部署集群的 kubernetes 客户端？
我想在 Pod 内使用 Fabric8 kubernetes 客户端 (java)。如何获取部署集群的 kubernetes 客户端？我可以使用该集群的 kubeconfig 文件获取任何集群的配置
oracle - Oracle 客户端 11.2 和 Oracle 客户端 12 是否存在 Log4j 安全问题？
我正在阅读 the security issue with Log4j我了解此产品受此漏洞影响。但是 Oracle 客户端 11.2 和 12 是否受此问题影响？我找不到这些产品是否使用任何 Log
spring-boot - 微服务( Eureka 客户端)未注册 Eureka 服务器/ Eureka 服务器未发现 Eureka 客户端
Eureka 服务器设置 pom.xml 1.8 Hoxton.SR1 org.springframework.cloud spring
java - java netty(客户端/服务器)设置中的 TLS 服务器和普通 TCP 客户端(通过本地 LAN)
我有一个点对点(客户端/服务器)设置(通过本地 LAN)，它使用 Netty，一个 Java 网络框架。我使用原始 TCP/IP(例如，没有 HTTP)进行通信和传输。现在，根据要求，我们希望转向 T
基于WebSocket的modbus通信（二）-客户端
上一篇已经实现了ModbusTcp服务器和8个主要的功能码，只是还没有实现错误处理功能。但是在测试客户端时却发现了上一篇的一个错误，那就是写数据成功，服务器不需要响应。接下来要做的就是实现Modb
JavaScript数组到PNG？ - 客户端
有没有办法将二维十六进制代码数组转换为 png 图像？数组看起来像这样(只是更大) [ [ '#FF0000', '#00FF00' ], [ '#0000FF'
连接服务器-客户端
我是套接字编程的新手。每次我运行客户端程序时，它都会说“无法连接到服务器”。谁能告诉我我在哪里犯了错误。任何帮助将不胜感激。这是client.c #include #include #inclu
客户端-服务器程序
我们在UNIX环境下制作了简单的client.c和server.c程序。我们使用它来传输一个简单的文本文件，首先打开它，然后读取它并使用 open、read 和 send 系统调用发送；在客户端，我接
客户端/服务器交互
当我的程序来自 my previous question正在响应客户端，它应该发送加密消息。当客户端连接时，它会发送一条类似“YourMessage”的消息。现在我想做的是，当客户端连接时，应该以某
客户端/服务器打印数组并写回
我正在使用 C 和 putty 编写客户端/服务器程序。两个 c 文件位于同一系统上。我目前在向客户端写回其正在使用的框架以及打印我的框架时遇到问题。它打印出 3 0 9 8，但随后开始打印 134
客户端-服务器餐厅模拟
我正在使用 C 中的 select() 制作一个模拟快餐或其他任何东西的客户端服务器。我有客户随机点 1-5 种“食物”。服务器每 30 秒决定一次。所有客户最喜欢的食物是什么？他为那些客户提供服务
客户端-服务器游戏算法
对于单机游戏，基本的游戏循环是(来源:维基百科) while( user doesn't exit ) check for user input run AI move enemies
CentOS安装TortoiseSVN 客户端
1、CentOS安装TortoiseSVN 复制代码代码如下: yum install -y subversion 2、SVN客户端命令

首页

博学

6Ren·AI

商城

google-cloud-platform - Spark-BigTable - HBase 客户端未在 Pyspark 中关闭？