gpt4 book ai didi

google-bigquery - 大型 bigquery 加载作业的最可靠格式

转载 作者:行者123 更新时间:2023-12-04 19:51:08 37 4
gpt4 key购买 nike

我有一个 100 GB 的表,我正试图将其加载到 google bigquery 中。它作为单个 100GB avro 文件存储在 GCS 上。

目前我的 bq load 作业失败,并显示一条无用的错误消息:

UDF worker timed out during execution.; Unexpected abort triggered for
worker avro-worker-156907: request_timeout

我正在考虑尝试不同的格式。我知道 bigquery 支持多种格式(AVRO、JSON、CSV、Parquet 等),原则上可以加载这些格式中的任何一种的大型数据集。

但是,我想知道这里是否有人有经验,在加载到 bigquery 时,这些格式中的哪种格式最可靠/最不容易出现问题?

最佳答案

可能我会按照以下步骤解决:

  1. 创建大量csv 格式的小文件
  2. 将文件发送到 GCS

将文件复制到 GCS 的命令:

gsutil -m cp <local folder>/* gs:<bucket name>

gsutil -m option to perform a parallel (multi-threaded/multi-processing)

之后,我将使用 Cloud Dataflow 默认模板GCS 迁移到 BQlink . (请记住,使用默认模板不需要代码)

这里有一个调用数据流的例子link :

gcloud dataflow jobs run JOB_NAME \
--gcs-location gs://dataflow-templates/latest/GCS_Text_to_BigQuery \
--parameters \
javascriptTextTransformFunctionName=YOUR_JAVASCRIPT_FUNCTION,\
JSONPath=PATH_TO_BIGQUERY_SCHEMA_JSON,\
javascriptTextTransformGcsPath=PATH_TO_JAVASCRIPT_UDF_FILE,\
inputFilePattern=PATH_TO_YOUR_TEXT_DATA,\
outputTable=BIGQUERY_TABLE,\
bigQueryLoadingTemporaryDirectory=PATH_TO_TEMP_DIR_ON_GCS

关于google-bigquery - 大型 bigquery 加载作业的最可靠格式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55463433/

37 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com