google-bigquery - BIGQUERY - bq 加载无法解析-6ren

google-bigquery - BIGQUERY - bq 加载无法解析

转载作者：行者123 更新时间：2023-12-01 03:29:17

25

4

最近我开始在我的公司使用 BigQuery。我们使用 AWS Redshift 数据库，所以我使用 卸载到 S3管道 如 字段分隔符 ，在我用 gsutil 发送到 GCS 之后。

所以我开始加载到 BQ，但在某些表中这不起作用。查看日志:

bq load 
--project_id=movile-di
--field_delimiter="|" 
--schema=mte.json
--allow_quoted_newlines=true 
--allow_jagged_rows=true 
--ignore_unknown_values=true 
--max_bad_records=100 
corp.mte_201301 

gs://movile-di/telecom/atlas/dynamic/2013/01/mte/* Waiting on
> bqjob_r333c660745fe8874_00000156c36e9a5e_1 ... (0s) Current status:
> DONE    

BigQuery error in load operation: Error processing job
> 'movile-di:bqjob_r333c660745fe8874_00000156c36e9a5e_1': Too many
> errors encountered. Failure details:
> - gs://movile-di/telecom/atlas/dynamic/2013/01/mte/mte.csv.0000.gz: Could 
not parse '2500","key":"MOV_PK_MOVILE_ATLASSENDMESSAGE"}' as int
> for field billing_share_content_partner_share (position 17) starting
> at location 1596

> - gs://movile-di/telecom/atlas/dynamic/2013/01/mte/mte.csv.0000.gz: Could 
not parse '100001","key":"MOV_PK_MOVILE_ATLASSENDMESSAGE"}' as
> int for field billing_share_content_partner_share (position 17)
> starting at location 2060

> - gs://movile-di/telecom/atlas/dynamic/2013/01/mte/mte.csv.0000.gz: Could 
not parse '-","key":"MOV_PK_MOVILE_ATLASSENDMESSAGE"}' as int
> for field billing_share_content_partner_share (position 17) starting
> at location 2929

> - gs://movile-di/telecom/atlas/dynamic/2013/01/mte/mte.csv.0000.gz: Could 
not parse '-","key":"MOV_PK_MOVILE_ATLASSENDMESSAGE"}' as int
> for field billing_share_content_partner_share (position 17) starting
> at location 4413

> - gs://movile-di/telecom/atlas/dynamic/2013/01/mte/mte.csv.0000.gz: Could 
not parse '-","key":"MOV_PK_MOVILE_ATLASSENDMESSAGE"}' as int
> for field billing_share_content_partner_share (position 17) starting
> at location 5289

在这个表中，我有一个 JSON 字段。我猜是 烧烤负载不理解 field_delimiter 并给了我一个错误。

有人可以帮我吗？我尝试了我所知道的一切，但仍然无法正常工作。

最佳答案

尝试加载您的文件，就像它是只有一个字段的 CSV
为此，您应该选择字段分隔符，这样它肯定不会出现在文件中的其他任何地方
加载完成后，您可以使用 BigQuery(旧版或标准 SQL 模式)按照您在 BigQuery 中所需的方式对其进行解析。当然，这取决于您的实际模式——但在许多情况下它有帮助!
看看JSON functions和 UDF for Legacy SQL和 Scalar UDF for Standard SQL因为这些是在这种情况下解析的最有用的“工具”

关于google-bigquery - BIGQUERY - bq 加载无法解析，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39154734/

25

4

0

文章推荐： ruby-on-rails - ActiveAdmin:没有对应表属性的表单输入

文章推荐： javascript - $.jqx.dataAdapter 不是构造函数

文章推荐： python - 将字节字符串格式化为另一个字节字符串

sql - 谷歌 BQ : Running Parameterized Queries where Parameter Variable is the BQ Table Destination
我正在尝试从 Linux 命令行为 BQ 表目标运行 SQL。此 SQL 脚本将用于多个日期、客户端和 BQ 表目标，因此这需要在我的 BQ API 命令行调用中使用参数(标志 --parameter
sql - 选择每个组的最后一条记录作为物化 View bq
是否可以选择每个组中版本最高的记录并将其作为物化 View 存储在bigquery中？源表 version name value 1 a 100 1 b 200
r - 没有详细选项的 bq 查询
我们的想法是使用 bq 工具向 R session 提供存储在 BigQuery 系统中的 csv 格式数据。 bq 工具的输出显示数据以及不需要的消息，例如作业状态和更新的警告消息。是否有任何标志
google-bigquery - BQ 项目中表数量的硬性限制
我有一些高度可分区的数据，我想将其存储在 BigQuery 中，其中每个分区都有自己的表。我的问题是 BQ 是否支持我需要的 table 数量。使用我的数据集，我每天会创建大约 2,000 个新表。
date - BigQuery (BQ) - 删除分区
我正在使用 BQ CLI ( https://cloud.google.com/bigquery/bq-command-line-tool )。我没有找到如何删除DAY分区数据。例如，我有一个 D
mysql - 将 BQ 查询的输出分配给变量
我正在尝试在 BigQuery 中查询分区的总数并将结果存储在 mysql 表中。我这样做是为了监控目的。 #!/bin/sh query1="bq query --format=csv 'SELEC
python - 使用 bq 命令行覆盖表
我有一个 Python 脚本(如下所示)运行“query.txt”中的查询并将其上传到 google big query。该脚本必须每 5 分钟运行一次。第一次它做对了，但是第二次，它抛出错误“表已经
python - 为流式插入自动创建 BQ 表
也许我弄错了:有没有办法为 tabledata.insertAll 命令自动创建目标表？如果是，请指出正确的方向。如果不是 - 创建所需表格的最佳方法是什么？在启动时检查现有表并通过从 GCS 加载
ssl - "bq"命令行工具抛出 CERTIFICATE_VERIFY_FAILED
更新 (2019-02-07):issue现已修复，因此如果您仍然遇到此问题，请尝试 gcloud components update。在过去几个月的某个时候，我的 bq 工具停止工作了。即使是一个
python - bq.py 不是分页结果
我们正在为 bq.py 编写包装器并且在处理大于 100k 行的结果集时遇到了一些问题。似乎在过去这工作得很好(我们遇到了与 Google BigQuery Incomplete Query Repl
excel - Excel 错误的 BQ 连接器
我正在使用适用于 Excel 的 BigQuery 连接器并收到以下错误消息: “请求失败:错误。您的查询完成时间过长。放弃..” 在浏览器工具中运行查询时，它会在 4 秒内返回。查询返回 ~ 70K
google-bigquery - 所有 bq 作业的摘要
有没有办法在给定的时间范围内使用 bq 命令行工具列出所有作业 ID？我需要做的是遍历所有 Id 并查找是否有任何错误。我使用 Web 界面来了解作业 ID，然后使用以下命令: bq show -j
google-bigquery - Google BQ - 如何更新插入表中的现有数据？
我正在使用 Python 客户端库在 BigQuery 表中加载数据。我需要更新这些表中的一些已更改的行。但我不知道如何正确更新它们？我想要一些类似的 UPSERT 函数 - 仅当行不存在时才插入行，
在 bigquery 的 bq 命令行工具中转义查询的引号字符
我也尝试使用 bq 命令行自动生成新的每日表格 bq query \ --destination_table= \ --allow_large_results \ --noflatten_
google-bigquery - 如何根据 BQ 中的时间戳列创建分区表
在下表中只有两列(ts 和 transaction_id)和 3 行。我刚刚尝试根据时间戳列创建分区表，但收到错误消息。 create table myfirstdataset.partition_t
google-bigquery - 如何根据 BQ 中的时间戳列创建分区表
在下表中只有两列(ts 和 transaction_id)和 3 行。我刚刚尝试根据时间戳列创建分区表，但收到错误消息。 create table myfirstdataset.partition_t
google-bigquery - 使用 bq 命令行工具时引用包含连字符的项目名称时遇到问题
我有一个查询，它生成要插入到表中的行。查询引用不同项目中的表。项目名称包括连字符(例如 abc-xyz)。当我尝试使用 bq 命令并使用 ` 将项目名称括起来时，我会收到错误，如果不这样做，我会收到错
google-bigquery - bq shell 项目错误
在考虑使用 bigquery 时，我一直在测试 bq 模块。我有一个项目设置和 api 的授权。当我运行 bq shell 时，我会使用正确的项目名称正确地进入 shell，但是，当我尝试运行 mk
google-bigquery - BIGQUERY - bq 加载无法解析
最近我开始在我的公司使用 BigQuery。我们使用 AWS Redshift 数据库，所以我使用卸载到 S3管道如字段分隔符，在我用 gsutil 发送到 GCS 之后。所以我开始加载到
python - 为什么导出 GOOGLE_APPLICATION_CREDENTIALS 不适用于 `bq`？
google docs假设使用服务帐户的 JSON key 的路径导出环境变量 GOOGLE_APPLICATION_CREDENTIALS，gcloud 将使用它。我无法让它工作。我的命令是: G

首页

博学

6Ren·AI

商城

google-bigquery - BIGQUERY - bq 加载无法解析