gpt4 book ai didi

python-3.x - 从 Google Cloud Storage 中的 csv 读取 n 行以与 Python csv 模块一起使用

转载 作者:行者123 更新时间:2023-12-01 21:56:05 28 4
gpt4 key购买 nike

我有各种包含不同格式的非常大(每个约 4GB)的 csv 文件。这些来自 10 多个不同制造商的数据记录器。我试图将所有这些整合到 BigQuery 中。为了每天加载这些文件,我想首先将这些文件加载​​到 Cloud Storage 中,确定架构,然后加载到 BigQuery 中。由于一些文件有额外的标题信息(从 2 到 ~30 行),我已经生成了自己的函数来确定最可能的标题行和每个文件样本(~100 行)的模式,这然后我可以在将文件加载到 BQ 时在 job_config 中使用。

当我处理从本地存储直接到 BQ 的文件时,这很好用,因为我可以使用上下文管理器,然后使用 Python 的 csv 模块,特别是 Sniffer 和 reader 对象。但是,似乎没有直接从存储中使用上下文管理器的等效方法。我不想绕过云存储,以防这些文件在加载到 BQ 时被中断。

我可以做什么:

# initialise variables
with open(csv_file, newline = '', encoding=encoding) as datafile:
dialect = csv.Sniffer().sniff(datafile.read(chunk_size))
reader = csv.reader(datafile, dialect)
sample_rows = []
row_num = 0
for row in reader:
sample_rows.append(row)
row_num+=1
if (row_num >100):
break
sample_rows
# Carry out schema and header investigation...

对于 Google Cloud Storage,我尝试使用 download_as_string 和 download_to_file,它们提供数据的二进制对象表示,但是我无法让 csv 模块处理任何数据。我试图使用 .decode('utf-8') 并返回一个带有\r\n 的 looong 字符串。然后我使用 splitlines() 来获取数据列表,但 csv 函数仍然提供方言和阅读器,将数据拆分为单个字符作为每个条目。

有没有人设法在不下载整个文件的情况下将 csv 模块与存储在 Cloud Storage 中的文件一起使用?

最佳答案

看了GitHub上的csv源码后,我设法使用Python中的io模块和csv模块解决了这个问题。 io.BytesIO 和 TextIOWrapper 是要使用的两个关键函数。可能不是一个常见的用例,但我想我会在此处发布答案,以便为需要它的任何人节省一些时间。

# Set up storage client and create a blob object from csv file that you are trying to read from GCS.
content = blob.download_as_string(start = 0, end = 10240) # Read a chunk of bytes that will include all header data and the recorded data itself.
bytes_buffer = io.BytesIO(content)
wrapped_text = io.TextIOWrapper(bytes_buffer, encoding = encoding, newline = newline)
dialect = csv.Sniffer().sniff(wrapped_text.read())
wrapped_text.seek(0)
reader = csv.reader(wrapped_text, dialect)
# Do what you will with the reader object

关于python-3.x - 从 Google Cloud Storage 中的 csv 读取 n 行以与 Python csv 模块一起使用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56959627/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com