gpt4 book ai didi

python - 在 S3 中用 pyarrow 覆盖 Parquet 文件

转载 作者:太空狗 更新时间:2023-10-30 00:18:30 28 4
gpt4 key购买 nike

我正在尝试用 S3 中的 pyarrow 覆盖我的 Parquet 文件。我看过文档,但没有找到任何东西。

这是我的代码:

from s3fs.core import S3FileSystem
import pyarrow as pa
import pyarrow.parquet as pq

s3 = S3FileSystem(anon=False)
output_dir = "s3://mybucket/output/my_table"

my_csv = pd.read_csv(file.csv)
my_table = pa.Table.from_pandas(my_csv , preserve_index=False)

pq.write_to_dataset(my_table,
output_dir,
filesystem=s3,
use_dictionary=True,
compression='snappy')

write_to_dataset 函数中是否有类似mode = "overwrite" 的选项?

最佳答案

我认为最好的方法是使用 AWS Data Wrangler提供 3 种不同的写入模式:

  1. 附加
  2. 覆盖
  3. 覆盖分区

例子:

import awswrangler as wr

wr.s3.to_parquet(
dataframe=df,
path="s3://...",
mode="overwrite",
dataset=True,
database="my_database", # Optional, only with you want it available on Athena/Glue Catalog
table="my_table",
partition_cols=["PARTITION_COL_NAME"])

关于python - 在 S3 中用 pyarrow 覆盖 Parquet 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52095823/

28 4 0
文章推荐: c# - Cast List 和 Cast IEnumerable 有什么区别