- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
当我使用 dask=1.2.2 和 pyarrow 0.11.1 时,我没有观察到这种行为。更新后(dask=2.10.1 和 pyarrow=0.15.1),当我使用带有给定 partition_on 和 write_index 参数的 to_parquet 方法时,我无法保存索引。在这里,我创建了一个显示问题的最小示例:
from datetime import timedelta
from pathlib import Path
import dask.dataframe as dd
import pandas as pd
REPORT_DATE_TEST = pd.to_datetime('2019-01-01').date()
path = Path('/home/ludwik/Documents/YieldPlanet/research/trials/')
observations_nr = 3
dtas = range(0, observations_nr)
rds = [REPORT_DATE_TEST - timedelta(days=days) for days in dtas]
data_to_export = pd.DataFrame({
'report_date': rds,
'dta': dtas,
'stay_date': [REPORT_DATE_TEST] * observations_nr,
}) \
.set_index('dta')
data_to_export_dask = dd.from_pandas(data_to_export, npartitions=1)
file_name = 'trial.parquet'
data_to_export_dask.to_parquet(path / file_name,
engine='pyarrow',
compression='snappy',
partition_on=['report_date'],
write_index=True
)
data_read = dd.read_parquet(path / file_name, engine='pyarrow')
print(data_read)
| | stay_date |dta| report_date|
|0| 2019-01-01 | 2 | 2018-12-30 |
|0| 2019-01-01 | 1 | 2018-12-31 |
|0| 2019-01-01 | 0 | 2019-01-01 |
最佳答案
问题出在 pyarrow 的后端。我在他们的 JIRA 网页上提交了一个错误报告:
https://issues.apache.org/jira/browse/ARROW-7782
关于python - 使用 dask.dataframe.to_parquet() 进行分区时丢失索引信息,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60070170/
我正在尝试使用 Pandas to_parquet 保存一个非常大的数据集,当超过某个限制时,它似乎失败了,无论是“pyarrow”还是“fastparquet”。我使用以下代码重现了我遇到的错误,并
是否可以使用 Pandas 的 DataFrame.to_parquet功能将写入拆分为一些近似所需大小的多个文件? 我有一个非常大的 DataFrame (100M x 100),并且正在使用 df
当我使用 dask=1.2.2 和 pyarrow 0.11.1 时,我没有观察到这种行为。更新后(dask=2.10.1 和 pyarrow=0.15.1),当我使用带有给定 partition_o
要将 Parquet 文件读入多个分区,应使用行组进行存储(请参阅 How to read a single large parquet file into multiple partitions u
我有一个非常宽的数据框(20,000 列),主要由 Pandas 中的 float64 列组成。我想将这些列转换为 float32 并写入 Parquet 格式。我这样做是因为这些文件的下游用户是内存
我们公司要求对 S3 中的所有静态数据进行加密。通常当我们上传 s3 对象时,我们会做这样的事情: aws s3 cp a.txt s3://b/test --sse 我正在玩 dask.datafr
我有以下工作流程。 def read_file(path, indx): df = pd.read_parquet(path) df.index = [indx] * len(df)
我有以下工作流程。 def read_file(path, indx): df = pd.read_parquet(path) df.index = [indx] * len(df)
我有一个 Pandas 数据框,我正在尝试将其作为 Parquet 文件保存到 S3 中: dftest = pd.DataFrame({'field': [1,2,3]}) dftest.to_pa
如何强制 Pandas DataFrame 保留 None值,即使使用 astype() ? 细节 自 pd.DataFrame构造函数不提供化合物 dtype参数,我使用以下函数修复类型( to_p
我正在尝试为 AWS Lambda 创建代码以将 csv 转换为 parquet。我可以使用 Pyarrow 做到这一点,但它的大小太大(约 200 MB 未压缩),因此我无法在 Lambda 的部署
我是一名优秀的程序员,十分优秀!