- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试读取此处找到的 Parquet 格式的 02-2019 fhv 数据
https://d37ci6vzurychx.cloudfront.net/trip-data/fhv_tripdata_2019-02.parquet
但是当我尝试用 Pandas 读取数据时
df = pd.read_parquet('fhv_tripdata_2019-02.parquet')
它抛出错误:
File "pyarrow/table.pxi", line 1156, in pyarrow.lib.table_to_blocks
File "pyarrow/error.pxi", line 99, in pyarrow.lib.check_status
pyarrow.lib.ArrowInvalid: Casting from timestamp[us] to timestamp[ns] would result in out of bounds timestamp: 33106123800000000
有谁知道如何打印出有问题的行或强制这些值?让它忽略这些行?
最佳答案
该数据集中的某一行的 dropOff 设置为 3019-02-03 17:30:00.000000
。这超出了 pandas.Timestamp
的范围。我认为它应该是 2019-02-03 17:30:00.000000
。
一种选择是忽略该错误:
import pyarrow.parquet as pq
df = pq.read_table('fhv_tripdata_2019-02.parquet').to_pandas(safe=False)
但是错误的时间戳将会溢出并具有一些奇怪的值:
>>> df['dropOff_datetime'].min()
Timestamp('1849-12-25 18:20:52.580896768')
或者,您可以过滤掉 pyarrow 中超出范围的值:
import pyarrow as pa
import pyarrow.parquet as pq
import pyarrow.compute as pc
table = pq.read_table("fhv_tripdata_2019-02.parquet")
df = table.filter(
pc.less_equal(table["dropOff_datetime"], pa.scalar(pd.Timestamp.max))
).to_pandas()
关于python-3.x - Pandas read_parquet() 错误 : pyarrow. lib.ArrowInvalid:从时间戳 [us] 转换到时间戳 [ns] 将导致时间戳超出范围,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/74467923/
我有一个如下所示的数据框 df.show(5, False) +------------------------------------+-------------------+--------+--
我正在尝试读取此处找到的 Parquet 格式的 02-2019 fhv 数据 https://d37ci6vzurychx.cloudfront.net/trip-data/fhv_tripdata
我正在编写一个向 BigQuery 发送数据帧的脚本: load_job = bq_client.load_table_from_dataframe( df, '.'.join([PROJEC
使用 pyarrow转换 pandas.DataFrame包含 Player反对 pyarrow.Table使用以下代码 import pandas as pd import pyarrow as p
我是一名优秀的程序员,十分优秀!