gpt4 book ai didi

python - PyMongo:批量插入新集合时出现 NatType ValueError

转载 作者:可可西里 更新时间:2023-11-01 10:38:08 24 4
gpt4 key购买 nike

我正在尝试使用 PyMongo 将一组混合的日期和文本数据上传到我的远程 MongoDB 服务器中的一个新集合。

但是,由于空值与日期混合,我收到了一个错误,即存在 None 值而不是 datetime.datetime() 对象的行。

作为一些背景:原始数据存储在 CSV 文件中,我正在使用 pandas.read_csv() 将其读入 pandas.DataFrame()。在 pandas 中获得数据后,我会在将数据转换为字典列表之前进行一些基本清理,然后使用标准 collection.insert_many() 方法。

最初,每行/文档/字典中的值都存储为字符串。但是,在上传数据之前,我通过对每个值调用 datetime.datetime.strptime() 将一些日期列转换为 datetime 对象。不过,并非每本词典都填充了这些日期字段。对于这些词典,我只是使用 None 而不是 datetime 对象。

然后,我尝试上传的结果数据是一个混合了许多 NoneType 值的字典列表,当我调用 insert_many() 我明白了:

ValueError:NaTType 不支持 utcoffset。

我不熟悉 utcoffset,我对它的研究尝试让我感到困惑。

有没有人遇到过这个问题,或者对如何在 PyMongo 中处理丢失的日期时间数据有建议?

这是我的代码:

import pandas as pd
import pymongo

source = '/path/to/data'
sampleData = pd.read_csv(source, dtype=str)

Date_Columns = [
'date_a',
'date_b',
'date_c',
'date_d'
]
cleanData = sampleData
for col in Date_Columns:

# Convert the strings to datetime objects for each column.
# If a value is null, then use a None object instead of a datetime.
Strings = sampleData[col].values
Formats = [dt.datetime.strptime(d, '%m/%d/%Y') if isinstance(d, str) else None for d in Strings]
cleanData[col] = Formats

client = pymongo.MongoClient('XX.XX.XX.XX', 99999)
db = client['my_db']
c = db['my_collection']

# Convert the cleaned DataFrame into a list of dictionaries.
Keys = [key for key in sampleData.columns.values]
Data = [dict(zip(Keys, L)) for L in sampleData.values]

c.insert_many(Data)

以及完整的回溯:

Traceback (most recent call last):
File "/Users/haru/my_git/projects/pipeline/stable/sofla_permits_sunnyisles.py", line 738, in <module>
setup_db()
File "/Users/haru/my_git/projects/pipeline/stable/sofla_permits_sunnyisles.py", line 679, in setup_db
c.insert_many(Data)
File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/pymongo/collection.py", line 753, in insert_many
blk.execute(write_concern, session=session)
File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/pymongo/bulk.py", line 513, in execute
return self.execute_command(generator, write_concern, session)
File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/pymongo/bulk.py", line 338, in execute_command
self.is_retryable, retryable_bulk, s, self)
File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/pymongo/mongo_client.py", line 1196, in _retry_with_session
return func(session, sock_info, retryable)
File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/pymongo/bulk.py", line 333, in retryable_bulk
retryable, full_result)
File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/pymongo/bulk.py", line 285, in _execute_command
self.collection.codec_options, bwc)
File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/pymongo/message.py", line 1273, in _do_bulk_write_command
namespace, operation, command, docs, check_keys, opts, ctx)
File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/pymongo/message.py", line 1263, in _do_batched_write_command
namespace, operation, command, docs, check_keys, opts, ctx)
File "pandas/_libs/tslibs/nattype.pyx", line 59, in pandas._libs.tslibs.nattype._make_error_func.f
ValueError: NaTType does not support utcoffset

最佳答案

大多数机器的时钟设置为 utc,这是理想的。它是从给定日期开始的秒数整数值(我相信是在 70 年代的某个时候)。这意味着您的流程计划不依赖于本地时间,包括令人头疼的夏令时。

UTC 与美国东部标准的偏差为 4-5 小时(取决于夏令时)。

查看您的错误,这是一个 pandas 错误,pandas.datetimedatetime.datetime 配合使用 。将其转换为所需精度的日期时间 string。那应该避免这个错误。

关于python - PyMongo:批量插入新集合时出现 NatType ValueError,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52429644/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com