gpt4 book ai didi

python - 我正在使用来自欧洲疾病预防控制中心的 Covid-19 数据集。我已经旋转了数据框,但似乎这些值是 bing 聚合的

转载 作者:行者123 更新时间:2023-12-04 15:22:29 25 4
gpt4 key购买 nike

我正在使用 Covid-19 数据集并使用了以下数据透视函数:

url = 'https://opendata.ecdc.europa.eu/covid19/casedistribution/csv'
data = pd.read_csv(url,parse_dates=['dateRep'],index_col=['dateRep'])
data.head()

data.index.name = "date"
data = data.drop(['day', 'month', 'year','geoId','countryterritoryCode','continentExp'], axis = 1)
data = data.rename(columns={'countriesAndTerritories': 'country', 'popData2019':'population', 'continentExp' : 'continent' })

df_pivot = data.pivot(index = 'date', columns = 'country', values = 'cases').fillna(0)
df_pivot`

当我在 2020-01-04 查看美国案例时,旋转数据框中的数字是“24998.0”,这是不正确的(它应该是 0)。我将不胜感激任何建议。谢谢。

最佳答案

pivot 无法聚合,它 reshape 。

问题在于 pandas 自动解析索引,它会与月份和日期混淆(因此它将 4 月 1 日解析为 1 月 4 日)。最简单的方法是读取后用格式手动解析日期。

import pandas as pd
df = pd.read_csv('https://opendata.ecdc.europa.eu/covid19/casedistribution/csv')

df['dateRep'] = pd.to_datetime(df['dateRep'], format='%d/%m/%Y')
df = df.set_index('dateRep')

现在我们可以看到一切都会好起来的:

df[df['countriesAndTerritories'] == 'United_States_of_America'].sort_index().plot(y='cases')

enter image description here


我们可以检查您的方法的解析是否变得困惑。自动解析混淆了 4 月 1 日和 1 月 4 日。

df[(df.index == '2020-04-01') & df['countriesAndTerritories'].eq('United_States_of_America')].cases
#dateRep
#2020-04-01 24998 # <-- That's your number for Jan 4th.
#Name: cases, dtype: int64

关于python - 我正在使用来自欧洲疾病预防控制中心的 Covid-19 数据集。我已经旋转了数据框,但似乎这些值是 bing 聚合的,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63007499/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com