gpt4 book ai didi

python - 使用 pandas 导入数据集

转载 作者:太空宇宙 更新时间:2023-11-03 21:06:31 25 4
gpt4 key购买 nike

我从 github (json) 导入了一个数据集,该文件夹包含许多子文件夹,子文件夹下有许多文档文件,但现在我已将数据集下载到本地驱动器,并且我不知道如何从本地驱动器导入数据集文件夹。我确实了解使用 pandas 导入 csv 文件的知识,但因为我的数据集是一个像我上面提到的文件夹。有人可以告诉我如何从我的本地驱动器导入它而不影响以下代码。当然,我正在使用Python。请检查显示从 github 导入的数据集的代码。 “20_newsgroup”是我本地驱动器中文件夹的名称。

# Import Dataset
df = pd.read_json('https://raw.githubusercontent.com/selva86/datasets/master/newsgroups.json')
df = df.loc[df.target_names.isin(['soc.religion.christian', 'rec.sport.hockey', 'talk.politics.mideast', 'rec.motorcycles']) , :]
print(df.shape) #> (2361, 3)
df.head()

# Convert to list
data = df.content.values.tolist()
data_words = list(sent_to_words(data))
print(data_words[:1])

最佳答案

df = pd.read_json('newsgroups.json')

应该足够了。(或者 pd.read_json('some/directory/newsgroups.json') 如果它不在当前目录中。)

关于python - 使用 pandas 导入数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55361275/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com