gpt4 book ai didi

python - 当文本为 "null"和 "nan"时,无法将文本从 csv 读取到数据框中

转载 作者:行者123 更新时间:2023-12-05 04:34:35 31 4
gpt4 key购买 nike

我正在尝试将 Google n-gram 词频数据上传到数据框中。

数据集可以在这里找到:https://www.kaggle.com/wheelercode/dictionary-word-frequency

不幸的是,有几个词没有加载。单词“null”出现在csv文件的第9156行,单词“nan”出现在csv文件的第17230行。

enter image description here

enter image description here

我是这样上传数据的

my_freq_df = pd.read_csv('ngram_freq_dict.csv',  dtype = {"word": str, "count": np.int32} ) 
my_freq_df['word'] = my_freq_df['word'].astype("string")

不幸的是,当我尝试检查这些单词是否作为字符串加载时,我发现它们不是

count = 0

for index, row in my_freq_df.iterrows():
count += 1
try:
len(row['word'])
except:
print(row['word'])
print(count)
print("****____*****")

我们可以看到 try 的输出图像,except 并且我们可以看到我无法计算单词“nan”和“null”的长度。这两个词都被读作 NA。

enter image description here

我该如何解决这个问题?

最佳答案

默认情况下,Pandas 将一组特定值视为“NA”,但您可以使用 keep_default_na=False 明确告诉它忽略这些默认值。 “null”和“nan”恰好都在该列表中!

my_freq_df = pd.read_csv(
'ngram_freq_dict.csv',
dtype = {"word": str, "count": np.int32},
keep_default_na=False
)

截至今天,它默认视为 NA 的完整字符串集是:

[
"", "#N/A", "#N/A N/A", "#NA", "-1.#IND", "-1.#QNAN", "-NaN",
"-nan", "1.#IND", "1.#QNAN", "<NA>", "N/A", "NA", "NULL",
"NaN", "n/a", "nan", "null"
]

https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

关于python - 当文本为 "null"和 "nan"时,无法将文本从 csv 读取到数据框中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/71191403/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com