gpt4 book ai didi

python - pandas 解码字符串返回 NaN

转载 作者:行者123 更新时间:2023-12-04 13:14:14 25 4
gpt4 key购买 nike

我正在 kaggle 新闻标题数据集上练习:https://www.kaggle.com/aaron7sun/stocknews#Combined_News_DJIA.csv

df = pd.read_csv('./data/Combined_News_DJIA.csv')

当阅读新闻标题的 DataFrame 时,我得到了这个系列的格式:

0       b"Georgia 'downs two Russian warplanes' as cou...
1 b'Why wont America & Nato help us? If they w...
2 b'Remember that adorable 9-year-old who sang a...
3 b' U.S. refuses Israel weapons to attack Iran:...
4 b'All the experts admit that we should legalis...

我尝试使用以下方法:

df['Series'].str.decode("utf-8")

但是输出是 NaN 的列表。有任何想法吗?在整个 DataFrame 而不仅仅是一个系列上实现会很棒。

最佳答案

您不能从 UTF-8 解码它,因为它已经是一个字符串 - 而不是字节序列。

文件的内容确实令人困惑:它包含以 "b'... 开头的字符串,这会误导用户认为它是字节 - 但事实并非如此。

如果您运行 df.Top1[0],您会看到它包含:

'b"Georgia \'downs two Russian warplanes\' as countries move to brink of war"'

type(df.Top1[0]) 只是一个字符串。因此 - 你不能从 UTF-8 解码它。

关于python - pandas 解码字符串返回 NaN,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61970212/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com