gpt4 book ai didi

python - 在 pandas DataFrame 列中存储列表

转载 作者:行者123 更新时间:2023-12-01 03:47:49 24 4
gpt4 key购买 nike

我正在尝试使用 NLTK 和 Pandas 进行一些文本处理。

我有带有“文本”列的 DataFrame。我想添加列“text_tokenized”,该列将存储为嵌套列表。

我的标记文本代码是:

def sent_word_tokenize(text):
text = unicode(text, errors='replace')
sents = sent_tokenize(text)
tokens = map(word_tokenize, sents)

return tokens

目前,我正在尝试按以下方式应用此功能:

df['text_tokenized'] = df.apply(lambda row: sent_word_tokenize(row.text), axis=1)

这给了我错误:

ValueError: Shape of passed values is (100, 3), indices imply (100, 21)

不确定如何修复它以及这里出了什么问题。

最佳答案

通过使用不同的轴解决了我自己的问题:

而不是:

df['text_tokenized'] = df.apply(lambda row: sent_word_tokenize(row.text), axis=1)

我用过:

df['text_tokenized'] = df.text.apply(lambda text: sent_word_tokenize(text))

虽然我不确定它为什么有效,但如果有人可以向我解释它,我真的很感激。

关于python - 在 pandas DataFrame 列中存储列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38710061/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com