gpt4 book ai didi

python - 将 Pandas 数据框列传递给 NLTK 分词器

转载 作者:太空宇宙 更新时间:2023-11-03 14:47:11 27 4
gpt4 key购买 nike

我有一个 pandas 数据框 raw_df,其中包含 2 列、ID 和句子。我需要将每个句子转换为字符串。下面的代码没有产生任何错误,并表示规则的数据类型是“对象”。

raw_df['sentences'] = raw_df.sentences.astype(str)
raw.df.sentences.dtypes

输出:dtype('O')

然后,我尝试标记句子并得到一个 TypeError,表明该方法需要一个字符串或类似字节的对象。我做错了什么?

raw_sentences=tokenizer.tokenize(raw_df)

相同的类型错误

raw_sentences = nltk.word_tokenize(raw_df)

最佳答案

我假设这是一个 NLTK 分词器。我相信这些工作是通过将句子作为输入并返回标记化的单词作为输出来实现的。

您传递的是 raw_df - pd.DataFrame 对象,不是 str。你不能期望它在不告诉你自己的情况下按行应用函数。为此,有一个名为 apply 的函数。

raw_df['tokenized_sentences'] = raw_df['sentences'].apply(tokenizer.tokenize)

假设这一切顺利,tokenized_sentences 将是一列列表。

由于您在 DataFrames 上执行文本处理,我建议您在这里查看我的另一个答案:Applying NLTK-based text pre-proccessing on a pandas dataframe

关于python - 将 Pandas 数据框列传递给 NLTK 分词器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48363461/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com