python - 在 pandas 中执行 nltk.stem.SnowballStemmer-6ren

python - 在 pandas 中执行 nltk.stem.SnowballStemmer

转载作者：行者123 更新时间：2023-12-01 06:34:56

25

4

我有一个四列 DataFrame，其中有两列标记化单词，这些单词已删除停用词并转换为小写，现在正在尝试阻止。

我不确定 apply() 方法是否访问该系列及其各个单元格，或者我是否需要另一种方式进入每个记录，因此尝试了这两种方法(我认为!)

从 nltk.stem 导入 SnowballStemmer
stemmer = nltk.stem.SnowballStemmer('english')

我试过了:

df_2['Headline'] = df_2['Headline'].apply(lambda x: Stemmer.stem(item) for x 中的项目)

--------------------------------------------------------------------------- TypeError Traceback (most recent call last) in () ----> 1 df_2['Headline__'] = df_2['Headline'].apply(lambda x: stemmer.stem(item) for item in x)

~\AppData\Local\Continuum\anaconda3\envs\learn-env\lib\site-packages\pandas\core\series.py in apply(self, func, convert_dtype, args, **kwds) 3192
else: 3193 values = self.astype(object).values -> 3194 mapped = lib.map_infer(values, f, convert=convert_dtype) 3195 3196 if len(mapped) and isinstance(mapped[0], Series):

pandas/_libs/src\inference.pyx in pandas._libs.lib.map_infer()

TypeError: 'generator' object is not callable

我相信这个 TypeError 类似于“List”对象不可调用的错误，并使用 apply() 方法修复了该错误，但这里没有想法。

df_2['Headline'] = df_2['Headline'].apply(lambda x: Stemmer.stem(x))

--------------------------------------------------------------------------- AttributeError Traceback (most recent call last) in () ----> 1 df_2['Headline'] = df_2['Headline'].apply(lambda x: stemmer.stem(x)) 2 3 df_2.head()

~\AppData\Local\Continuum\anaconda3\envs\learn-env\lib\site-packages\pandas\core\series.py in apply(self, func, convert_dtype, args, **kwds) 3192
else: 3193 values = self.astype(object).values -> 3194 mapped = lib.map_infer(values, f, convert=convert_dtype) 3195 3196 if len(mapped) and isinstance(mapped[0], Series):

pandas/_libs/src\inference.pyx in pandas._libs.lib.map_infer()

in (x) ----> 1 df_2['Headline'] = df_2['Headline'].apply(lambda x: stemmer.stem(x)) 2 3 df_2.head()

~\AppData\Local\Continuum\anaconda3\envs\learn-env\lib\site-packages\nltk\stem\snowball.py in stem(self, word) 1415 1416 """ -> 1417 word = word.lower() 1418 1419 if word in self.stopwords or len(word) <= 2:

AttributeError: 'list' object has no attribute 'lower'

最佳答案

您需要为apply指定axis。

这是一个完整的工作示例:

import pandas as pd

df = pd.DataFrame({
    'col_1' : [['ducks'], ['dogs']],
    'col_2' : [['he', 'eats', 'apples'], ['she', 'has', 'cats', 'dogs']],
    'col_3' : ['some data 1', 'some data 2'],
    'col_4' : ['another data 1', 'another data 2']
})
df.head()

输出

    col_1   col_2                   col_3       col_4
0   [ducks] [he, eats, apples]      some data 1 another data 1
1   [dogs]  [she, has, cats, dogs]  some data 2 another data 2

现在让我们对标记化列应用词干分析:

import nltk
from nltk.stem import SnowballStemmer
stemmer = nltk.stem.SnowballStemmer('english')

df.col_1 = df.apply(lambda row: [stemmer.stem(item) for item in row.col_1], axis=1)
df.col_2 = df.apply(lambda row: [stemmer.stem(item) for item in row.col_2], axis=1)

检查数据帧的新内容。

df.head()

输出

    col_1   col_2                   col_3       col_4
0   [duck]  [he, eat, appl]         some data 1 another data 1
1   [dog]   [she, has, cat, dog]    some data 2 another data 2

关于python - 在 pandas 中执行 nltk.stem.SnowballStemmer，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59719477/

25

4

0

文章推荐： python kmedoids - 更有效地计算新的 medoid 中心

文章推荐： python - Django + Scrapy 多爬虫架构

文章推荐： python - 如何在 pandas 数据框中成对计算相关性

文章推荐： java - 如何在Java中将小数字符串(a.bc)转换为int(abc)

stemming - 是否有克罗地亚语词干算法的实现？
我正在寻找克罗地亚语词干算法的实现。理想情况下使用 Java，但我也接受任何其他语言。是否有一个讲英语的开发人员社区正在为克罗地亚语开发搜索应用程序？谢谢最佳答案斯拉夫语言高度inflecti
带有日期时间基础的python plot stem
我希望使用基于日期时间的 matplotlib 绘制一个主干。但似乎发生了错误:示例代码: import matplotlib.pyplot as plt from dateutil import p
java - 如何使用相同的逻辑替换两个文件中出现的相同 'stem' 数字？
所以基本上我有两个具有相同数字(16 位数字)的 .txt 文件，前 8 位数字全部相同(例如 12345678)，然后接下来的 8 位数字是随机的(例如 38462943)。我一直在尝试做的是将两个
python - Stem Controller 的新身份不改变IP
以下问题看起来很像 SO 上已有的许多相关问题(我已经通读了它们，但我的问题略有不同并且仍然存在)。我使用 stem 库在 Python 3.6.1 中编写了以下代码(在 macOS Sierra
python - Tor Stem - 俄罗斯与爱情连接问题
我正在尝试获取 To Russia With Love tutoial来自 Stem 项目工作。 from io import StringIO import socket import urllib
python - Pathlib 和 stem - Attributerror
作为代码的一部分，我的功能如下: def match_output(orig_path: Path,lines: Iterable[str],stem: str, delim: str,delim_p
python - TOR with Python (stem) 卡在初始化上
我在将 tor 与 python 结合使用时遇到了一些问题，我不太清楚从这里该何去何从。系统/包:Windows 10 Python 3.8(通过 jupyter 实验室) 茎 tor(tor.ex
image-processing - 将 STEM 数据立方体乘以图像
我想将 EELS 数据立方体的强度与厚度图相乘。我尝试使用简单的数学命令，但我只获得了第一个切片的结果。我认为计算就像执行 Result(x,y,E) = SI(x,y,E) * Thickness(
java - Porter2 Stemming Java 实现查询
我看过其他关于此问题的帖子，但我仍然无法让它发挥作用。 http://snowball.tartarus.org/dist/libstemmer_java.tgz <<- 这包含 porter2 算法
python - 雪球词干提取器 : poor french stemming
我正在处理一些 nlp 任务。我的输入是法语文本，因此在我的上下文中只能使用 Snowball Stemmer。但是，不幸的是，它一直给我糟糕的词干，因为它甚至不会删除 plural "s" 或 si
没有标记的 Python matplotlib.stem 图
如何在没有标记(仅 Steam 线)的情况下绘制 Steam 图？。它在绘制非常长的信号阵列时特别有用。谢谢! 最佳答案您可以简单地将标记设置为空: import matplotlib.pyplo
c - GNU 使用 stem 制定隐式归档规则
我正在尝试设置 Makefile 以根据目标文件扩展名构建静态 (.a) 和动态 (.so) 库。我以前只将以下 Makefile 用于静态库: NAME := config LIB :=
nlp - 在 NLP 中使用 Stemming 的真正目的是什么？
我知道词干提取和词形还原如下: 词干 - 将单词转换成不变的部分；有趣，娱乐 - 有趣 lemmatizing - 将单词转换为字典形式；有趣的，逗乐的我可以理解为什么要使用词形还原。但我不明白做词
C++ Boost 文件系统 : How to modify stem from a path?
我正在使用 Boost 文件系统库。我有一条路 boost::filesystem::path P("/foo/bar.baz"); 我想将路径 p 的词干部分修改为“bar_quz”，因此路径 P
python - nltk : How to prevent stemming of proper nouns
我正在尝试使用斯坦福词性标注器和 NER 编写一个关键字提取程序。对于关键字提取，我只对专有名词感兴趣。这是基本方法通过删除字母以外的任何内容来清理数据删除停用词对每个单词进行词干确定每个单词
python - 数据操作: Stemming from a inability to select lists
我对 python 很陌生，没有真正的编程知识。在我目前的工作中，我被要求从大约 500 多个文件中获取文本形式的数据并将它们绘制出来。我在一定程度上理解绘图，但我似乎无法弄清楚如何以易于选择特定部分
python - 使用 stem 切换身份时一般 SOCKS 服务器故障
我在远程服务器 (Ubuntu) 上运行 Tor，端口为 9150，控制端口为 9151。我已确认两者都在通过 netstat -ant 运行。这是我的代码，它引发了 SOCKS5Error: 0x
python - 如何在 stem 中更改我的 tor 进程的端点？
我正在使用 stem 来控制使用 stem.process.launch_tor_with_config 创建的 tor 节点。我还创建了一个在上述进程的控制端口上运行的 stem.control.C
java - Porter 和 Lancaster Stemming 算法的主要区别和优势是什么？
关闭。这个问题需要更多 focused .它目前不接受答案。想要改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 6 年前。 Improve this q
keras - InceptionResnetV2 STEM block keras implementation 与原始论文中的不匹配？
我一直在尝试将 InceptionResnetV2 中的 Keras implementation 模型摘要与他们论文中指定的模型摘要进行比较，当涉及到 filter_concat block 时，它

首页

博学

6Ren·AI

商城

python - 在 pandas 中执行 nltk.stem.SnowballStemmer