python - WordNetlemmatizer 错误 - 所有字母均已词形还原-6ren

python - WordNetlemmatizer 错误 - 所有字母均已词形还原

转载作者：太空宇宙更新时间：2023-11-03 15:04:54

24

4

我正在尝试对我的数据集进行词形还原以进行情感分析 - 我应该怎么做才能获得预期输出而不是当前输出？输入文件是一个 csv - 存储为 DataFrame 对象。

dataset = pd.read_csv('xyz.csv')

这是我的代码

from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
list1_ = []
for file_ in dataset:
    result1 = dataset['Content'].apply(lambda x: [lemmatizer.lemmatize(y) for y in x])
    list1_.append(result1)
dataset = pd.concat(list1_, ignore_index=True)

预期

>> lemmatizer.lemmatize('cats')
>> [cat]

电流输出

>> lemmatizer.lemmatize('cats')
>> [c,a,t,s]

最佳答案

TL;DR

result1 = dataset['Content'].apply(lambda x: [lemmatizer.lemmatize(y) for y in x.split()])

词形还原器接受任何字符串作为输入。

如果dataset['Content']列是字符串，则迭代字符串将迭代字符而不是“单词”，例如

>>> from nltk.stem import WordNetLemmatizer
>>> wnl = WordNetLemmatizer()
>>> x = 'this is a foo bar sentence, that is of type str'
>>> [wnl.lemmatize(ch) for ch in x]
['t', 'h', 'i', 's', ' ', 'i', 's', ' ', 'a', ' ', 'f', 'o', 'o', ' ', 'b', 'a', 'r', ' ', 's', 'e', 'n', 't', 'e', 'n', 'c', 'e', ',', ' ', 't', 'h', 'a', 't', ' ', 'i', 's', ' ', 'o', 'f', ' ', 't', 'y', 'p', 'e', ' ', 's', 't', 'r']

因此，您必须首先对句子字符串进行单词标记，例如:

>>> from nltk import word_tokenize
>>> [wnl.lemmatize(word) for word in x.split()]
['this', 'is', 'a', 'foo', 'bar', 'sentence,', 'that', 'is', 'of', 'type', 'str']
>>> [wnl.lemmatize(ch) for ch in word_tokenize(x)]
['this', 'is', 'a', 'foo', 'bar', 'sentence', ',', 'that', 'is', 'of', 'type', 'str']

另一个例如

>>> from nltk import word_tokenize
>>> x = 'the geese ran through the parks'
>>> [wnl.lemmatize(word) for word in x.split()]
['the', u'goose', 'ran', 'through', 'the', u'park']
>>> [wnl.lemmatize(ch) for ch in word_tokenize(x)]
['the', u'goose', 'ran', 'through', 'the', u'park']

但是为了获得更准确的词形还原，您应该对句子单词进行标记和后置标记，请参阅 https://github.com/alvations/earthy/blob/master/FAQ.md#how-to-use-default-nltk-functions-in-earthy

关于python - WordNetlemmatizer 错误 - 所有字母均已词形还原，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44752571/

24

4

0

文章推荐： Python:更改元组列表中的元组

文章推荐： python - 参数匹配 Python

文章推荐： python - 按索引从 Pandas 系列中删除元素

mysql如何在没有函数的情况下识别纯数字和混合数字/字母？
在 MySQL 数据库中，我在表中有一列既有纯数字也有混合数字/字母。没有模式，如果是纯数字我想区分，标记为true，否则为false。有什么好的方法可以使用吗？我试过: ID REGEXP '^[[
从新数据框的列名中删除 "X"字母
这个问题在这里已经有了答案: Numbers as column names of data frames (2 个回答) Why am I getting X. in my column names
javascript - 字母/数字组合的正则表达式
尝试提出一个正则表达式来捕获诸如 AB1234 或 BA2321 之类的组。本质上需要捕获以 AB 或 BA 开头并后跟 4 位数字的任何内容。目前，我有类似的东西，但这似乎没有考虑数字 (AB|B
javascript - 字母 "pyramid"
var z = []; for(var i = 1; i len) z.push("a".repeat(len-i%len)) console.log(z.join("\n")); 关于jav
仅用于数字、字母、空格和连字符的正则表达式
我需要一个仅用于数字、字母、空格和连字符的正则表达式。像这样的 ^[a-zA-Z0-9]+$ 得到字母和数字，但我需要一个用于上述。这些真的很难理解! 最佳答案这是你需要的: /^[0-9A-Za
PDFBox UTF16 字母
有没有人可以帮助我解决 PDFBox 中的字母问题我正在尝试打印字母“ń”(波兰语字母)并且我得到了类似 þÿ J 的东西。 Dı B R O W 2S0 :K0 3I. 请帮忙! 最佳答案我遇到了
javascript - 视差滚动移动单词/字母
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 5 年前。 Improve this ques
css - 在各种设备上换行的单词/字母
我尽量不让我的文本 block 把一个词分成几个部分并跳到下一行。对于每种设备尺寸，文本都会中断并造成可读性问题。我尝试将 marring-right 与 % 一起使用，但并没有太大帮助。这是我的哈
C++ 字母 -> 数字
这是我第一次向 Stack Overflow 发帖提问。我是编程新手，所以如果我说的奇怪或错误，请原谅。在下面的文件中；它读取目录并将其保存到变量 nAddress 中。然后删除文件扩展名；将文件分
javascript - 在鼠标悬停时重新排列文本/字母
我希望当用户将鼠标悬停在页面上时，我的页面上的某些文本会重新排列字母。例如，将鼠标悬停在“WORK”上，它就会变成“OWKR”。我怀疑需要 js，但我对 js 还是很陌生。下面是我的 html:
java - 如何获取一系列字符？ (字母)
我已经为此工作了几个小时，现在我有点卡住了....请帮助我。我是一个完全的编程障碍。除字母表方法外，所有方法都可以正常工作。它将接收两个字符(大写或小写)并返回由给定 char 值范围组成的字符串。
c++ - 输入中未知数量的字符串(字母)
我想编写一个程序，在输入的同一行中读取 n 个不同化学元素的名称(其中 1 ≤ n ≤ 17 和 n 也在输入中读取)(名称由空格分开)。化学元素的名称应存储在不同的字符串中以供进一步使用。由于 n
jquery - 在悬停时显示另一个文本/字母
我想隐藏一个字母，并在链接中显示另一个字母，当然，悬停字母的样式不同。例如: 这是一个... ...normal link. 这是一个... ...hovêrêd lînk. 如何实现？谢谢。编辑:
css - 字母 i 上的替代色点
我一直被这个相当愚蠢的想法所挑战。所以我可以用 Blabla[span class=superI]i[/span]rest 替换所有出现的“i”:) 我的想法是在真正的 i“后面”添加一个额外的(红
支持中文、字母、数字的PHP验证码
本文以实例演示5种验证码，并介绍生成验证码的函数。PHP生成验证码的原理：通过GD库，生成一张带验证码的图片，并将验证码保存在Session中。 ?
JS正则表达式必须包含数字、字母、特殊字符
下面给大家介绍下JS正则表达式必须包含数字、字母、特殊字符 js正则表达式要求: 1. 必须包含数字、英文字母、特殊符号且大于等于8位 2. 特殊符号包括: ~!@#$%^&* 正
php - preg_match 字母不仅是字母？
我在这里和网上四处寻找解决方案。问题是我只想接受信件。但是，如果我至少输入一个字母，无论是否有符号或数字，它都会接受。如何获得仅封信？ if (!preg_match("/[a-zA-Z]/",
history - 字母 O 被认为有害？
关闭。这个问题是opinion-based .它目前不接受答案。想改善这个问题吗？更新问题，以便可以通过 editing this post 用事实和引文回答问题. 去年关闭。 Improve th
将(字母)数字字段正确读入 R
制表符分隔的文本文件，实际上是数据库表的导出(使用 bcp)，具有以下形式(前 5 列): 102 1 01 e113c 3224.96 12 102 1 01 e185
php - 循环数据数组并打印 'incrementing' 字母
我需要循环遍历数据数组并为每个数组值打印一个“递增”字母。我知道我可以做到这一点: $array = array(11, 33, 44, 98, 1, 3, 2, 9, 66, 21, 45); //

首页

博学

6Ren·AI

商城

python - WordNetlemmatizer 错误 - 所有字母均已词形还原