python - stemmer 和 lemmatizer 似乎都不太好用，我该怎么办？-6ren

python - stemmer 和 lemmatizer 似乎都不太好用，我该怎么办？

转载作者：行者123 更新时间：2023-12-05 04:29:37

27

4

我是文本分析的新手，正在尝试创建一个词袋模型(使用 sklearn 的 CountVectorizer 方法)。我有一个数据框，其中有一列文本包含“酸”、“酸性”、“酸度”、“木材”、“木质”、“木质”等词。

我认为“acid”和“wood”应该是最终输出中唯一包含的词，但是词干提取和词形还原似乎都无法实现这一点。

词干生成 'acid','wood','woodi',woodsi'并且词形还原会产生更差的输出 'acid' 'acidic' 'acidity' 'wood' 'woodsy' 'woody'。我认为这是由于没有准确指定词性，尽管我不确定该规范应该放在哪里。我已将它包含在 X = vectorizer.fit_transform(df['text'],'a') 行中(我相信大多数词应该是形容词)但是，它并没有使输出差异。

我可以做些什么来提高输出？

我的完整代码如下；

!pip install nltk
nltk.download('omw-1.4')  
import nltk
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from nltk.stem import WordNetLemmatizer

数据框:

df = pd.DataFrame()
df['text']=['acid', 'acidic', 'acidity', 'wood', 'woodsy', 'woody']

带词干分析器的 CountVectorizer:

analyzer = CountVectorizer().build_analyzer()
stemmer = nltk.stem.SnowballStemmer('english')
lemmatizer = WordNetLemmatizer()

def stemmed_words(doc):
    return (stemmer.stem(w) for w in analyzer(doc))

vectorizer = CountVectorizer(stop_words='english',analyzer=stemmed_words)
X = vectorizer.fit_transform(df['text'])
df_bow_sklearn = pd.DataFrame(X.toarray(),columns=vectorizer.get_feature_names())
df_bow_sklearn.head()

CountVectorizer 与 Lemmatizer:

analyzer = CountVectorizer().build_analyzer()
stemmer = nltk.stem.SnowballStemmer('english')
lemmatizer = WordNetLemmatizer()

def lemed_words(doc):
    return(lemmatizer.lemmatize(w) for w in analyzer(doc))

vectorizer = CountVectorizer(stop_words='english',analyzer=lemed_words)
X = vectorizer.fit_transform(df['text'],'a')
df_bow_sklearn = pd.DataFrame(X.toarray(),columns=vectorizer.get_feature_names())
df_bow_sklearn.head()

最佳答案

可能是 wordnetlemmatizer 和词干分析器性能不佳的简单问题。

尝试不同的，例如...词干分析器:

波特(-> from nltk.stem import PorterStemmer)
兰开斯特(-> 从 nltk.stem 导入 LancasterStemmer)

词形还原器:

spacy ( -> import spacy)
IWNLP(-> 从 spacy_iwnlp 导入 spaCyIWNLP)
HanTa(-> from HanTa import HanoverTagger/注意:或多或少受过德语训练)

有同样的问题并切换到不同的 Stemmer 和 Lemmatizer 解决了这个问题。有关如何正确实现词干提取器和词干还原器的更详细说明，在网络上进行快速搜索会发现所有情况下的优秀示例。

关于python - stemmer 和 lemmatizer 似乎都不太好用，我该怎么办？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/72264935/

27

4

0

文章推荐： c++ - ROS:我们能得到一个由launchfile启动的节点列表吗

文章推荐： r - pglm 不使用本地环境中的任何变量

文章推荐： python - BS4，在未闭合的
之间进行精确匹配

sql - MySQL更新花费(太)长的时间
在我们的服务出现一些预期的增长之后，突然间一些更新花费了非常长的时间，这些过去非常快，直到表达到大约 2MM 记录，现在它们每个需要大约 40-60 秒。 update table1 set fiel
java - 如果传感器更新(太)慢，服务就会被终止
我在服务中实现了一个传感器事件监听器，只要采样周期和最大报告延迟低于 1 秒，该监听器就可以正常工作，但一旦我将采样周期增加到超过 1 秒，传感器就根本不会更新。我希望采样周期为 10 秒(可能是
python - 我的 Tkinter GUI 太...静态？
我使用 Tkinter GUI 来启动测量和分析过程，基本上只需单击一个按钮即可开始。由于这些测量可能需要一段时间，我尝试添加一个进度条，即这个: http://tkinter.unpythonic.
c++ - 无法转换 Omnet++::Packet 太 Inet::Packet
我正在尝试使用套接字发送数据包，但出现错误。 invalid conversion from ‘omnetpp::cPacket*’ to ‘inet::Packet*’ [-fpermissive]
ruby - 为什么 split (' ' ) 试图变得(太)聪明？
我刚刚发现 String#split 有以下奇怪的行为: "a\tb c\nd".split => ["a", "b", "c", "d"] "a\tb c\nd".split(' ') => ["a
clojurescript - 使用 Klipse 和 Reagent 的 clojurescript 中的时间间隔非常(太)快
您好，我正在尝试 ClojureScript，我正在使用 Klipse作为我的 REPL 差不多。这可能不是它的预期用途，但因为我没有做任何太复杂的事情，所以现在没问题。我遇到的一个问题是尝试设置计
watchkit - 对于 Watch Complication 和 Time Travel，getTimelineEntriesForComplication 被(太)经常调用
根据下面的数据，ClockKit 会生成一次 future 的 CLKComplicationTimelineEntry 项，但对于过去的时间点，会进行 24 次调用!这是为什么？更多详情: 我注意
javascript - Bookshelf.js/Knex.js 太 "helpful"与 UTC DATETIME 列
我有一个 MySQL 表，这个表有一个名为 datetime_utc 的 DATETIME 列。如您所料，它是 UTC 日期和时间。在我的 Bookshelf 模型中，我定义了一个虚拟 getter，
别再用 System.currentTimeMillis 统计耗时了，太 Low，试试 Spring Boot 源码在用的 StopWatch吧，够优雅
大家好，我是二哥呀！昨天，一位球友问我能不能给他解释一下 @SpringBootApplication 注解是什么意思，还有 Spring Boot 的运行原理，于是我就带着他扒拉了一下这个注解的源

首页

博学

6Ren·AI

商城

python - stemmer 和 lemmatizer 似乎都不太好用，我该怎么办？