python - 如何从语料库中删除无意义或不完整的单词？-6ren

python - 如何从语料库中删除无意义或不完整的单词？

转载作者：行者123 更新时间：2023-11-30 09:17:33

29

4

我正在使用一些文本进行一些 NLP 分析。我已清理文本，采取措施删除非字母数字字符、空格、重复单词和停用词，并执行词干提取和词形还原:

from nltk.tokenize import word_tokenize
import nltk.corpus
import re
from nltk.stem.snowball import SnowballStemmer
from nltk.stem.wordnet import WordNetLemmatizer
import pandas as pd

data_df = pd.read_csv('path/to/file/data.csv')

stopwords = nltk.corpus.stopwords.words('english') 

stemmer = SnowballStemmer('english')
lemmatizer = WordNetLemmatizer()

# Function to remove duplicates from sentence
def unique_list(l):
    ulist = []
    [ulist.append(x) for x in l if x not in ulist]
    return ulist

for i in range(len(data_df)):

    # Convert to lower case, split into individual words using word_tokenize
    sentence = word_tokenize(data_df['O_Q1A'][i].lower()) #data['O_Q1A'][i].split(' ')

    # Remove stopwords
    filtered_sentence = [w for w in sentence if not w in stopwords]

    # Remove duplicate words from sentence
    filtered_sentence = unique_list(filtered_sentence)

    # Remove non-letters
    junk_free_sentence = []
    for word in filtered_sentence:
        junk_free_sentence.append(re.sub("[^\w\s]", " ", word)) # Remove non-letters, but don't remove whitespaces just yet
        #junk_free_sentence.append(re.sub("/^[a-z]+$/", " ", word)) # Take only alphabests

    # Stem the junk free sentence
    stemmed_sentence = []
    for w in junk_free_sentence:
        stemmed_sentence.append(stemmer.stem(w))

    # Lemmatize the stemmed sentence
    lemmatized_sentence = []
    for w in stemmed_sentence:
        lemmatized_sentence.append(lemmatizer.lemmatize(w))

    data_df['O_Q1A'][i] = ' '.join(lemmatized_sentence)

但是当我显示前 10 个单词(根据某些标准)时，我仍然会收到一些垃圾信息，例如:

ask
much
thank
work
le
know
via
sdh
n
sy
t
n t
recommend
never

在这 10 个最常用的词中，只有 5 个是明智的(询问、知道、推荐、感谢和工作)。我还需要做什么才能只保留有意义的单词？

最佳答案

默认的 NLTK 非索引字表是一个最小的非索引字表，它当然不包含“ask”“much”之类的单词，因为它们通常是无意义的。这些话只是与你无关，但对其他人可能无关。对于您的问题，您始终可以在使用 NLTK 后使用自定义停用词过滤器。一个简单的例子:

def removeStopWords(str):
    #select english stopwords
    cachedStopWords = set(stopwords.words("english"))
    #add custom words
    cachedStopWords.update(('ask', 'much', 'thank', 'etc.'))
    #remove stop words
    new_str = ' '.join([word for word in str.split() if word not in cachedStopWords]) 
    return new_str

或者，您可以编辑 NLTK 停用词列表，该列表本质上是一个文本文件，存储在 NLTK 安装目录中。

关于python - 如何从语料库中删除无意义或不完整的单词？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51237716/

29

4

0

文章推荐： Java JSON RESTful Web 服务 - 过滤字段

文章推荐： python - 在 Keras 中加载保存的模型(双向 LSTM)

文章推荐： java - 通过 GPRS 从 Java 手机传输 SMS(即运行 SMS 网关)？

文章推荐： javascript - 如何从键值数组中删除一个元素？

SQL 通过多个列从表中选择不同的行，忽略列顺序(意义)
我有一张 table People (First_Name, Last_Name)。此表包含与示例中一样重复的记录(并非所有行都重复): First_Name Last_Name John
c++ - 指针的真正“意义”是什么？
我用 Java 编写过很多程序，之前也涉足过 C++。我在各种 C++ 书籍中阅读了有关指针的内容，并完成了书籍中的各种示例。我了解指针的基础知识，但有一件事我一直不清楚。指针在现实世界中的应用是什
c# - 配置FluentNHibernate、FluentMappings.AddFromAssembly；意义
线 .Mappings(m => m.FluentMappings.AddFromAssemblyOf() 它有什么作用？它会在派生自 ClassMap 的 Product 类的程序集中查找任
c++ - UTF-16LE 半角和全角？意义？
我有用于打印数字的自定义打印功能。我制作了一个 ASCII 版本和一个 UTF-16LE 版本。 UTF-16LE 版本对 0-9 使用全角代码/字符，对十六进制使用 A-F。在调试我的函数时，我注意
c - float 一个( float )；意义？
这是我的代码片段: float ab(float); 以后 if(ab(temp)
javascript - 什么是 ((window) => { ...})(window);意义
我在一个项目文件中包含以下代码: //begin of the file ((window) => { 'use strict'; class View extends GSM.Event
Windows 身份验证、授权角色/用户 * & ?意义
我一直在到处寻找关于 ? 用法的正确解释。和 *。我注意到我可以使用以下方法拒绝所有用户的访问: 如果我想允许某个组，我应该在其上方添加下一行: 但是当我看到人们使用 ? 时，我开始忘记什么意思，
syntax - 游戏.HUD = 游戏.HUD || {} 意义
我正在关注 melon js tutorial .这是在我的 HUD.js 文件的顶部。 game.HUD = game.HUD || {} 我以前在其他例子中见过这个。 namespace.some
eclipse - 有没有办法在 Eclipse 文件中设置 "waypoints"？意义
我正在处理一个包含数千行代码的文件。我正在第 700 行实现一个算法。我经常不得不离开这些行来检查文件中的其他方法。导航回到我实际编码的地方通常很痛苦。如果我可以在第 700 行设置一个航路点并为其
java - & 符号 C 引用类似于 java 中的运算符。意义？
我遇到了这段代码 do { if (higherQuality && w > targetWidth) { w /= 2; if (w &
c - uint8_t * const LCDMem = (uint8_t *) &LCDM3;意义
uint8_t * const LCDMem = (uint8_t *) &LCDM3; 此代码在 msp430fg4618 培训套件中用于 lcd 配置。谁能解释一下上述代码的含义？它允许使用 a
c - *(void **) &(int[2]){0,PAGE_SIZE};意义？
上下文阅读一些内核代码。问题我不明白这行是什么意思 *(void **) &(int[2]){0,PAGE_SIZE}; 还有更多，这是什么意思 {0,PAGE_SIZE} 对我来说，它看起来不
javascript - 在 JavaScript 或 underscore.js 中可能出现负对象长度？意义？
我正在查看 Underscore.js 的源代码库，专门用于 map方法(该页面第 85 行左右，并复制到此处): _.map = function(obj, iterator, context)
php - 意义？ header ('P3P:CP="IDC DSP COR ADM DEVi TAIi PSA PSD IVAi IVDi CONi HIS OUR IND CNT"');
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 9

首页

博学

6Ren·AI

商城

python - 如何从语料库中删除无意义或不完整的单词？