gpt4 book ai didi

nlp - 处理多语言数据时需要遵循哪些数据准备步骤或技术?

转载 作者:行者123 更新时间:2023-12-04 11:47:49 26 4
gpt4 key购买 nike

我正在研究多语言词嵌入代码,我需要用英语训练我的数据并用西类牙语测试它。我将使用 Facebook 的 MUSE 库进行词嵌入。我正在寻找一种以相同方式预处理我的数据的方法。我研究了变音符号修复来处理口音。

我无法想出一种方法来小心地删除停用词、标点符号和天气,我是否应该进行词形还原。

我如何统一预处理这两种语言以创建一个词汇表,我以后可以将其与 MUSE 库一起使用。

最佳答案

嗨 Chandana 我希望你过得很好。我会考虑使用库 spaCy https://spacy.io/api/doc创建它的人有一个 youtube 视频,他在其中讨论了 NLP 在其他语言中的实现。您将在下面找到对停用词进行词形还原和删除的代码。至于标点符号,您始终可以设置要忽略的特定字符,例如重音符号。我个人使用免费开源的 KNIME 进行预处理。您将必须安装 nlp 扩展,但好的是它们对不同的语言有不同的扩展,您可以在这里安装:https://www.knime.com/knime-text-processing停用词过滤器(自 2.9 起)和 Snowball 词干分析器节点可应用于西类牙语。确保在节点的对话框中选择正确的语言。不幸的是,到目前为止还没有西类牙语的词性标注器节点。

# Create functions to lemmatize stem, and preprocess

# turn beautiful, beautifuly, beautified into stem beauti
def lemmatize_stemming(text):
stemmer = PorterStemmer()
return stemmer.stem(WordNetLemmatizer().lemmatize(text, pos='v'))

# parse docs into individual words ignoring words that are less than 3 letters long
# and stopwords: him, her, them, for, there, ect since "their" is not a topic.
# then append the tolkens into a list
def preprocess(text):
result = []
for token in gensim.utils.simple_preprocess(text):
newStopWords = ['your_stopword1', 'your_stop_word2']
if token not in gensim.parsing.preprocessing.STOPWORDS and token not in newStopWords and len(token) > 3:
nltk.bigrams(token)
result.append(lemmatize_stemming(token))
return result

如果您有任何问题,我希望这对您有所帮助:)

关于nlp - 处理多语言数据时需要遵循哪些数据准备步骤或技术?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55657802/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com