gpt4 book ai didi

python - 标记单词,使用 nltk 删除标点符号

转载 作者:太空宇宙 更新时间:2023-11-04 00:02:54 28 4
gpt4 key购买 nike

这是我如何为我的西类牙语标记化短语的示例。

texto= "esto es un texto, para el sr. gómez. Esto; es una prueba que puedes encontrar en www.google.com quisiera encontrarla.. claro esta,.Quisiera mejorarlo"

当我使用 nltk 标记我的短语时,这是输出:

['esto', 'es', 'un', 'texto', ',', 'para', 'el', 'sr.', 'gómez', '.', 'Esto', ';', 'es', 'una', 'prueba', 'que', 'puedes', 'encontrar', 'en', 'www.google.com','quiero','encontarla..','esta,.', 'quisiera','mejoralo']

除了像 sr.www.google.com 这样的有效分数,我怎样才能消除标点符号?

from nltk.tokenize import word_tokenize
texto= "esto es un texto, para el sr. gómez. Esto; es una prueba que puedes encontrar en www.google.com quisiera encontrarla.."
palabras_tokenizadas=(word_tokenize(texto,"spanish"))
print(palabras_tokenizadas)

结果应该是这样的:

['esto', 'es', 'un', 'texto',  'para', 'el', 'sr.', 'gómez',  'Esto',  'es', 'una', 'prueba', 'que', 'puedes', 'encontrar', 'en', 'www.google.com', 'quisiera', 'encontrarla', 'claro', 'esta', 'quisiera', 'mejorarlo']

我尝试过类似的方法,但它并没有解决我的问题(像"encontarla..""esta,."

这样的词的问题
punctuation = [",", ";", ".",...............] # The tokens that I want to skip
palabras_tokenizadas_1 = [ palabra for palabra in palabras_tokenizadas if palabra not in punctuation ]

我想在任何有分数的句子中找到全局解决我的问题的最佳方法,而不仅仅是将问题固定到这句话。怎么做到的?

最佳答案

您可以轻松地使用标点符号列表:

punctuation = [",", ";", "."] # The tokens that you want to skip
palabras_tokenizadas2 = [ palabra for palabra in palabras_tokenizadas1 if palabra not in punctuation ]

输出:

['esto', 'es', 'un', 'texto', 'para', 'el', 'sr.', 'gómez', 'Esto', 'es', 'una', 'prueba', 'que', 'puedes', 'encontrar', 'en', 'www.google.com']

对于所有标点符号,您可以检查 string.punctuation 并像这样使用:

import string
punctuation = list(string.punctuation)

输出:

['!', '"', '#', '$', '%', '&', "'", '(', ')', '*', '+', ',', '-', '.', '/', ':', ';', '<', '=', '>', '?', '@', '[', '\\', ']', '^', '_', '`', '{', '|', '}', '~']

关于python - 标记单词,使用 nltk 删除标点符号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55130131/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com