gpt4 book ai didi

python - Stanford Word Segmenter for Chinese in Python 如何返回没有标点符号的结果

转载 作者:太空宇宙 更新时间:2023-11-04 01:08:54 26 4
gpt4 key购买 nike

我正在尝试使用 Python 中的 Stanford Word Segmenter 对中文句子进行切分,但目前结果中包含标点符号。我想返回没有标点符号的结果,只有单词。最好的方法是什么?我尝试使用谷歌搜索寻找答案,但没有找到任何东西。

最佳答案

我认为您最好在分割文本后删除标点符号;我相当确定 Stanford 分段器在完成其工作时会从标点符号中获取线索,因此您不想事先这样做。以下适用于 UTF-8 文本。对于中文标点符号,使用带正则表达式的 Zhon 库:

import zhon.hanzi
import re
h_regex = re.compile('[%s]' % zhon.hanzi.punctuation)
intxt = # segmented text with punctuation
outtxt = h_regex.sub('', intxt)

并且根据您正在使用的文本,您可能还需要删除非中文标点符号:

import string
p_regex = re.compile('[%s]' % re.escape(string.punctuation))
outtext2 = p_regex.sub('', outtxt)

那么你应该是金色的。

关于python - Stanford Word Segmenter for Chinese in Python 如何返回没有标点符号的结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28902758/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com