gpt4 book ai didi

python - RegexpTokenizer 日文造句-python

转载 作者:太空宇宙 更新时间:2023-11-04 01:40:43 27 4
gpt4 key购买 nike

我正在尝试使用 RegexpTokenizer 拆分日语句子,但它返回空集。有人能告诉我为什么吗?以及如何拆分日语句子?

#!/usr/bin/python  # -*- encoding: utf-8 -*-

import nltk
import os, sys, re, glob
from nltk.tokenize import RegexpTokenizer

jp_sent_tokenizer = nltk.RegexpTokenizer(u'[^ 「」!?。.)]*[!?。]')

print jp_sent_tokenizer.tokenize ('の各宣言を実行しておく必要があることに注意しよう。これ以下の節では、各スクリプト例の前にこれらがすでに宣言されていることを前提とする。')

上面代码的输出是

[]

最佳答案

我认为您只是缺少一个 unicode u:

print jp_sent_tokenizer.tokenize (u'の各宣言を実行しておく必要があることに注意しよう。これ以下の節では、各スクリプト例の前にこれらがすでに宣言されていることを前提とする。')

关于python - RegexpTokenizer 日文造句-python,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5164782/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com