gpt4 book ai didi

nlp - nltk.word_tokenize 和 nltk.pos_tag 支持哪些语言

转载 作者:行者123 更新时间:2023-12-01 02:27:43 39 4
gpt4 key购买 nike

我需要对多种语言的文本进行名称实体提取:西类牙语、葡萄牙语、希腊语、捷克语、中文。

是否有这两个功能的所有支持语言的列表?是否有使用其他语料库的方法,以便可以包含这些语言?

最佳答案

默认情况下,这两个函数都只支持英文文本。它实际上不在文档中,但您可以通过查看源代码来查看它:

  • pos_tag()函数从此文件加载标记器:'taggers/maxent_treebank_pos_tagger/english.pickle' . ( see here )
  • word_tokenize()函数使用 Treebank 标记器,它使用正则表达式来标记文本,如(英语)Penn Treebank Corpus 中的那样。 ( see here )
  • 关于nlp - nltk.word_tokenize 和 nltk.pos_tag 支持哪些语言,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15111183/

    39 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com