python - 如何在 NLTK 中将荷兰语文本与西类牙语部分分开？-6ren

python - 如何在 NLTK 中将荷兰语文本与西类牙语部分分开？

转载作者：太空宇宙更新时间：2023-11-03 16:57:04

25

4

NLTK包含荷兰语标记语料库，我如何从中打印最常见的标记？

为此，我需要知道荷兰语标签包含在 conll2002 语料库中。

conll2002 语料库还包含西类牙语文本，因此我只需阅读荷兰语部分。

<小时/>

代码:

conll_tagged = nltk.corpus.conll2002.tagged_words()

tag_fd = nltk.FreqDist(conll_tagged 中(单词，标签)的标签)

tag_fd.most_common()

[(u'NC', 89469), (u'N', 77188), (u'SP', 61145), (u'V', 40744), (u'Punc', 39354), ( u'DA', 35574), (u'Prep', 32114), (u'AQ', 31249), (u'Art', 28875), (u'Pron', 22037), (u'Adv', 21987), (u'Fc', 20719), (u'Adj', 20553), (u'VMI', 19650), (u'Conj', 14281), (u'Num', 11226), (u'Num', 11226) 'Fp', 10266), (u'Z', 9291), (u'CC', 8543), (u'DI', 7630), (u'Fe', 7544), (u'RG', 7396 ), (u'PR', 7128), (u'VMN', 6435), (u'CS', 6408), (u'VMP', 3547), (u'P0', 3509), (u'第3314章 3314、3307、2817、2437、2345、2238 ，(u'DD'，2224)，(u'DN'，1875)，(u'NP'，1846)，(u'VMS'，1624)，(u'RN'，1546)，(u'PP' ', 1302), (u'AO', 1281), (u'PI', 864), (u'VMM', 854), (u'PN', 820), (u'Misc', 616), (u'VMG', 528), (u'Fd', 365), (u'VSN', 291), (u'VSP', 258), (u'PD', 231), (u'Int' , 231), (u'Fx', 211), (u'VSS', 176), (u'Fz', 157), (u'VAN', 146), (u'I', 136), ( u'VAS', 129), (u'PT', 95), (u'Fh', 72), (u'Y', 34), (u'VSG', 26), (u'Fs', 25), (u'Fit', 18), (u'Fia', 18), (u'VAP', 18), (u'DT', 17), (u'Fat', 5), (u 'Ft', 4), (u'PX', 4), (u'Faa', 4), (u'VSM', 3), (u'DE', 2), (u'VAM', 1 )]

最佳答案

其正确的conll2002还包含西类牙语和荷兰语。

print nltk.corpus.conll2002.fileids()
Output:
['esp.testa', 'esp.testb', 'esp.train', 'ned.testa', 'ned.testb', 'ned.train']

我们只对荷兰语感兴趣，具体方法如下。

from nltk.corpus import conll2002
for doc in conll2002.tagged_sents('ned.testa')[:]: #you need change the file name according to your requirement
     conll_tagged += doc
tag_fd = nltk.FreqDist(tag for (word,tag) in conll_tagged)
tag_fd.items()

输出是:

[(u'N', 38789),
 (u'V', 21032),
 (u'Prep', 16540),
 (u'Punc', 16472),
 (u'Art', 14816),
 (u'Adv', 10824),
 (u'Adj', 10296),
 (u'Pron', 10232),
 (u'Conj', 7184),
 (u'Num', 4268),
 (u'Misc', 244),
 (u'Int', 52)]

关于python - 如何在 NLTK 中将荷兰语文本与西类牙语部分分开？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35340049/

25

4

0

文章推荐： c# - 使用 Fluent NHibernate 映射树结构

文章推荐： ruby-on-rails - 为什么记录在我的 Rails 应用程序中消失了？

文章推荐： ruby - 通用 "HTTP GET html page content and recode to UTF-8"程序

c# - double.TryParse 荷兰语
以荷兰语(比利时)运行的 Web 服务器 double output; double.TryParse(txtTextbox1.Text, out output); 这是在荷兰语环境中将文本转换为 d
java - (荷兰语)区域设置的 NumberFormat 的自定义更改
我有一个问题。我在应用程序中处理金额，我需要本地化格式。我使用 java.util.Locale 的 NumberFormat.getCurrencyInstance()。在大多数情况下，它看起来很好
python - NLTK 荷兰语 alpino 至英语
我正在尝试查找四元组英语单词，我尝试更改 alpino，它将荷兰语单词下载为 en 或英语，但它不起作用任何想法？ from nltk.util import ngrams from nltk.cor
java - Swing 中的 NL(荷兰语)语言环境似乎不起作用
我有一个支持多语言的 Java 应用程序。当我更改语言时(在首选项对话框中)，整个应用程序的语言都会发生变化，包括 JFileChooser 等 Swing 组件的语言。这对英语、西类牙语和法语来说是
python - 从 DBPedia 获取所有(荷兰语)属性，包括前缀
我必须创建一个问答系统，通过它我可以使用 SPARQL 和 DBpedia 回答问题。目前，我必须使用不存在的属性对 DBpedia 进行许多无用的查询。我试图获取所有属性并将其放入 txt 文件中，
javascript - 荷兰语 ok 中的表单 Submit.button 出现奇怪的错误，但英语不起作用
我的表单有一个奇怪的问题。我有一个用荷兰语工作的 register.php 页面(称为 aanmelden.html)，但是当您单击英语按钮时不再工作(称为 register.html)，当我比较它们
vba - Excel VBA 公式德语/法语/意大利语/俄语/荷兰语/外国函数
当我将数据添加到工作簿时，需要将公式从较早的单元格复制到新单元格。我使用以下公式来计算我的增长率: =WENN(ODER(K9="";L9="");"";WENNFEHLER((L9-K9)/K9;

首页

博学

6Ren·AI

商城

python - 如何在 NLTK 中将荷兰语文本与西类牙语部分分开？