gpt4 book ai didi

python - 如何在 NLTK Python 中为语料库创建子类别

转载 作者:行者123 更新时间:2023-11-28 17:51:04 24 4
gpt4 key购买 nike

我试图在父类别下创建另一个类别。是可以创造的。如何完成以及如何引用这些子类别?

最佳答案

对语料库进行分类的最简单方法是为每个类别创建一个文件。以下是 movie_reviews 语料库的两个摘录:

movie_pos.txt

细红线是有缺陷的,但它引起了。

movie_neg.txt

一个大预算和光鲜的制作不能弥补缺乏
渗透到他们的电视节目中的自发性。

有了这两个文件,我们将有两个类别:pos 和 neg。

我们将使用 CategorizedPlaintextCorpusReader,它继承自 PlaintextCorpusReaderCategorizedCorpusReader。这两个父类(super class)需要三个参数:根目录、fileids 和类别规范。

>>> from nltk.corpus.reader import 
CategorizedPlaintextCorpusReader
>>> reader = CategorizedPlaintextCorpusReader('.', r'movie_.*\.
txt', cat_pattern=r'movie_(\w+)\.txt')
>>> reader.categories()
['neg', 'pos']
>>> reader.fileids(categories=['neg'])
['movie_neg.txt']
>>> reader.fileids(categories=['pos'])
['movie_pos.txt']

CategorizedPlaintextCorpusReader 的前两个参数是根目录和文件 ID,它们将传递给 PlaintextCorpusReader 以读取文件。 cat_pattern 关键字参数是用于从文件 ID 中提取类别名称的正则表达式。在我们的例子中,类别是 fileid 在 movie_ 之后和 .txt 之前的部分。类别必须用分组括号括起来。 cat_pattern 传递给 CategorizedCorpusReader,它会覆盖常见的语料库阅读器函数,例如 fileids()words()sents() paras() 接受类别关键字参数。这样,您可以通过调用 reader.sents(categories=['pos']) 获取所有 pos 句子。 CategorizedCorpusReader 还提供了 categories() 函数,它返回语料库中所有已知类别的列表。

关于python - 如何在 NLTK Python 中为语料库创建子类别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9735381/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com