gpt4 book ai didi

python - 在 NLTK 和 Python 中创建自定义分类语料库

转载 作者:太空狗 更新时间:2023-10-29 18:19:31 25 4
gpt4 key购买 nike

我遇到了一些与正则表达式和 Python 中的 CategorizedPlaintextCorpusReader 有关的问题。

我想创建一个自定义分类语料库并在其上训练一个朴素贝叶斯分类器。我的问题如下:我想要两个类别,“pos”和“neg”。正文件都在一个目录中,main_dir/pos/*.txt,负文件在一个单独的目录中,main_dir/neg/*.txt

如何使用 CategorizedPlaintextCorpusReader 加载和标记 pos 目录中的所有正文件,并对负文件执行相同的操作?

注意:该设置与 Movie_reviews 语料库 (~nltk_data\corpora\movie_reviews) 完全相同。

最佳答案

这是我的问题的答案。由于我正在考虑使用两个案例,所以我认为最好同时涵盖这两个案例,以防将来有人需要答案。如果您有与 movie_review 语料库相同的设置 - 几个以相同方式标记的文件夹,您希望调用您的标签并包含训练数据,您可以使用它。

reader = CategorizedPlaintextCorpusReader('~/MainFolder/', r'.*\.txt', cat_pattern=r'(\w+)/*')

我考虑的另一种方法是将所有内容都放在一个文件夹中,并将文件命名为 0_neg.txt、0_pos.txt、1_neg.txt 等。阅读器的代码应如下所示:

reader = CategorizedPlaintextCorpusReader('~/MainFolder/', r'.*\.txt', cat_pattern=r'\d+_(\w+)\.txt')

我希望这对将来的人有所帮助。

关于python - 在 NLTK 和 Python 中创建自定义分类语料库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10463898/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com