gpt4 book ai didi

machine-learning - 使用 Mallet 进行序列标记的文本分类/文档分类

转载 作者:行者123 更新时间:2023-11-30 09:53:59 27 4
gpt4 key购买 nike

我将文档按称为类别的类排列在文件夹中。对于新的输入(例如提出的问题),我必须确定其类别。使用 MALLET 执行此操作的最佳方法是什么?我已经阅读了多篇有关此的文章,但找不到这样的方法。

另外,我需要对输入文本进行序列标记吗?

最佳答案

  1. 首先,您需要根据以文件夹形式排列的文档开发训练模型。对于 Mallet,每个文件夹将包含一个或多个文档,并且每个文件夹将代表其类别。

获得培训文档后,您需要创建一个 Mallet 可以理解的文件。进入Mallet的bin文件夹,在命令行中输入如下命令--

mallet import-dir --input directory:\...\parentfolder\* --preserve-case --remove-stopwords --binary-features --gram-sizes 1 --output directory:\mallet-file-name

这只是一个例子。如果您键入以下内容,则可以完整显示此查询中的参数--

mallet import-dir --help
  • 创建此 Mallet 文件后,您需要通过输入如下命令来训练模型 -

    mallet 训练分类器 --trainer 算法名称 --输入目录:\mallet-文件名 --输出分类器目录:...\模型

  • 现在模型已创建,您可以使用该模型对未知类别的文档进行分类。

    mallet classify-file --input directory:\...\data --output - --classifier classifier

    这将在标准输出上提供名为 data 的文档的类。

    是否需要使用序列标记取决于您尝试分类的数据。

    关于machine-learning - 使用 Mallet 进行序列标记的文本分类/文档分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38597729/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com