gpt4 book ai didi

python - 预测给定文档的每个分类箱的概率得分

转载 作者:太空宇宙 更新时间:2023-11-03 21:09:22 26 4
gpt4 key购买 nike

我正在创建一个 python 模型,它将根据文本对给定文档进行分类。由于每个文档仍然需要人工审核,因此我正在创建一个建议平台,该平台将为用户提供给定文档所属的前 n 类。此外,每个文档可以属于多个类别。我有一组包含富文本及其标签的训练文档。

我想做的是对每个文档执行回归,以获得每个分类的概率分数,并返回得分最高的前 5 个类别。

我研究了贝叶斯分类模型和推荐系统,我认为逻辑回归会更好,因为它会返回分数。我是机器学习的新手,非常感谢任何根据此类问题建模的建议或示例。谢谢。

编辑:具体来说,我的问题是如何解析文本数据以使用逻辑回归进行 ML 建模?我是否需要使用 Word2Vec/Doc2Vec 或词袋模型以矢量格式表示文本?

最佳答案

简而言之,构建一个 multi-classmulti-label classification模型。然后calibrate你的模型输出。可以使用 Word2VecBag-of-words 模型来构建这样的模型。

更长的版本。见下图。这是 this 中的图 1纸。模型的输出将是 logits,您可以对 logits 应用 softmax(多类)或 sigmoid(多标签)变换。如果您希望对分类器输出更有信心,您可能需要执行本文中描述的校准步骤。此步骤是使用附加验证数据集将分类器输出转换为真实正确性可能性的表示。

Figure1 from paper

关于python - 预测给定文档的每个分类箱的概率得分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55172124/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com