python - 预测给定文档的每个分类箱的概率得分-6ren

python - 预测给定文档的每个分类箱的概率得分

转载作者：太空宇宙更新时间：2023-11-03 21:09:22

26

4

我正在创建一个 python 模型，它将根据文本对给定文档进行分类。由于每个文档仍然需要人工审核，因此我正在创建一个建议平台，该平台将为用户提供给定文档所属的前 n 类。此外，每个文档可以属于多个类别。我有一组包含富文本及其标签的训练文档。

我想做的是对每个文档执行回归，以获得每个分类的概率分数，并返回得分最高的前 5 个类别。

我研究了贝叶斯分类模型和推荐系统，我认为逻辑回归会更好，因为它会返回分数。我是机器学习的新手，非常感谢任何根据此类问题建模的建议或示例。谢谢。

编辑:具体来说，我的问题是如何解析文本数据以使用逻辑回归进行 ML 建模？我是否需要使用 Word2Vec/Doc2Vec 或词袋模型以矢量格式表示文本？

最佳答案

简而言之，构建一个 multi-class或multi-label classification模型。然后calibrate你的模型输出。可以使用 Word2Vec 或 Bag-of-words 模型来构建这样的模型。

更长的版本。见下图。这是 this 中的图 1纸。模型的输出将是 logits，您可以对 logits 应用 softmax(多类)或 sigmoid(多标签)变换。如果您希望对分类器输出更有信心，您可能需要执行本文中描述的校准步骤。此步骤是使用附加验证数据集将分类器输出转换为真实正确性可能性的表示。

Figure1 from paper

关于python - 预测给定文档的每个分类箱的概率得分，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55172124/

26

4

0

文章推荐： OpenCV OutputArray 堆损坏？

文章推荐： OpenCV FREAK 对旋转/缩放不稳健

文章推荐： image-processing - 在 calchist opencv 中选择 channel

文章推荐： opencv_traincascade 总是卡住

javascript 正则表达式得分
学生分数的正则表达式是什么:12.5, 99.5, 87, 1.66 该字段可以为空 (.) 的最大字符长度为 5，如下所示:99.99 分数介于 0 到 100 之间我用过这个，但是不起作用 va
mysql - 得分+当前玩家得分排名前10的玩家
对于服务器游戏...我有表珠宝: rank,player_id, plscore. 我想显示按分数从高到低排序的前 10 名玩家，如果当前玩家不在前 10 名，则加上当前玩家的分数。如果我/你目前不
ios - 得分+10时随机颜色
我的游戏中颜色很少: class GameScene: SKScene { let colors = [SKColor.green, SKColor.red, SKColor.blue, SKColo
javascript - 多项选择测验 - 得分？
我正在尝试用 HTML 创建一个简单的多项选择程序，但我在获取用户输入并在最后显示他们的分数时遇到了问题。有人可以帮帮我吗？我的多项选择测验有 10 个问题，每个问题有 4 个选择。例如有一个问题
Foursquare field 得分/评级
有谁知道如何使用 Foursquare API 获取 field 的分数/评级(例如 9.0/10)？我正在通过无用户访问进行连接。 https://developer.foursquare.com
c# - Jaccard 得分/距离或重叠百分比
我希望能够计算一个矩形相对于矩形网格的 Jaccard 分数/距离(距离为 1 分)。我的网格是 50x50(总共 1625625 个矩形)。我能够在 0.34 秒内针对所有这些计算出我的输入矩形的
elasticsearch - Elasticsearch 得分/排序-轮换类别
我有这样的文件(当然是简化的情况): Category: A, Rating: 10 Category: A, Rating: 9 Category: A, Rating: 5 Category: B
java - Libgdx 显示得分并每秒加 1 得分
我想每秒将分数增加 1 分，但我很难让它正常工作。例如 (伪代码): int score = 0f // on create updateEverySecond() { score += 1
ios - Facebook 游戏 iOS 得分
我现在正在制作一款新游戏，您可以在其中保存您的高分，但我不知道是否可以实现 Facebook 排行榜。这样用户就可以看到他们的 friend 并看到他们的高分是多少。这可能吗？好吧，我在不同的应用程序
C# 来自 Ruby Wilson 得分
谁能帮我把它转换成 C#。这真的伤害了我的大脑。 http://www.evanmiller.org/how-not-to-sort-by-average-rating.html require 's
ios - Sprite Kit 动态更新杀戮/得分/健康标签
最好的方法是什么才能让标签包含击杀数、生命值或随着与其相关的变量发生变化而更新的分数？目前我只是使用 SKLabelNode 并使用变量为其分配文本，但未计算文本属性，因此它在初始化后保持静态。每次更
javascript - Google PageSpeed 得分 - 1 渲染阻塞 CSS 文件
我有一个 Wordpress 网站。尝试使用 Google PageSpeed Insights Tool 获得 100/100 分数，但遇到 1 个“错误”。谷歌表示； Eliminate rend
google-pagespeed - V5 中的 Google Page Speed Insights 得分
自 V5 以来，与 V4 相比，评分发生了变化。该文档解释了性能、渐进式 Web 应用程序、可访问性、最佳实践和 SEO 的分数，但没有解释总体分数。根据图片，桌面版为 59。任何人都可以帮助我了解
ios - TLSphinx cmusphinx pocketsphinx 假设结果文本空字符串得分负 (-) 数字
我运行了自述文件中的示例代码 tryolabs/TLSphinx README.md ，Hypothesis的text属性的结果是空格，而score属性的结果是负数-4420。为什么我在假设的文本属
scikit-learn - sklearn metrics.log_loss 是正值 vs. 得分 'neg_log_loss' 是负值
确保我做对了: 如果我们使用 sklearn.metrics.log_loss独立的，即 log_loss(y_true,y_pred)，它产生一个正分数——分数越小，性能越好。但是，如果我们使用
javascript - 页面加载后在 React 中加载第三方 iframe，使 iframe 不影响 PageSpeed 得分
我有一个 iframe加载第三方小部件。我只想显示这个iframe在我的页面加载后，因为我不想减慢我的页面加载速度。我关注了 medium article其中描述了如何执行此操作，但他们的解决方案不起

首页

博学

6Ren·AI

商城

python - 预测给定文档的每个分类箱的概率得分