gpt4 book ai didi

machine-learning - 半监督自动标记的实现建议

转载 作者:行者123 更新时间:2023-11-30 09:56:26 24 4
gpt4 key购买 nike

我想知道有哪些方法可以开发自动标记系统。我正在构建一个公司内部反馈平台,我们的业务用户希望向帖子添加标签。我想构建一个系统,在用户发帖时向他们建议标签,允许用户纠正建议并让系统从这些建议中学习。我们最初想要使用几个标签,但允许用户根据需要添加更多标签。

我知道 LDA算法和 Kea/Mallet,但这些看起来像是不完整的解决方案。我想将我们预定义的标签添加到现有的帖子中,然后将它们作为系统前进的指南。

只是寻找一些有关如何继续的建议。一个问题是数据集目前非常小(约 90 个帖子)。

谢谢!

最佳答案

针对这个确切的问题,我写了一篇博士论文,我称之为生成人工智能。由于您可能不会阅读本文,因此这里是此类问题的通用算法:

1)标准化数据:确保范围在 0 和 1 之间,如果有数字,则范围在 -1 和 1 之间;如果您有单词/名称,请仅使用小写(或仅使用大写);如果两者都有,请将数据拆分为数字和其他标签,并使其成为多分类器系统。

2)使用 KNN(K 最近邻)直到类别变得足够大(通常对于类/类别中的前几百个项目,您可以使用 KNN)。尝试不同的设置来优化结果。使用 K(通常我使用范围 1 到 21,总是奇数)和距离函数。 Scipy 拥有不错的实现且易于使用。

此外,使用标签的排名来影响决策。例如,如果您的 K 为 11,那么您返回所有标签的第一个项目将获得 11 分。第 2 项标签获得 10 分,依此类推。然后收集标签并根据标签获得的分数显示最佳 (N) 个标签。

然后向用户显示标签,以便用户可以提供反馈并且系统可以自行更新。显示更多标签的优点是用户需要输入的内容更少。

3) 一旦你有了足够的项目,你应该用支持向量机替换 KNN 算法。通常线性支持向量机就足够好了。为了优化(线性)支持向量机,请对参数使用网格搜索。

<小时/>

基本思想是,您有一个生成假设(本例中为标签)的系统,并且用户通常在生产系统中提供反馈,以便人工智能可以优化自身。

如果您对此非常感兴趣,这是我的博士论文:

https://irs.ub.rug.nl/dbi/4c86122381f79

目前我将它用于实时学习的机器人......

关于machine-learning - 半监督自动标记的实现建议,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26489557/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com