gpt4 book ai didi

machine-learning - 解析非均匀数据

转载 作者:行者123 更新时间:2023-11-30 09:02:15 26 4
gpt4 key购买 nike

我正在尝试解析包含两个(或一个)有用部分的数据集合,但可能以多种不同的方式组织:

V01C01
Vol 1 Chapter 1
Chapter 1 Volume 1 - Alt title
V1.1
etc.

我不想使用大量的正则表达式,因为无法预测事物的组织方式的所有组合(而且有些组合会有无关的文本)。我觉得机器学习的一个分支可能非常适合这个,但我在这方面的经验还不够多,无法了解。

最佳答案

这确实是一个有趣的问题,您可以尝试一些事情。

假设您的数据上没有标签,那么我要做的第一件事是使用 k-means ( http://en.wikipedia.org/wiki/K-means_clustering ) 等聚类算法检查每个实例之间的连接,保持请记住,这不会解决您的问题,但会帮助您探索数据,并希望找到一组特征来训练监督学习分类器。

如果您的数据确实有标签,或者您可以手动标记您的数据集。那么你就面临着一个更容易管理的问题。乍一看,它看起来很像文本或文档分类问题(例如将电子邮件分类为垃圾邮件/无垃圾邮件),在这种情况下,朴素贝叶斯分类器可能是解决该问题的良好首次尝试,因为它是一种易于实现的算法并能提供合理的良好结果。

关于朴素贝叶斯分类器 ( https://www.bionicspirit.com/blog/2012/02/09/howto-build-naive-bayes-classifier.html )

我在这里做了一些假设,基于此我可能是错误的。也许如果您澄清一些要点(例如您是否能够手动标记数据),我们将能够为您提供进一步的帮助。

关于machine-learning - 解析非均匀数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15316543/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com