gpt4 book ai didi

python - 数据分类

转载 作者:行者123 更新时间:2023-11-29 03:48:47 31 4
gpt4 key购买 nike

我们有一个包含 10000 条未分类数据记录的表,我想根据某些属性(如文本相似性或某些特征)对它们进行分类。

例如,假设单列包含姓名、电话号码和性别

现在我有一个索引,其中包含单个实体名称、电话号码和电子邮件。我想用适当类型的索引 id 标记列

表A(列表)

id      column_data     index_id
1 abc
2 male
3 +1298312123
4 pqr
5 +1283711231
6 female
7 +1231231112
8 male
9 xyz

表B(索引表)

id      index_name
1 name
2 phone number
3 email

所以,我想用一个index_id来标记所有的姓名、电话号码和性别,以便于识别数据。

P.S 我已经使用数据作为演示,我们有数千个数据和数千个索引要分类?

最好的方法是什么?

最佳答案

您正在寻找的是机器学习分类器。

基本上在分类器中,您可以创建模型(有很多教程,我将从 here 开始),然后用数据对其进行训练。你训练的数据应该是正确的分类,这样它就可以学习如何处理它以前没有遇到过的新形式的数据,并使“最好的猜测”成为可能。 (在机器学习术语中,这称为进行预测)

为了让您知道该用 google 搜索什么,寻找多类分类的示例,我最好的建议是从适用于 python 的 tensorflow 开始(上面的链接是指向 tensorflow 的教程)。

如果您不熟悉机器学习原理,我建议您从机器学习的基础知识开始,以便您首先了解自己在做什么。

关于python - 数据分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45049094/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com