gpt4 book ai didi

machine-learning - 如何为多种设备训练一个模型

转载 作者:行者123 更新时间:2023-11-30 09:41:52 25 4
gpt4 key购买 nike

我有一些表格设备数据,其中包括

time column, some tabular features, target classes

所有设备数据中约有 500 行(不相同),并且目标类别相同。

我有大约 1000 台设备的相同数据,我想为所有设备训练一个通用模型来检测类别。

有人可以帮助我训练目标变量的方法吗?在这种情况下什么样的模型可以工作

最佳答案

如果您的设备类型是数据的一部分,您可以训练决策树。如果设备类型特征对于分类来说很重要,则它将被添加到树中。首先,自己创 build 备类型特征 - 每种设备类型的二进制列,就像在 one-hot 编码中所做的那样。每个设备类型都会有一个二进制列 - is_device_samsung、is_device_lg、is_device_iphone 等。创建的列数等于设备类型的数量。除一列外,所有列均为 0,指示当前类型的列将为 1。这不能保证设备类型将成为模型的一部分 - 但让 AI 为您决定这一点。顺便说一句 - 不要使用 get_dummies ,除非您知道如何根据测试数据的需要准确地重用它。

另一种选择是使用 python-weka 包装器,它接受标称属性:

示例:

import weka.core.jvm as jvm
from weka.core.converters import Loader
from weka.classifiers import Classifier

def get_weka_prob(inst):
dist = c.distribution_for_instance(inst)
p = dist[next((i for i, x in enumerate(inst.class_attribute.values) if x == 'DONE'), -1)]
return p

jvm.start()

loader = Loader(classname="weka.core.converters.CSVLoader")
data = loader.load_file(r'.\recs_csv\df.csv')
data.class_is_last()

datatst = loader.load_file(r'.\recs_csv\dftst.csv')
datatst.class_is_last()

c = Classifier("weka.classifiers.trees.J48", options=["-C", "0.1"])

c.build_classifier(data)
print(c)
probstst = [get_weka_prob(inst) for inst in datatst]

jvm.stop()

Weka 模型是使用 java 桥接 python 的不同模型 - 这些方法是可以使用此桥调用的 java 方法。要在 sklearn 中使用数据帧 - 您必须使用 one-hot 编码来操作它。请注意,weka 中的名义属性不能包含任何特殊字符。所以使用

df = df.replace([',', '"', "'", "%", ";"], '', regex=True) 

在将任何标称属性保存到 csv 之前。如果您想确保 model_type 功能包含在您的模型中,您可以欺骗它并添加一个虚拟模型类型 - 并确保该虚拟模型的类列始终为“1”或“True” - 取决于您的模型类变量。如果这个虚拟模型有足够的行 - j48 会将其作为第一个分支打开。一旦 j48 选择了该属性 - 它将针对所有模型类型进行分支,而不仅仅是虚拟模型类型。

关于machine-learning - 如何为多种设备训练一个模型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57571436/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com