gpt4 book ai didi

LIBSVM数据准备: Excel data to LIBSVM format

转载 作者:行者123 更新时间:2023-12-04 16:58:32 24 4
gpt4 key购买 nike

我想研究如何执行LIBSVM进行回归,目前我正准备准备数据。目前,我具有.csv和.xlsx格式的这种数据形式,并且我想将其转换为libsvm数据格式。

Current Data

到目前为止,我知道数据应该采用这种格式,以便可以在LIBSVM中使用:

LIBSVM format

根据我的阅读,对于回归,“标签”是目标值,可以是任何实数。

我正在做电力负荷预测研究。谁能告诉我这是什么吗?最后,我应该如何组织列和行?

最佳答案

LIBSVM数据格式由下式给出:

<label> <index1>:<value1> <index2>:<value2> ...
...
...



如您所见,这形成一个矩阵[(IndexCount + 1)列,LineCount行]。更精确地说是 稀疏矩阵。如果为每个 index指定一个值,则会有一个密集矩阵,但是如果仅指定一些索引,例如 <label> <5:value> <8:value>,则只有 58索引,当然还有 label都会具有自定义值,所有其他值都设置为 0。这只是为了简化符号或节省空间,因为数据集可能非常庞大。

对于标签的意思,我引用了 ReadMe file:

<label> is the target value of the training data. For classification, it should be an integer which identifies a class (multi-class classification is supported). For regression, it's any real number. For one-class SVM, it's not used so can be any number. is an integer starting from 1, <value> is a real number. The indices must be in an ascending order.



如您所见, label是您要预测的数据。 index标记数据的 功能及其 value。功能只是与目标值相关联或相关的指标,因此可以做出更好的预测。

完全虚构的故事时间:Gabriel Luna(完全虚构的角色)希望预测接下来几天的能源消耗。他发现,前一天的外部温度是一个很好的指标,因此他选择了索引为 Temperature1作为特征。 重要提示:索引始终始于1,有时零可能导致奇怪的LIBSVM行为。然后,他出人意料地注意到,一周中的某天(周一至周日或 06)也会影响他的负载,因此他选择了它作为索引 2的第二个功能。 LIBSVM的矩阵行现在具有以下格式:
<myLoad_Value> <1:outsideTemperatureFromYesterday_Value> <2:dayOfTheWeek_Value>
加布里埃尔·卢纳(Gabriel Luna)(他晚上是 bat 侠)现在可以在几周内捕获这些数据,看起来可能是这样的(如上所述,负载以kWh为单位,温度以°C为单位,白天):
0.72 1:25 2:0 0.65 1:21 2:1 0.68 2:29 2:2 ...
注意,由于稀疏矩阵格式,我们可以省略 2:0。这将是您用来训练LIBSVM模型的训练数据。然后,我们如下预测明天的负荷。您知道今天的温度,让我们说 23°C,今天是星期二,它是 1,所以明天是 2。因此,这是与模型一起使用的线或向量:
0 1:23 2:2
在这里,您可以任意设置 <label>值。它将被预测值覆盖。我希望这有帮助。

关于LIBSVM数据准备: Excel data to LIBSVM format,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40436694/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com