gpt4 book ai didi

python - svmLight Format中的每一项是什么意思

转载 作者:太空宇宙 更新时间:2023-11-04 05:29:35 24 4
gpt4 key购买 nike

我很困惑每个部分在 svmLight 数据格式中的含义。例如:

(标签/目标,[(特征,值),...],查询ID)

label是数据的排序,queryid是对象的id吗?

例如:对于以下项目:

2 qid:1 1:4.000000 2:2.772589 3:0.266667 4:0.258154 5:37.330565 6:11.431241 7:37.307017 8:1.213630 9:21.342267 10:10.81:13422766 10:10.842:17.66 749495 13:-39.467448 14:- 37.791635 15:-38.002289 16:14.000000 17:5.634790 18:0.063927 19:0.063290 20:28.303065 21:9.340024 22:24.809801 23:0.23115156.26.26 2954 26:16.619600 27:2.810583 28:-45.733775 29:-44.612550 30 :-44.823263 31:18.000000 32:6.579251 33:0.076923 34:0.076079 35:27.701632 36:9.139690 37:23.819476 38:0.277200 39:67.281632 36:9.139690 37:23.819476 38:0.277200 39:67.281604 415:604 415:604 415 59974 42:2.973485 43:-44.687666 44:-43.467574 45:- 43.302044 #docid = 346319

2是指对象的排名/目标值吗?那么文件的qid或docid是什么意思呢?

谢谢!

最佳答案

前导数确实是这个对象的“目标”。 qid:1 部分用于约束此类对象之间的成对差异。 docid,或者更确切地说,最后一个 # 之后的所有内容都是一个信息字符串,它是

can be used to pass additional information to the kernel (e.g. non feature vector data)

(source)。

每个对象的一般格式在官方来源中的“如何使用”标题下给出:

<line> .=. <target> <feature>:<value> <feature>:<value> ... <feature>:<value> # <info>
<target> .=. +1 | -1 | 0 | <float>
<feature> .=. <integer> | "qid"
<value> .=. <float>
<info> .=. <string>

注意你指定的格式

(label/target, [(feature, value), ...], queryid)

pysvmlight的那个,一个绑定(bind)到 SVM-Light 支持向量机库的 Python,由 Thorsten Joachims 制作,我之前引用过。您需要编写一个解析器来将 svmlight 的本地数据文件解析为 pysvmlight 使用的格式。至少有 one example在 StackOverflow 上,即使它没有考虑 qid,但是当您阅读该解析器的代码时,添加它应该不会太难。

关于python - svmLight Format中的每一项是什么意思,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37571930/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com