gpt4 book ai didi

machine-learning - 如何对不同属性具有多个相同值的数据进行一次性编码?

转载 作者:行者123 更新时间:2023-11-30 09:04:29 25 4
gpt4 key购买 nike

我有包含正在寻找工作的候选人的数据。我得到的原始数据一团糟,但我设法增强了它。现在,我面临着一个无法解决的问题。

一条候选记录如下所示

https://i.imgur.com/LAPAIbX.png

由于机器学习算法无法处理分类数据,因此我想对其进行编码。我的目标是让候选人记录看起来像这样:

https://i.imgur.com/zzsiDzy.png

我需要更改的是为原始数据的Knowledge1、Knowledge2、Knowledge3、Knowledge4、Tag1和Tag2中存在的每个可能值添加一个新列,但不重复。我设法对其进行编码以获得比我需要的更多的属性,这导致模型不准确。我尝试的方式为每个可能的选项提供了新创建的属性 Jscript_Knowledge1、Jscript_Knowledge2、Jscript_Knowledge3 等。

如果解释不够清楚,请告诉我,以便我进一步解释。

谢谢,非常感谢任何帮助。

干杯!

最佳答案

根据您的解释,我对您的问题有了一些了解。我将尝试详细说明我将如何解决这个问题。如果这不能解决您的问题,我可能需要更多解释来理解您的问题。让我们开始吧。

  • 对于您拥有的所有候选人数据,请收集一个主数据技能/知识列表
  • 此列表将成为您的专栏

  • 对于每个候选人,如果他拥有此技能,则其记录该列变为 1,否则保持 0

  • 这是一种热门编码的本质,但是,由于相同的技能分散在多个列中,因此您很难对其进行自动编码。

另一种方法可能是:

  • 对于每个候选人,收集所有知识技能作为列表,并将其分配到知识和标签的 1 列中作为另一个列表,并将其分配到另一列,而不是当前的 4(知识)+ 2(标签)。
  • 在此列中按字母顺序对知识(和标签)列表进行排序。
  • 此后的 Auto One 热编码可能会产生比之前更小的列

希望这有帮助!

关于machine-learning - 如何对不同属性具有多个相同值的数据进行一次性编码?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56060844/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com