gpt4 book ai didi

python - 如何标记唯一值?

转载 作者:太空宇宙 更新时间:2023-11-03 20:18:52 24 4
gpt4 key购买 nike

我的数据集包含 48000 行作为输入文本和答案。答案有 89 个唯一值。我如何从文本答案中标记答案,例如 1 个唯一值等于答案 1,第二个值等于答案 2,依此类推,直到答案 89。

<小时/>
> x               y                y_val
> hello please push button 1 answer1
> what's up please push button 1 answer1
> be cool please push button 1 answer1
>smth please push button 1 answer1
>write num please push button 1 answer1
>hello please push button 1 answer1
>what's up please push button 1 answer1
>be cool sure answer2
>smth sure answer2
>write num sure answer2
>hello sure answer2
> what's up perfect answer3
> be cool perfect answer3
>smth call me answer89
>write num call me answer89

================================================== =========================

我想更改“请按按钮 1”将变为答案 1,“确定”将变为答案 2。我有 89 个唯一值,因此我需要将所有值更改为 y_values 变为仅包含答案 1-答案 89 的列。

最佳答案

我有点困惑,您是否只想在数据框中附加一个重新编码的列,将“y”列值标记为answer1-answer89?

如果是,此代码将为您执行此操作:

seen = set()
y_val = []
x = list(range(1,50))

for i in range(len(data)):
if any((str(data.iloc[i,1]) == y) for y in seen):
y_val.append(y_val[-1])
else:
y_val.append('answer'+str(x[0]))
seen.add(str(data.iloc[i,1]))
x.pop(0)

data['y_values'] = y_val
print(data)

这种方法假设数据按“y”列按字母顺序排序,并且您可以按照该顺序进行重新编码。只需将“data”替换为 pandas 数据集的名称,并确保 iloc 对于您的列来说是正确的。我确信有一种更有效或Python式的方法可以做到这一点,但这就是我的想法。

希望这有帮助!

关于python - 如何标记唯一值?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58277920/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com