gpt4 book ai didi

julia - 如何在使用 for eachrow 遍历 DataFrame 时为列赋值

转载 作者:行者123 更新时间:2023-12-01 11:35:46 44 4
gpt4 key购买 nike

我有以下代码。它基本上遍历数据框中的行并尝试为列 C 分配一个值。

我试图找到如何实现这一点但没有成功。我知道这句话 r.C = i*100 是不正确的,对于每个迭代行,为 C 列赋值哪一个是正确的?

请注意,这个问题是一个简化的示例,在我的真实代码中,我需要实际遍历每一行,因为计算要复杂得多。

文件ma​​in2.jl:

struct MyStruct
a::Int32
b::Int32
c::String
end

df = DataFrame( A=Int[], B=Int[] )
push!(df, [1, 10])
push!(df, [2, 20])
push!(df, [3, 30])

insertcols!(df, 3, :C => Int)


println(df)

i = 1
for r in eachrow(df)
global i
r.C = i*100
i = i + 1
end

然后我得到:

julia> include("main2.jl")
| A | B | C |
| Int64 | Int64 | DataType |
|-------|-------|----------|
| 1 | 10 | Int64 |
| 2 | 20 | Int64 |
| 3 | 30 | Int64 |
ERROR: LoadError: MethodError: Cannot `convert` an object of type Int64 to an object of type DataType
Closest candidates are:
convert(::Type{S}, ::T<:(Union{CategoricalString{R}, CategoricalValue{T,R} where T} where R)) where {S, T<:(Union{CategoricalString{R}, CategoricalValue{T,R} where T} where R)} at /home/.../.julia/packages/CategoricalArrays/qcwgl/src/value.jl:91
convert(::Type{T}, ::T) where T at essentials.jl:167
Stacktrace:
[1] setindex!(::Array{DataType,1}, ::Int64, ::Int64) at ./array.jl:766
[2] insert_single_entry!(::DataFrame, ::Int64, ::Int64, ::Int64) at /home/.../.julia/packages/DataFrames/yH0f6/src/dataframe/dataframe.jl:458
[3] setindex! at /home/.../.julia/packages/DataFrames/yH0f6/src/dataframe/dataframe.jl:497 [inlined]
[4] setindex! at /home/.../.julia/packages/DataFrames/yH0f6/src/dataframerow/dataframerow.jl:106 [inlined]
[5] setproperty!(::DataFrameRow{DataFrame,DataFrames.Index}, ::Symbol, ::Int64) at /home/.../.julia/packages/DataFrames/yH0f6/src/dataframerow/dataframerow.jl:129
[6] top-level scope at /usr/home/.../main2.jl:23
[7] include at ./boot.jl:328 [inlined]
[8] include_relative(::Module, ::String) at ./loading.jl:1094
[9] include(::Module, ::String) at ./Base.jl:31
[10] include(::String) at ./client.jl:431
[11] top-level scope at REPL[1]:1
in expression starting at /usr/home/.../main2.jl:21

最佳答案

将具有标记值的列添加到 DataFrame 的标准方法是:

df[!, :C] .= 0

insertcols! 可以使用,但通常当您想在 DataFrame 的中间插入一列时使用它(不是最后一列,我的示例确实如此)。

现在您在问题末尾编写的循环可以表述为:

for (i, r) in enumerate(eachrow(df))
r.C = i*100
end

我想说这是一种更典型的方式。

最后你可以简单地写:

df.C = 100 .* axes(df, 1)

同样的效果。请注意,最后一条语句可能要复杂得多,例如:

df.C = @. 100 * $axes(df, 1) + df.A + sin(df.B)

或在这种情况下等效

df.C = 100 * axes(df, 1) + df.A + sin.(df.B)

(通常 - 在处理数据帧而不是循环时,您可以自由使用广播)

关于julia - 如何在使用 for eachrow 遍历 DataFrame 时为列赋值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58002144/

44 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com