Python 3.4 - Pandas - 帮助正确排列数据框列和删除无效列-6ren

Python 3.4 - Pandas - 帮助正确排列数据框列和删除无效列

转载作者：太空宇宙更新时间：2023-11-04 04:48:09

24

4

本题基于Python - Pandas - Combining rows of multiple columns into single row in dataframe based on categorical value我之前问过。

我有一个格式如下的表格:

                  Var1     Var2      Var3      Var4    ID

          0    0.70089  0.93120  1.867650  0.658020    1

          1    0.15893 -0.74950  1.089150 -0.045123    1

          2    0.13690  0.59210 -0.032990  0.672860    1

          3   -0.50136  0.89913  0.440200  0.812150    1

          4    1.08940  0.43036  0.669470  1.286000    1

          5    0.09310  0.14979 -0.392335  0.040500    1

          6  7  0.63339  1.27161  0.852072  0.474800   2

          7  8 -0.54944 -0.04547  0.867050 -0.234800   2

          8  9  1.28600  1.87650  0.976670  0.440200   2

我使用以下代码创建了上表:

import pandas as pd
df1 = {'Var1': [0.70089, 0.15893, 0.1369, -0.50136, 1.0894, 0.0931, 0.63339, -0.54944, 1.286], Var2': [0.9312, -0.7495, 0.5921, 0.89913, 0.43036, 0.14979, 1.27161, -0.04547, 1.8765], 'Var3': [1.86765, 1.08915,-0.03299, 0.4402, 0.66947, -0.392335, 0.852072, 0.86705, 0.97667], 'Var4': [0.65802, -0.045123, 0.67286, 0.81215, 1.286, 0.0405, 0.4748, -0.2348, 0.4402] 'ID':[1, 1, 1, 1, 1, 1, 2, 2, 2]}

df=pd.Dataframe(data=df1)

我想通过根据“ID”列对其进行分组来将其转换为特定格式。

所需的输出在结构上类似于下表:

ID   V1_0_0 V2_0_1  V3_0_2  V4_0_3  V1_1_0  V2_1_1  V3_1_2  V4_1_3    
 1     A       B       C       D      E       F      G        H
 2     I       J       K       L      0       0      0        0

在上面提到的最后一个问题中，我是在用户 Allen 的帮助下实现的。代码打印如下:

num_V = 4
max_row = df.groupby('ID').ID.count().max()

df= df.groupby('ID').apply(lambda x: x.values[:,1:].reshape(1,-1)
[0].apply(lambda x: x.values[:,1:].reshape(1,-1)[0]).apply(pd.Series) 
.fillna(0)





df.columns = ['V{}_{}_{}'.format(i+1,j,i) for j in range(max_row) for i in 
              range(num_V)]
print(df)

其结果产生以下输出表:

          V1_0_0    V2_0_1   V3_0_2  ***V4_0_3**   V1_1_0   V2_1_1  V3_1_2  \

ID

1         0.93120   1.867650  0.65802    1      -0.74950  1.08915 -0.045123

2         1.27161     0.852072  0.47480   2     -0.04547  0.86705  -0.234800



       **V4_1_3***  V1_2_0   V2_2_1   ...V3_3_2  **V4_3_3**  V1_4_0   V2_4_1  \

ID                                     ...

1         1       0.5921 -0.03299   ...    0.81215    1    0.43036  0.66947

2         2      1.8765  0.97667      ...    0.00000  0    0.00000  0.00000



            V3_4_2  **V4_4_3**   V1_5_0    V2_5_1  V3_5_2  **V4_5_3**

ID

  1          1.286     1        0.14979 -0.392335  0.0405       1

  2          0.000     0        0.00000  0.000000  0.0000       0

这是部分正确的，但问题是某些列在每 3 列(** ** 之间的列)之后给出 1 和 2 的值。然后在没有与“ID”值 2 相关的值后打印 1 和 0。检查后我意识到它没有打印“Var1”值，并且这些值相差一列。 (即 V1_0_0 应为 0.70089，V4_0_3 的实际值应为 V3_0_2 的值，即 0.65802。

有什么方法可以纠正这个问题，以便我得到与我想要的输出表完全一样的东西吗？我如何确保 ** ** 标记的列删除它们拥有的值并返回正确的值？

我正在使用 Python 3.4 在 Linux 终端上运行它

谢谢。

最佳答案

不确定您提供的代码有什么问题，但请尝试一下，如果它能满足您的需求，请告诉我:

     import pandas as pd

    df = {'Var1': [0.70089, 0.15893, 0.1369, -0.50136, 1.0894, 0.0931, 0.63339, -0.54944, 1.286], 'Var2': [0.9312, -0.7495, 0.5921, 0.89913, 0.43036, 0.14979, 1.27161, -0.04547, 1.8765], 'Var3': [1.86765, 1.08915,-0.03299, 0.4402, 0.66947, -0.392335, 0.852072, 0.86705, 0.97667], 'Var4': [0.65802, -0.045123, 0.67286, 0.81215, 1.286, 0.0405, 0.4748, -0.2348, 0.4402], 'ID':[1, 1, 1, 1, 1, 1, 2, 2, 2]}
    df=pd.DataFrame(df)
    newdataframe=pd.DataFrame(columns=df.columns)
    newID=[]

    for agroup in df.ID.unique():
        temp_df=pd.DataFrame(columns=df.columns)
        adf=df[df.ID==agroup]
        for aline in adf.itertuples():
            a= ((pd.DataFrame(list(aline))).T).drop(columns=[0])
            a.columns=df.columns
            if a.ID.values[0] not in newID:
                 suffix_count=1
                 temp_df=pd.concat([temp_df,a])
                 newID.append(a.ID.values[0])
            else:
                 temp_df = temp_df.merge(a, how='outer', on='ID', suffixes=('', '_'+ str(suffix_count)))
                 suffix_count += 1
                 newdataframe=pd.concat([newdataframe,temp_df])

    print (newdataframe)

输出:

  ID     Var1   Var1_1  Var1_2   Var1_3  Var1_4  Var1_5     Var2   Var2_1  \

 0  1.0  0.70089  0.15893  0.1369 -0.50136  1.0894  0.0931  0.93120 -0.74950   
 0  2.0  0.63339 -0.54944  1.2860      NaN     NaN     NaN  1.27161 -0.04547   

        Var2_2   ...     Var3_2  Var3_3   Var3_4    Var3_5     Var4    Var4_1  \
     0  0.5921   ...   -0.03299  0.4402  0.66947 -0.392335  0.65802    -0.045123   
     0  1.8765   ...    0.97667     NaN      NaN       NaN  0.47480 -0.234800   

        Var4_2   Var4_3  Var4_4  Var4_5  
     0  0.67286  0.81215   1.286  0.0405  
     0  0.44020      NaN     NaN     NaN

用于实现您正在寻找的输出的另一个代码:

            import pandas as pd
            import numpy as np
            import re

            df = {'Var1': [0.70089, 0.15893, 0.1369, -0.50136, 1.0894, 0.0931, 0.63339, -0.54944, 1.286], 'Var2': [0.9312, -0.7495, 0.5921, 0.89913, 0.43036, 0.14979, 1.27161, -0.04547, 1.8765], 'Var3': [1.86765, 1.08915,-0.03299, 0.4402, 0.66947, -0.392335, 0.852072, 0.86705, 0.97667], 'Var4': [0.65802, -0.045123, 0.67286, 0.81215, 1.286, 0.0405, 0.4748, -0.2348, 0.4402], 'ID':[1, 1, 1, 1, 1, 1, 2, 2, 2]}
            df=pd.DataFrame(df)
            df['duplicateID']=df['ID'].duplicated()
            newdf=df[df['duplicateID']==False]
            newdf=newdf.reset_index()
            newdf=newdf.iloc[:,1:]
            df=df[df['duplicateID']==True]
            df=df.reset_index()
            df=df.iloc[:,1:]
            del newdf['duplicateID']
            del df['duplicateID']

            merge_count=0
            newID=[]


           for aline in df.itertuples():
                a= ((pd.DataFrame(list(aline))).T).drop(columns=[0])
                a.columns=df.columns
                newdf=newdf.merge(a, how='left', on ='ID', suffixes=('_'+str(merge_count),'_'+str(merge_count+1)))
                merge_count+=1

         newdf.index=newdf['ID']
        del newdf['ID']
        newdf.columns=[col+'_'+str(int(re.findall('\d+',col)[0])-1) for col in newdf.columns]
        print newdf

关于Python 3.4 - Pandas - 帮助正确排列数据框列和删除无效列，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49020776/

24

4

0

文章推荐：崩溃的 C 程序

文章推荐： c - 获取结构/链接列表的错误

文章推荐：将二维数组中的字符串复制到一维数组中

c++ - 编译错误。定义不匹配。无效(*)(无效*)
我有一个接受以下参数的函数: int setvalue(void (*)(void *)); 为了满足参数:void (*)(void *)，我创建了这样一个函数: static void *
c++ - 无效、无效、C 和 C++
我有以下代码: typedef void VOID; int f(void); int g(VOID); 在 C 中编译得很好(在 Fedora 10 上使用 gcc 4.3.2)。与 C++ 编译的
c - 无效(*foo)(无效): meaning of latest (void)
这个问题已经有答案了: Is f(void) deprecated in modern C and C++? [duplicate] (6 个回答) 已关闭 7 年前。 B.A.T.M.A.N./A.
asp.net-core - 无效 token - 观众 'empty' 无效
我在 ASP.NET Core 3.1 项目上有以下 Identity Server 4 配置: services .AddIdentityServer(y => { y.Events.R
azure - 委托(delegate) token 无效。指定的国家云 ID (1) 无效
我们有一个 O365 租户，一切都是开箱即用的。租户放置在德国云中，而不是全局 (office.de) 中。我们还开发了一个 Office 插件，使用 OAuth 2.0 授权访问共享点。首先，我们向
c# - 错误请求 - 无效 URL - HTTP 错误 400。请求 URL 无效
我有一个如下所示的路由 routes.MapRoute( name: "Default", url: "{controller}/{action}/{i
java - token 无效 - token 无效 : Invalid user for the two legged OAuth
我正在尝试使用 OAuth2.0 访问 google 文档。我已经从 Google API 控制台获取了客户端 ID 和 key 。但是当我运行这段代码时，我收到了异常。如果我遗漏了什么，有人可以建议
rust - 为什么创建const指针的集合对 `for val in a.iter()`无效，而对 `a.iter().map(|val| val)`无效？
此代码有效: let mut b: Vec = Vec::with_capacity(a.len()); for val in a.iter() { b.push(val); } 此代码不起作
azure - 输入参数 'scope' 无效。范围 https ://outlook. office365.com/EWS.AccessAsUser.All 无效
使用 client_credintials 授权类型请求 EWS oauth2 v2.0 的访问 token 时出现错误。 https://login.microsoftonline.com/tena
java - token 无效 - 无效 token : Cannot parse referred token string: Invalid gaia_data. Base64 token 上的 AuthSubToken 原型(prototype)
我通过 Java 应用程序使用 Google 电子表格时遇到了问题。我创建了应用程序，该应用程序运行了 1 年多，没有任何问题，我什至在 Create Spreadsheet using Google
无效 Base64 字符的正则表达式
如何创建匹配所有无效 Base64 字符的正则表达式？我在堆栈上找到了 [^a-zA-Z0-9+/=\n\r].*$ 但是当我尝试时我得到了带有 - 符号的结果字符串.我根本不知道正则表达式，任何人
YAML 无效 - 可能是引号问题
我从 Gitlab CI/CD Pipelines 获得错误信息:yaml invalid。问题是由 .gitlab-ci.yml 脚本的第五行引起的: - 'ssh deployer@gita
spring - @Qualifier 无效
我有 3 个数据源，设置如下: @Configuration @Component public class DataSourceConfig { @Bean("foo") @Conf
mysql - updateOnDuplicate 无效
你好，我想用bulkCreate ex 插入数据: [ { "typeId": 5, "devEui": "0094E796CBFCFEF9", "application_name": "Pressu
iPhone UIApplicationExitsOnSuspend 无效
UIApplicationExitsOnSuspend 不会强制我的应用程序退出。我已经清理过目标、删除了应用程序、重建并重新安装了很多次。我确实需要退出我的应用程序。最佳答案您是否链接了 SD
iPhone 团队配置文件 - 无效
在 iPhone 配置门户上，显示我的 iPhone 团队配置配置文件无效。有一个“由 Xcode 管理”文本。 “续订”按钮被禁用。我该如何解决这个问题？谢谢最佳答案使用 Xcode 3.2.
symfony2 CSRF 无效
好的，所以今天我用我们的“实时”数据库中的新信息更新了我的数据库……从那时起，我的一个表格就出现了问题。如果您需要任何代码，请告诉我，我将对其进行编辑并发布所需的代码... 我有一个报告表格，其中有一
有人可以解释这是什么意思吗？无效(*func)()；
我有一个结构体，其中有一个元素表示为 void (*func)(); 我知道 void 指针通常用于函数指针，但我似乎无法定义该函数。我不断收到取消引用指向不完整类型的指针。我用谷歌搜索了一下但没有结
Coldfusion，oauth_signature 无效
我正在尝试使用 Coldfusion 9 从 ning 网络获取凭证，所以首先这是测试 api 的 curl 语法: curl -k https://external.ningapis.com/xn/
c - 为什么此引用不起作用/无效？
这个问题已经有答案了: Does C have references? (2 个回答) 已关闭 4 年前。我正在学习 C 语言引用，这是我的代码: #include int main(void)

首页

博学

6Ren·AI

商城

Python 3.4 - Pandas - 帮助正确排列数据框列和删除无效列