python - 从 pandas DataFrame 中高效扩展行-6ren

python - 从 pandas DataFrame 中高效扩展行

转载作者：太空狗更新时间：2023-10-29 21:58:52

26

4

我是 pandas 的新手，我正在尝试将一个奇怪的格式文件读入 DataFrame。原始文件如下所示:

; No   Time   Date  MoistAve  MatTemp  TDRConduct  TDRAve  DeltaCount  tpAve  Moist1  Moist2  Moist3  Moist4  TDR1  TDR2  TDR3  TDR4
1  11:38:17   11.07.2012  11.37  48.20  5.15  88.87  15  344.50  11.84  11.35  11.59  15.25  89.0  89.0  89.0  88.0
2  11:38:18   11.07.2012  11.44  48.20  5.13  88.88  2  346.22  12.08  11.83  -1.00  -1.00  89.0  89.0  -1.0  -1.0
3  11:38:19   11.07.2012  11.10  48.20  4.96  89.00  3  337.84  11.83  11.59  10.62  -1.00  89.0  89.0  89.0  -1.0
4  11:38:19   11.07.2012  11.82  48.20  5.54  88.60  3  355.92  11.10  13.54  12.32  -1.00  89.0  88.0  88.0  -1.0

我设法获得了一个结构相同的 DataFrame:

In [42]: date_spec = {'FetchTime': [1, 2]}

In [43]: df = pd.read_csv('MeasureCK32450-20120711114050.mck', header=7, sep='\s\s+',
                          parse_dates=date_spec, na_values=['-1.0', '-1.00'])

In [44]: df
Out[52]: 
               FetchTime  ; No  MoistAve  MatTemp  TDRConduct  TDRAve  DeltaCount   tpAve  Moist1  Moist2  Moist3  Moist4  TDR1  TDR2  TDR3  TDR4
0    2012-11-07 11:38:17     1     11.37     48.2        5.15   88.87          15  344.50   11.84   11.35   11.59   15.25    89    89    89    88
1    2012-11-07 11:38:18     2     11.44     48.2        5.13   88.88           2  346.22   12.08   11.83     NaN     NaN    89    89   NaN   NaN
2    2012-11-07 11:38:19     3     11.10     48.2        4.96   89.00           3  337.84   11.83   11.59   10.62     NaN    89    89    89   NaN
3    2012-11-07 11:38:19     4     11.82     48.2        5.54   88.60           3  355.92   11.10   13.54   12.32     NaN    89    88    88   NaN

但现在我必须扩展这个 DataFrame 的每一行

  .... Moist1  Moist2  Moist3  Moist4  TDR1  TDR2  TDR3  TDR4
1 ....  11.84   11.35   11.59   15.25    89    89    89    88
2 ....  12.08   11.83     NaN     NaN    89    89   NaN   NaN

分为四行(三个索引No、FetchTime和MeasureNo):

                                  .... Moist  TDR
No           FetchTime  MeasureNo
 0 2012-11-07 11:38:17          1 .... 11.84   89 # from line 1, Moist1 and TDR1
 1                              2 .... 11.35   89 # from line 1, Moist2 and TDR2
 2                              3 .... 11.59   89 # from line 1, Moist3 and TDR3
 3                              4 .... 15.25   88 # from line 1, Moist4 and TDR4
 4 2012-11-07 11:38:18          1 .... 12.08   89 # from line 2, Moist1 and TDR1
 5                              2 .... 11.83   89 # from line 2, Moist2 and TDR2
 6                              3 ....   NaN  NaN # from line 2, Moist3 and TDR3
 7                              4 ....   NaN  NaN # from line 2, Moist4 and TDR4

通过保留其他列和最重要的列，保留条目的顺序。我知道我可以用 for row in df.iterrows(): ... 遍历每一行，但我读到这是不是很快。我的第一个方法是这样的:

In [54]: data = []
In [55]: for d in range(1,5):
....:     temp = df.ix[:, ['FetchTime', 'MoistAve', 'MatTemp', 'TDRConduct', 'TDRAve', 'DeltaCount', 'tpAve', 'Moist%d' % d, 'TDR%d' % d]]
....:     temp.columns = ['FetchTime', 'MoistAve', 'MatTemp', 'TDRConduct', 'TDRAve', 'DeltaCount', 'tpAve', 'RawMoist', 'RawTDR']
....:     temp['MeasureNo'] = d
....:     data.append(temp)
....:      
In [56]: test = pd.concat(data, ignore_index=True)
In [62]: test.head()
Out[62]: 
             FetchTime  MoistAve  MatTemp  TDRConduct  TDRAve  DeltaCount   tpAve  RawMoist  RawTDR  MeasureNo
0  2012-11-07 11:38:17     11.37     48.2        5.15   88.87          15  344.50     11.84      89          1
1  2012-11-07 11:38:18     11.44     48.2        5.13   88.88           2  346.22     12.08      89          1
2  2012-11-07 11:38:19     11.10     48.2        4.96   89.00           3  337.84     11.83      89          1
3  2012-11-07 11:38:19     11.82     48.2        5.54   88.60           3  355.92     11.10      89          1
4  2012-11-07 11:38:20     12.61     48.2        5.87   88.38           3  375.72     12.80      89          1

但我看不出有什么方法可以影响连接以获得我需要的顺序......是否有另一种方法来获取我需要的结果 DataFrame？

最佳答案

这是一个解决方案，基于 numpy 的重复和数组索引来构建去栈值，以及 pandas 的合并来输出连接的结果。

首先将数据样本加载到 DataFrame 中(稍微更改 read_csv 的参数)。

from cStringIO import StringIO

data = """; No   Time   Date  MoistAve  MatTemp  TDRConduct  TDRAve  DeltaCount  tpAve  Moist1  Moist2  Moist3  Moist4  TDR1  TDR2  TDR3  TDR4
1  11:38:17   11.07.2012  11.37  48.20  5.15  88.87  15  344.50  11.84  11.35  11.59  15.25  89.0  89.0  89.0  88.0
2  11:38:18   11.07.2012  11.44  48.20  5.13  88.88  2  346.22  12.08  11.83  -1.00  -1.00  89.0  89.0  -1.0  -1.0
3  11:38:19   11.07.2012  11.10  48.20  4.96  89.00  3  337.84  11.83  11.59  10.62  -1.00  89.0  89.0  89.0  -1.0
4  11:38:19   11.07.2012  11.82  48.20  5.54  88.60  3  355.92  11.10  13.54  12.32  -1.00  89.0  88.0  88.0  -1.0
"""

date_spec = {'FetchTime': [1, 2]}
df = pd.read_csv(StringIO(data), header=0, sep='\s\s+',parse_dates=date_spec, na_values=['-1.0', '-1.00'])

然后构建一个去堆叠的TDR向量并将其与原始数据框合并

stacked_col_names = ['TDR1','TDR2','TDR3','TDR4']

repeated_row_indexes = np.repeat(np.arange(df.shape[0]),4)
repeated_col_indexes = [np.where(df.columns == c)[0][0] for c in stacked_col_names]

destacked_tdrs = pd.DataFrame(data=df.values[repeated_row_indexes,repeated_col_indexes],index=df.index[repeated_row_indexes],columns=['TDR'])

ouput = pd.merge(left_index = True, right_index = True, left = df, right = destacked_tdrs)

具有所需的输出:

output.ix[:,['TDR1','TDR2','TDR3','TDR4','TDR']]

   TDR1  TDR2  TDR3  TDR4  TDR
0    89    89    89    88   89
0    89    89    89    88   89
0    89    89    89    88   89
0    89    89    89    88   88
1    89    89   NaN   NaN   89
1    89    89   NaN   NaN   89
1    89    89   NaN   NaN  NaN
1    89    89   NaN   NaN  NaN
2    89    89    89   NaN   89
2    89    89    89   NaN   89
2    89    89    89   NaN   89
2    89    89    89   NaN  NaN
3    89    88    88   NaN   89
3    89    88    88   NaN   88
3    89    88    88   NaN   88
3    89    88    88   NaN  NaN

关于python - 从 pandas DataFrame 中高效扩展行，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12898266/

26

4

0

文章推荐： python - 转置字典(从字典列表中提取一个键的所有值)

文章推荐： python - 我可以在 python 输入缓冲区中插入可删除字符吗？

文章推荐： python - pygit2 Blob 历史

必须加载 PHP 扩展 "curl"。必须加载 PHP 扩展 "soap"
我是 magento 的新手，目前我在 magento 安装期间遇到“必须加载 PHP 扩展 curl ”错误。你能帮帮我吗？最佳答案如果您的服务器上没有安装 curl，您可以键入以下命令之一来安
php - $ Composer 找不到 mongodb 扩展，需要 Mongodb 扩展
我在 macOS Mojave/macOS Big Sur/macOS Monterey/macOS Ventura 上使用最新的 php 版本 7.2 并收到类似错误 $composer requ
java - Integer 扩展 Number 但无法对
这个问题已经有答案了: Why generic type is not applicable for argument extends super class for both? (5 个回答) 已关
javascript - 在默认 NightWatch 浏览器实例中启用和修改 Chome 扩展(特别是 ModHeader 扩展)
我正在使用 NightWatch.js 并进行一些 UI 测试，我想用一些额外的 desiredCapabilities 启动默认浏览器实例(即启用扩展并应用一些特定值)。 p> 注意:我可以执行这些
java - 扩展 server_name(SNI 扩展)未随 JAVA 8 一起发送
有人知道为什么我在 java 8 中使用此代码时没有服务器扩展名称吗: try { URL url = new URL(urlString); URLC
dart - 扩展 dart 类类似于 js 原型(prototype)或 swift 扩展
扩展提供给我的类(class)。为现有的类提供新功能。或扩展现有的mixin s 或虚拟类，任何东西都可以工作。也许是这样的: class FlatButton {} // maybe no
python - 使用 c 扩展 python/django，使用 apache 扩展 mod_wsgi
我有一个关于使用 c 代码和 mod_wsgi 扩展 python 的问题。我在 apache 服务器中有一个 django 应用程序，它查询 postgresql 数据库以生成报告。在某些报告中，
google-chrome - testcafe 是否支持加载任何 crx 扩展，并使用 chrome 浏览器中的自定义 header 值设置 ModHeader 扩展
testcafe支持在Chrome浏览器中加载crx扩展吗？如果是这样，请告诉我需要尝试什么方法。我尝试了下面的代码，但没有成功 await t.eval(new Function(fs.read
java - 在 Java 中，类 B 扩展 A 和类 B 扩展 A 之间有什么区别
这个问题已经有答案了: What is a raw type and why shouldn't we use it? (16 个回答) 已关闭 3 年前。有什么区别: // 1 class A c
javascript - 单击 chrome 扩展 DOM(popup.html) 上的按钮时，扩展 DOM 关闭并且不会在 popup.js 中调用 onclick 函数
我正在编写一个 chrome 扩展来记录单击开始按钮后触发的请求。这是我的文件:1. list .json { "manifest_version": 2, "name": "recorde
Vim # 扩展
我每天都在使用 vim 和 perforce 现在我的问题是，如果我想查看 perforce 文件修订版，则从命令模式下的 vim :!p4 打印文件#1 vim 试图让我获得缓冲区 #1。有没有办法
NUnit 扩展
大家好，我有一个关于 NUnit 扩展(2.5.10)的问题。我想做的是向数据库。为此，我使用 Event 创建了 NUnit 扩展听众。我遇到的问题是公共(public)无效 TestFin
扩展。通过单击不在窗口中关闭弹出窗口
我有弹出窗口，而不是模态窗口。如何通过单击页面的其他部分(不在窗口中)来关闭此窗口？最佳答案像这样的东西: function closeWin(e, t) { var el = win.
C# 扩展
我通常非常谨慎地使用扩展方法。当我确实觉得有必要编写一个扩展方法时，有时我想重载该方法。我的问题是，您对调用其他扩展方法的扩展方法有何看法？不好的做法？感觉不对，但我无法真正定义原因。例如，第二个
16、扩展 Ant
扩展 Ant Ant带有一组预定义的任务，但是你可以创建自己的任务，如下面的例子所示。定制Ant 任务应扩展 org.apache.tools.ant.Task 类，同时也应该拓展 execut
用于重定向文件的 Firefox 扩展
我想要一个重定向所有请求的扩展: http://website.com/foo.js 到: http://localhost/myfoo.js 我无法使用主机文件将主机从 website.com 编辑
c++ - 扩展 QChartView
对于为什么 QChartView 放在 QTabWidget 中时会扩展，我有点迷惑。这是 QChartView 未展开(因为它被隐藏)时应用程序的图片。应用程序的黑色部分是 QOpenGLWid
oracle - 如何避免 OR 扩展？
如果在连接条件中使用 OR 运算符，如何优化以下查询以避免 SQL 调优方面的 OR 扩展？ SELECT t1.A, t2.B, t1.C, t1.D, t2.E FROM t1 LEFT J
.net - 扩展/插件通信架构
一旦加载插件的问题得到解决(在 .NET 中通过 MEF 的情况下)，下一步要解决的是与它们的通信。简单的方法是实现一个接口(interface)，使用插件实现，但有时插件只需要扩展应用程序的工作方式
symfony - 检查是否定义了功能/扩展
在我的 Symfony2 包中，我需要检查是否定义了一个函数(一个扩展)。更具体地说，如果安装了 KnpMenuBundle，我会在我的包中使用那个，否则我将自己渲染插件。我试过了，但这当然不起作用

首页

博学

6Ren·AI

商城

python - 从 pandas DataFrame 中高效扩展行