python - 处理我的测量数据的最佳库和实现-6ren

python - 处理我的测量数据的最佳库和实现

转载作者：行者123 更新时间：2023-12-02 04:31:49

26

4

我有很多测量数据要在 Python 中分析。每个数据集由一个参数集(带有数字、日期和字符串的标量)和两条曲线组成。

目标是能够过滤(根据标准选择)、分组、聚类、分析(例如组中所有曲线和参数的平均值)和可视化数据集或它们的组。

我开始用 Pandas 实现这一点，并创建了一个 Dataframe，其中每个参数有一列，测量 ID 作为索引。然后我为曲线添加了一列，这样该列中的每个字段都包含两条曲线作为两个 numpy 数组的字典。

这是一个示例实现(真实的数据框有数千个数据集和数十个参数列)

import numpy as np
import pandas as pd

example_dataset_nr = 5
# Column titles
columns = ['DateTime', 'PositionX', 'Filter', 'Curves']

# Generate arbitrary parameter data to fill example Dataframe
dates = [pd.Timestamp(i*10000000) for i in range(example_dataset_nr)]
positions = np.random.rand(example_dataset_nr)
filters = ['green']*example_dataset_nr

# Generate curves, such that each field in the Dataframes "Curves"-column contains
# a dict with two curves, each as a array of points:
curves = [{'curve_voltage': np.random.randint(0, 100, size=(100,2)), 'curve_current': np.random.randint(0, 100, size=(100))} for i in range(example_dataset_nr)]

# Create Dataframe
df = pd.DataFrame(data=np.array([dates, positions, filters, curves]).T, columns=columns)
df['PositionX'] = df['PositionX'].astype(np.float)
df.index.rename('MeasurementID', inplace=True)
print(df.to_string())

现在，如果我使用“df.mean()”之类的操作来分析数据，Pandas 当然不知道如何处理曲线。我希望 Pandas 像在其他数字字段上一样对曲线进行操作。例如，假设 df.mean()，Pandas 应该计算所有曲线的平均值，而不仅仅是 Dataframe 中的参数。

# Get the mean of all numeric types. Want to get the mean curves of all 'curve_voltage' and 'curve_current', too.
df.mean()

我想知道，在 Python 中实现这种行为的最佳方法是什么？

以下是一些建议:

Pandas:为曲线使用单独的数据框或系列，并通过外键将它们连接到纯“参数数据框”。但是问题是如何自动将所有方法从“参数数据框”转发到“曲线数据框”而不重新实现它们？

Pandas :子类数据帧。或任何其他扩展 Pandas 的方式。我读了 https://pandas.pydata.org/pandas-docs/stable/development/extending.html ，但我不确定去这里的正确方法是什么。再次以有意义的方式转发方法的相同问题。

Xarray:我从未使用过它，但 Xarray 是满足我需求的更好工具，然后是 Pandas？

数据库:使用 SQL 之类的数据库是否更适合？

还有其他可行的选择吗？

最佳答案

我认为这将是 xarray 的一个很好的用例，因为它自然支持将表格(一维)数据与高维数据(你的曲线)结合起来。

使用 xarray，您可以像这样构建数据集:

import xarray as xr

ds = xr.Dataset(
    {
        'DateTime': (['MeasurementID'], dates),
        'PositionX': (['MeasurementID'], positions),
        'Filter': (['MeasurementID'], filters),
        'curve_voltage': (['MeasurementID', 'curve_x', 'curve_y'], [row['curve_voltage'] for row in curves]),
        'curve_current': (['MeasurementID', 'curve_x'], [row['curve_current'] for row in curves]),
    },
    coords={
        'MeasurementID': np.arange(len(dates)),
        'curve_x': np.arange(100),
        'curve_y': np.arange(2)
    }
)

并像这样使用它:

>>> ds
<xarray.Dataset>
Dimensions:        (MeasurementID: 5, curve_x: 100, curve_y: 2)
Coordinates:
  * MeasurementID  (MeasurementID) int64 0 1 2 3 4
  * curve_x        (curve_x) int64 0 1 2 3 4 5 6 7 8 ... 92 93 94 95 96 97 98 99
  * curve_y        (curve_y) int64 0 1
Data variables:
    DateTime       (MeasurementID) datetime64[ns] 1970-01-01 ... 1970-01-01T00:00:00.040000
    PositionX      (MeasurementID) float64 0.7422 0.4789 0.7673 0.2552 0.8817
    Filter         (MeasurementID) <U5 'green' 'green' 'green' 'green' 'green'
    curve_voltage  (MeasurementID, curve_x, curve_y) int64 11 40 51 ... 38 26 64
    curve_current  (MeasurementID, curve_x) int64 88 24 57 32 75 ... 60 25 40 3

>>> ds['curve_voltage'].mean()  # global average over all voltage curves
<xarray.DataArray 'curve_voltage' ()>
array(49.26)

>>> ds['curve_voltage'].mean('curve_x')  # average only over curve_x dimension
ds['curve_voltage'].mean('curve_x')

<xarray.DataArray 'curve_voltage' (MeasurementID: 5, curve_y: 2)>
array([[47.06, 50.73],
       [53.1 , 45.41],
       [51.41, 50.33],
       [49.12, 46.26],
       [47.94, 51.24]])
Coordinates:
  * MeasurementID  (MeasurementID) int64 0 1 2 3 4
  * curve_y        (curve_y) int64 0 1

当然，您可以(并且应该)为您的附加维度赋予比 curve_x 更有意义的名称。和 curve_y .

关于python - 处理我的测量数据的最佳库和实现，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59407410/

26

4

0

文章推荐： sql - 在存储过程中构建动态 WHERE 子句

文章推荐： F# 实现具有不同模板参数的接口(interface)

文章推荐： haskell - 将 musl 与 ghc 静态链接

文章推荐： cygwin - 安装 Cygwin 后 SSH 代理不再启动

前端性能精进之优化方法论（一）——测量
　　性能优化的重要性不言而喻，Google 的研究表明，当网站达到核心 Web 指标（Core Web Vitals）阈值时，用户放弃加载网页的可能性会降低 24%。　　如何
javascript - 横幅设计创建者 - 测量
我正在创建一个横幅设计创建器(这样人们就可以使用自己的文本、背景、图像、形状等来制作自己的设计)。我的产品有各种尺寸，例如:800x2000 mm、A4(210 x 297mm)、3300x2200m
swift - 测量 - 获取完整的单位名称
我不确定如何使用测量来获取单位的全名。例如“公里”而不是“公里”。 let measurement = Measurement(value: 50, unit: UnitLength.meters)
android - 测量 ViewPager
我有一个自定义 ViewGroup，它有一个子 ViewPager。 ViewPager 由 PagerAdapter 提供，该 LinearLayout 向 ViewPager 提供 LayoutP
memory - 测量 make 运行的内存消耗
我想测量一个大型软件项目在 Linux (make) 中构建过程中的内存消耗是多少内存。理想情况下，消耗会按操作(即编译、链接)拆分，但一开始绘制随时间变化的图表可能就足够了。我有哪些选择？最佳答
ssis - 测量 SSIS 数据流的进度
我正在运行一个 SSIS 包来从一个平面文件加载一百万行，它使用一个脚本任务进行复杂的转换和一个 SQL Server 表目标。我试图找出在数据流处理期间将行数(可能是 1000 的倍数以提高效率)写
python - 测量 Keras 层执行时间的正确方法
我正在尝试检查 Keras 模型不同层的执行速度(使用来自 tensorflow 2.3.0 v 的 keras) 我从这个 repo 中获取了代码并修改它，使用 timer() from from
java - 测量 Java 程序性能
我有一个旧的应用程序，一个 JAR 文件，它经过了一些增强。基本上必须修改代码的某些部分以及修改一些逻辑。将旧版本与新版本进行比较，新版本比旧版本慢约 2 倍。我试图缩小导致速度变慢的原因，但我发
silverlight - 测量 Silverlight 图表加载时间
我正在尝试测量不同 Silverlight 图表库(例如 Silverlight Control Toolkit、Visifire、Telerik)在屏幕上加载所需的时间。我的问题是我只能测量加载控
PHP:测量 TTFB(第一个字节的时间)
由于 TTFB 会因每个请求而异，因此我想对其进行统计并获取平均值。有谁知道我如何通过 PHP 进行测量？bytecheck.com 网站能够分析这些数据:这是 example.com 的示例:htt
c# - 测量 .NET 对象的大小
我正在使用 .NET 4.0 C# 编写应用程序。我将对象放在 .net httpruntime 缓存中，并希望在其上生成一些统计信息。我想知道对象在放入缓存之前的大小以及它在缓存中的大小。我该如何衡
flutter - 测量 Flutter 应用程序启动时间
我正在寻找某种方法来测量应用程序的启动时间。从点击应用程序图标的那一刻到用户可以看到例如登录页面的那一刻。最佳答案跑 flutter run --trace-startup --profile 跟
iphone - 测量 iPhone 应用程序加载时间
我正在优化 iPhone 应用程序以实现非常短的加载时间，我想知道: 是否有一种方法可以测量 iPhone 应用程序从用户点击图标到应用程序可用(或至少 –viewDidLoad 被调用)的加载时间？
android - 谷歌分析/Activity 测量
我无法理解中的一件事谷歌分析 .我的应用中需要一个功能，例如一个用户将我的应用转至乙用户然后他得到了一些奖励，但我想跟踪一个时通过链接的用户 ID乙用户点击该链接然后我可以得到一个中的用
delphi - 测量 Delphi 中的代码覆盖率
有没有办法用 DUnit 来衡量代码覆盖率？或者有没有免费的工具可以实现这一点？你用它做什么？您通常追求什么代码覆盖率？ Jim McKeeth:感谢您的详细回答。我谈论的是 TDD 方法意义上的单元
makefile - 测量(配置文件)在Makefile的每个目标中花费的时间
当我执行Makefile时，是否可以递归地回荡在make all的每个目标中花费的（系统，用户，实际）时间？我想以比time make all更细粒度的方式对项目的编译进行基准测试。理想情况下，它将
r - 测量 R 中函数的执行时间
R 中有衡量函数执行时间的标准化方法吗？显然我可以在执行之前和之后获取system.time，然后取它们的差异，但我想知道是否有一些标准化的方法或功能(不想发明轮)。我似乎记得我曾经使用过如下的东
fortran - 测量 Fortran 程序所花费的时间
我最近为了好玩而开始学习 Fortran，我想知道是否有任何简单的方法来显示执行我的代码所花费的时间。这只是一个数到一百万的简单循环，我想看看完成这个需要多长时间。如果有帮助，这是我正在使用的代码:
r - 测量 Shiny 内部的执行速度
我正在开发一个 Shiny 的应用程序。我对计算执行某些代码块(例如 ggplot 等)所需的时间很感兴趣。出于某种原因，使用通常的时钟方法似乎在响应式(Reactive)调用中不起作用，例如:
r - 测量 jpeg 中的空白
我想测量 jpeg 的白色/黄色量(在可调整的容差范围内)。我正在尝试开发一种质量控制工具来测量杏仁的缺陷。缺陷是棕色杏仁皮上的划痕(见下图)。由于这些缺陷是白色/黄色的，我想要一种简单地将图像加载

首页

博学

6Ren·AI

商城

python - 处理我的测量数据的最佳库和实现