python - 细化，平均，圆形数据 python-6ren

python - 细化，平均，圆形数据 python

转载作者：太空宇宙更新时间：2023-11-04 01:30:18

29

4

我有一个大型数据集(请参阅下面的示例格式)，我需要进行以下思考:

确定第 1、2、5 列中出现的重复值 - 如果全部重复，那么我需要删除多余的行并对第 8 列中的值进行平均(这对于我将发布的代码是成功的 -
在第一步之后，我想将第 1,2 列的值四舍五入为整数(无小数)
我想重新引入第 3、4、6 和 7 列 -
第 3、6 和 7 列需要有我指定的特定值(例如，3 应该全为 0，6 应该全为 1，第 7 列全为 1)(类似于输入文件)根据第 4 列上不同值的数量，第 4 列需要增加 1)(类似于输入文件

这是一个示例输入文件:数据(文件名)

564991.15   7371277.89  0   1   1530    1   1   16.0225
564991.15   7371277.89  0   1   8250    1   1   14.4405
564991.15   7371277.89  0   2   1530    1   1   14.8637
564991.15   7371277.89  0   2   8250    1   1   14.8918
564991.17   7371277.89  0   3   1530    1   1   16.0002
564991.17   7371277.89  0   3   8250    1   1   15.4333
564991.04   7371276.76  0   4   1530    1   1   14.73
564991.04   7371276.76  0   4   8250    1   1   15.6138
564991.04   7371276.76  0   5   1530    1   1   16.2453
564991.04   7371276.76  0   5   8250    1   1   15.6138

这是我所知道的代码(目前我在 calc 中补充)

import os
import numpy as np
import pandas as pd
datadirectory = '/media/data'
os.chdir = 'datadirectory'
df = pd.read_csv('/media/data/data.dat')
sorted_data = df.groupby(["X.1","X.2","X.5"])["X.8"].mean().reset_index()
tuple_data = [tuple(x) for x in sorted_data.values]
datas = np.asarray(tuple_data)
np.savetxt('sorted_data_rounded.dat', datas, fmt='%s', delimiter='\t')

但他只给了我 4 列，没有四舍五入的数据....

最佳答案

添加一半并施放 astype 可能会稍微快一些整数:

df = pd.read_csv('data.dat', header=None, sep='\s+')

In [2]: df
Out[2]: 
           0           1  2  3     4  5  6        7
0  564991.15  7371277.89  0  1  1530  1  1  16.0225
1  564991.15  7371277.89  0  1  8250  1  1  14.4405
2  564991.15  7371277.89  0  2  1530  1  1  14.8637
3  564991.15  7371277.89  0  2  8250  1  1  14.8918
4  564991.17  7371277.89  0  3  1530  1  1  16.0002
5  564991.17  7371277.89  0  3  8250  1  1  15.4333
6  564991.04  7371276.76  0  4  1530  1  1  14.7300
7  564991.04  7371276.76  0  4  8250  1  1  15.6138
8  564991.04  7371276.76  0  5  1530  1  1  16.2453
9  564991.04  7371276.76  0  5  8250  1  1  15.6138

df1 = df.groupby([0, 1, 4])[7].mean().reset_index()
df1['ints'] = (df1[7] + 0.5).astype(int)

In [5]: df1
Out[5]: 
           0           1     4         7  ints
0  564991.04  7371276.76  1530  15.48765    15
1  564991.04  7371276.76  8250  15.61380    16
2  564991.15  7371277.89  1530  15.44310    15
3  564991.15  7371277.89  8250  14.66615    15
4  564991.17  7371277.89  1530  16.00020    16
5  564991.17  7371277.89  8250  15.43330    15

注意:您可以使用 DataFrame 方法保存 DataFrame to_csv .

关于python - 细化，平均，圆形数据 python，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/14268794/

29

4

0

文章推荐： python - 扁平化变量层次结构

文章推荐： mongodb - 你能在 Mongo 中为 $addToSet 指定一个键吗？

文章推荐： c - 如何正确链接 *.asm 文件？

文章推荐： python - BeautifulSoup - 如何找到第三个连续的 div

python - 细化/骨骼化扭曲了我的形象
我正在尝试缩小此图像，但它会不断失真。这是我应用细化的相关代码。我也尝试过使用“thin”功能而不是“skeletonize”，但结果相似。 from skimage.morphology impo
javascript - 抑制浏览器默认右键单击菜单 - 细化？
好的，据我所知，目前我们有两种方法首先是我可以在给定脚本中使用的一些 javascript。但这会关闭所有内容的右键单击。 window.oncontextmenu = function() {
javascript - 细化 MarkLogic 查询
在 MarkLogic 中如何找到元素所在的文档 URI 匹配的值为1742 这里是示例 XML 文档: 1742 1742 TT 1742
python - 如何分割/细化 xarray 数据集中的维度？
摘要:我有一个数据集，其收集方式使得维度最初不可用。我想获取本质上是一大块无差别的数据，并为其添加维度，以便可以对其进行查询、子集化等。这是以下问题的核心。这是我拥有的 xarray 数据集: D
python - 细化，平均，圆形数据 python
我有一个大型数据集(请参阅下面的示例格式)，我需要进行以下思考: 确定第 1、2、5 列中出现的重复值 - 如果全部重复，那么我需要删除多余的行并对第 8 列中的值进行平均(这对于我将发布的代码是成功
ios - 细化 Swift API GET 函数
我正在做一个练习项目，其中 iOS 应用程序打印来自 jsonplaceholder.typicode.com 的/posts 列表，当用户选择一个时，加载详细 View Controller 并显示
ruby - 在 ruby 细化 block 中组织长代码的最佳方法
module Access def last self[-1] end def start_end self[0] + last end end module Stri

首页

博学

6Ren·AI

商城

python - 细化，平均，圆形数据 python