python - 你如何转置 dask 数据框(将列转换为行)以接近整洁的数据原则

转载作者：行者123 更新时间：2023-11-28 18:29:15

26

4

TLDR:我从一个 dask 包创建了一个 dask 数据框。 dask 数据框将每个观察(事件)视为一列。因此，我没有为每个事件设置数据行，而是为每个事件设置一列。目标是将列转置为行，就像 pandas 使用 df.T 转置数据框一样。

详细信息:我有 sample twitter data from my timeline here .回到我的起点，这里是从磁盘读取 json 到 dask.bag 然后将其转换成 dask.dataframe

的代码

import dask.bag as db
import dask.dataframe as dd
import json


b = db.read_text('./sampleTwitter.json').map(json.loads)
df = b.to_dataframe()
df.head()

问题我所有的个人事件(即推文)都记录为列副行。为了与 tidy 原则保持一致，我希望每个事件都有行。 pandas has a transpose method for dataframes dask.array 有一个数组的转置方法。我的目标是做同样的转置操作，但在一个 dask 数据帧上。我该怎么做？

行转列

编辑解决方案

此代码解决了最初的转置问题，通过定义要保留的列并删除其余列来清理 Twitter json 文件，并通过将函数应用于系列来创建新列。然后，我们将一个更小、更干净的文件写入磁盘。

import dask.dataframe as dd
from dask.delayed import delayed
import dask.bag as db
from dask.diagnostics import ProgressBar,Profiler, ResourceProfiler, CacheProfiler
import pandas as pd
import json
import glob

# pull in all files..
filenames = glob.glob('~/sampleTwitter*.json')


# df = ... # do work with dask.dataframe
dfs = [delayed(pd.read_json)(fn, 'records') for fn in filenames]
df = dd.from_delayed(dfs)


# see all the fields of the dataframe 
fields = list(df.columns)

# identify the fields we want to keep
keepers = ['coordinates','id','user','created_at','lang']

# remove the fields i don't want from column list
for f in keepers:
    if f in fields:
        fields.remove(f)

# drop the fields i don't want and only keep whats necessary
df = df.drop(fields,axis=1)

clean = df.coordinates.apply(lambda x: (x['coordinates'][0],x['coordinates'][1]), meta= ('coords',tuple))
df['coords'] = clean

# making new filenames from old filenames to save cleaned files
import re
newfilenames = []
for l in filenames:
    newfilenames.append(re.search('(?<=\/).+?(?=\.)',l).group()+'cleaned.json')
#newfilenames

# custom saver function for dataframes using newfilenames
def saver(frame,filename):
    return frame.to_json('./'+filename)

# converting back to a delayed object
dfs = df.to_delayed()
writes = [(delayed((saver)(df, fn))) for df, fn in zip(dfs, newfilenames)]

# writing the cleaned, MUCH smaller objects back to disk
dd.compute(*writes)

最佳答案

我认为你可以通过完全绕过 bag 来获得你想要的结果，代码如下

import glob

import pandas as pd
import dask.dataframe as dd
from dask.delayed import delayed

filenames = glob.glob('sampleTwitter*.json')
dfs = [delayed(pd.read_json)(fn, 'records') for fn in filenames]
ddf = dd.from_delayed(dfs)

关于python - 你如何转置 dask 数据框(将列转换为行)以接近整洁的数据原则，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38760864/

26

4

0

文章推荐： javascript - 具有 html 输出的 Angular 三元运算符

文章推荐： javascript - ngFor-Angular2 的问题

文章推荐： python - Scikit-Learn- 如何添加 'unclassified' 类别？

文章推荐： javascript - Google map 实现问题和 API 前缀错误

java - 如何在android中使用工具栏创 build 置
我有一个“设置首选项”屏幕。它有一个 ListPreference 和一个 CheckBoxPreference。当我选择 ListPreference 的一项时，我想更改应用程序的日期格式。另外，通
c++ - Qt如何创 build 置/配置窗口
我试图找到创 build 置/配置窗口的示例。单击菜单项中的“选项”操作可启动设置窗口。我想弄清楚如何从主窗口打开第二个窗口。以及新窗口如何将设置信息返回主窗口。尝试使用 QDialog 或一些继承的
c++ - 为 Qt 项目创 build 置
我在 Lnux 上有 Qt 应用程序。我想为此创建一个可执行文件/设置以便在 Windows 上分发它并且不需要安装 Qt。我通过包含所有 dll 为此创建了可执行文件但要运行它，用户需要进入文件夹。
Javascript - 创 build 置 div 宽度的动态类
我正在尝试创建一个有点动态的 html 类，它根据类末尾包含的数字设置宽度 %。注意:类名将始终以“gallery-item-”开头示例:div.gallery-item-20 = 20% 宽度我
android - 如何创 build 置 Activity 以从底部出现一半的屏幕？
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 6 年前。 Improve this qu
android - 如何在 Android 应用程序中创 build 置
在我的应用程序中，我想记住一些变量，例如，如果用户登录过一次，那么他们将在下次重新打开应用程序时登录，或者如果他们决定禁用某些提醒，应用程序可以检查该变量是否是错误的，将不再显示该提醒。理想情况下，这
java - 如何为 Java 应用程序创 build 置？
我在 Netbeans 中开发了一个应用程序，它连接到远程计算机的消息队列并发送消息。该应用程序还有其他功能。项目完成后，我清理并构建应用程序，然后 Netbeans 创建一个 jar 文件。但我的
.net - 为 Outlook 2010 加载项创 build 置
我创建了一个 Outlook 加载项，需要创建一个设置以使其可分发(我是新手，所以请原谅新手评论) Outlook -2010 Vs -2010 .Net 4.0 我读了一些地方，最简单的方法就是发
java - 在 java swing 应用程序中创 build 置
这个问题已经有答案了: 已关闭10 年前。 Possible Duplicate: How to make installer pack of Java swing Application Proje
c# - 在 WPF 应用程序中创 build 置 View
这个问题肯定已经被很多人解决过很多次了，但是经过几个小时的研究，我仍然没有找到我要找的东西。我有一个 ExportSettings.settings 文件，其中包含一堆设置( bool 值、字符串、
linux - 为 Linux C 项目创 build 置
我想为我的项目创建一个安装程序，以便它可以安装在任何电脑上而无需安装头文件。我怎样才能做到这一点？最佳答案一般有两种分发程序的方法: 源代码分发(要构建的源代码)。最常见的方法是使用 GNU au
java - 如何为 Android 动态壁纸创 build 置 Activity
如何在这样的动态壁纸中创 build 置 Activity ？ Example Picture 我只用一个简单的文本构建了设置 Activity ，但遇到了一些问题。第一个问题是我不能为此 Activ
python - 如何为具有依赖项的 Python 项目创 build 置/安装程序？
我用 GUI 创建了一个简单的软件。它有几个源文件。我可以在我的编辑器中运行该项目。我认为它已经为 1.0 版本做好了准备。但我不知道如何为我的软件创 build 置/安装程序。源代码是python
android - 在 Android P 上创 build 置 Activity
我的 SettingsActivity当前扩展了 Android Studio 生成的类，AppCompatPreferenceActivity扩展 PreferenceActivity . Acti
c# - 创 build 置 (MSI) 以注册(regasm)程序集
我正在使用 .NET 为 IE 开发工具栏。目前，我使用 gacutil 插入我的 .NET 程序集，并使用 regasm 注册我的 COM 程序集。我想为项目创建一个设置 (MSI)，但我似乎无法
android - 创 build 置 Activity 时出现 boolean 参数问题
在为设置页面创建 Activity 后，我注意到 if (mCurrentValue !== value) 中的 mCurrentValue !== value 返回警告: Identity equa
c# - 在 visual studio 10 中创 build 置
我在 Visual Studio 10 中创建了一个项目，该项目使用 Mysql 数据库和 Crystalreports 以及它。但是我不知道如何进行自动安装 Mysql 和 Crystalrepo
c# - 在 C# 项目中使用 sqlite 数据库并创 build 置
我正在尝试在我的 C# 项目中使用 Sqlite 数据库，并且我在 IDE 中做得很好。我的问题是当我为我的项目制作安装包并安装它时，程序无法访问 sqlite 数据库。我也知道这是因为用户没有访问文
c# - 如何使用 Web 平台安装程序为 Web 应用程序创 build 置
我有一个大型 Web 应用程序(带有 11 子系统的 ErP)，我想使用 Microsoft WebPI 为它创建一个设置。目前，我们每周向客户发送一次应用程序(用于每周更新)。我们在此应用程序中
visual-studio - 在 visual studio 2008 中为项目解决方案创 build 置
所以我对工资单申请的最终查询是 - 如何为薪资申请创 build 置？我需要知道的一切- 如何将设置项目添加到我现有的解决方案如何将解决方案中的文件添加到安装项目中，以及添加哪些文件添加和在什么文

首页

博学

6Ren·AI

商城

python - 你如何转置 dask 数据框(将列转换为行)以接近整洁的数据原则

编辑解决方案