python - 将分类列转换为附加列-6ren

python - 将分类列转换为附加列

转载作者：行者123 更新时间：2023-12-05 03:37:01

25

4

我有一个以前从 avro 文件加载的以下数据框形式的大型数据集

<表类="s-表"><头>时间戳id类别值<正文>2021-01-01 00:00:00+00:00一个dg2021-01-01 00:10:00+00:00一个dh2021-01-01 00:10:00+00:00一个eh2021-01-01 00:00:00+00:00beh

我想旋转 category列(包含大约 50 个不同类别的顺序)并沿着 timestamp 进行重复数据删除。和 id列所以结果看起来像这样

<表类="s-表"><头>id时间戳de<正文>一个2021-01-01 00:00:00+00:00g南一个2021-01-01 00:10:00+00:00hhb2021-01-01 00:00:00+00:00南h

我知道如何在 pandas 中实现这一目标将多指数与 stack 一起使用/unstack操作，但是我的数据集太大而无法使用 pandas无需手动批处理和dask不支持多指数。有什么方法可以用 dask 有效地完成吗？？

编辑:

正如@Dahn 所指出的，我用 pandas 创建了一个最小的合成示例:


import pandas as pd

records = [
    {'idx': 0, 'id': 'a', 'category': 'd', 'value': 1},
    {'idx': 1, 'id': 'a', 'category': 'e', 'value': 2},
    {'idx': 2, 'id': 'a', 'category': 'f', 'value': 3},
    {'idx': 0, 'id': 'b', 'category': 'd', 'value': 4},
    {'idx': 1, 'id': 'c', 'category': 'e', 'value': 5},
    {'idx': 2, 'id': 'c', 'category': 'f', 'value': 6}
]

frame = pd.DataFrame(records)

   idx id category  value
0    0  a        d      1
1    1  a        e      2
2    2  a        f      3
3    0  b        d      4
4    1  c        e      5
5    2  c        f      6

frame = frame.set_index(['id', 'idx', 'category'], drop=True).unstack().droplevel(0, axis=1).reset_index()
frame.columns.name = ''

  id  idx    d    e    f
0  a    0  1.0  NaN  NaN
1  a    1  NaN  2.0  NaN
2  a    2  NaN  NaN  3.0
3  b    0  4.0  NaN  NaN
4  c    1  NaN  5.0  NaN
5  c    2  NaN  NaN  6.0

最佳答案

我不认为 Dask 会在 2021 年 10 月实现这一点。这可能是因为不支持 unstack 需要的多索引。已经有some work on this不过最近。

但是，我认为这仍然可以使用 apply-concat-apply paradigm 实现(和 apply_concat_apply 函数)。

下面的解决方案适用于您提供的示例，原则上，我认为它应该普遍适用，但我不确定。请谨慎行事，如果可能，请检查结果是否与 Pandas 给您的结果一致。我也将其发布为 feature request在 Dask 的 github 上。

import dask.dataframe as dd

# Create Dask DataFrame out of your `frame`
# npartitions is more than 1 to demonstrate this works on a partitioned datataset
df = dd.from_pandas(frame, npartitions=3)

# Dask needs to know work out what the categories are
# Alternatively you can use df.categorize
# See https://docs.dask.org/en/latest/dataframe-categoricals.html
category = 'category'
df[category] = df[category].astype(category).cat.as_known()

# Dask needs to know what the resulting DataFrame looks like
new_columns = pd.CategoricalIndex(df[category].cat.categories, name=category)
meta = pd.DataFrame(columns=new_columns, 
                    index=df._meta.set_index(['idx', 'id']).index)

# Implement using apply_concat_apply ("aca")
# More details: https://blog.dask.org/2019/10/08/df-groupby
def identity(x): return x

def my_unstack(x):
    return x.set_index(['id', 'idx', 'category'], drop=True).unstack()
    
def combine(x):
    return x.groupby(level=[0, 1]).sum()

result = dd.core.apply_concat_apply([df], 
                   chunk=identity, 
                   aggregate=my_unstack, 
                   combine=combine,
                   meta=meta)

result.compute()

选项 B:`map_partitions`

如果您已经能够至少根据 idx 或 id 之一对数据进行排序，那么您也可以简单地使用 map_partitions并将每个分区视为一个 Pandas 数据框。

这应该会显着改善内存使用和整体性能。

# df has sorted index `idx` in this scenario

category = 'category'
existing_categories = df[category].astype(category).cat.as_known().cat.categories
categories = [('value', cat) for cat in existing_categories]

new_columns = pd.MultiIndex.from_tuples(categories, names=(None, category))

meta = pd.DataFrame(columns=new_columns, 
                    index=df._meta.set_index(['idx', 'id']).index)

def unstack_add_columns(x):
    x = x.set_index(['id', 'category'], append=True, drop=True).unstack()
    # make sure that result contains all necessary columns
    return x.reindex(columns=new_columns) 

df.map_partitions(unstack_add_columns, meta=meta)

如果你不能保证 idx 会被排序，你可以尝试类似的东西

df_sorted = df.set_index('idx')
# I recommend saving to disk in between set_index and the rest
df_sorted.to_parquet('data-sorted.parq')

但这本身可能会带来内存问题。

关于python - 将分类列转换为附加列，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/69480773/

25

4

0

文章推荐： elixir - 如何在 elixir phoenix 的 eex 模板中使用 "with"语句

文章推荐： python - 两种相似方法之间获取可迭代长度的时间差

文章推荐： glibc - libc 和 undefined symbol : stime

css - 如何调整 Firefox 附加 SDK 弹出窗口/面板的大小？ Firefox 附加 SDK 弹出窗口/面板太小
我关注了 tutorial on creating a popup for an add-on在 Firefox 中，效果很好。我现在遇到的问题是它创建的弹出窗口不会更改大小以适应我添加到其中的内容
覆盖后的FFmpeg concat(附加)
我有一些视频，我需要连接一个标题并添加一些覆盖，问题是我需要先做覆盖，否则时间不正确，然后才将标题连接到视频的开头 ffmpeg -i talk.mp4 -i start_pancarte.png
Powershell 附加 CSV
我正在尝试附加一个 CSV 文件。这是我正在使用的线路。不幸的是，我找不到 export-csv 的附加选项。任何想法都有助于使其发挥作用。 Get-ADGroupMember "Domain Adm
Java 附加 API
我正在努力理解 Attach API (com.sun.tools.attach.*) 的用途。它的典型用途是什么？它是为了“模拟”JVM，以便您可以在不部署/启动代码的情况下测试您的代码吗？它是一个
python - BeautifulSoup 附加
我不明白为什么这不起作用。 soup_main = BeautifulSoup('FooBar') soup_append = BeautifulSoup('Meh') soup_main.body.
php - 附加 where 子句
我有以下代码来返回我想要的字符串 $sql = " SELECT `description` FROM `auctions` WHERE `description` REGEX
Javascript 附加 - 使用数组中的值附加多个元素
我正在尝试从数组中附加具有多个值的元素，但我做错了。这是我的代码: for(var i=0; i ` + pricesArray[i].start_date ` ` + pricesArray[i
附加 Javascript 图像吗？
我正在尝试将图像链接添加到此 javascript 附加表中。使图像位于按钮上方这是代码 $("#1").append(""+section+""+no+""+price+""+button+""
Javascript 附加 + 单击删除它们
我有一个问题，我已经解决了，但它太烦人了。我有一个 js 代码，当使用“追加”按下按钮时，它会放下一些 html 代码，并且通过该代码，我为 x 按钮提供了一个 id，并为容器元素提供了一个 id。
go - “附加”的工作方式是什么？
我想逐行读取文件，并且每一行可能都有很多字符。这个版本的readline效果很好 func readLine(r *bufio.Reader) ([]byte, error) { var (
php - 在文本文件中创建或写入/附加
我有一个网站，每次用户登录或注销时，我都会将其保存到文本文件中。如果不存在，我的代码在附加数据或创建文本文件时不起作用。这是示例代码 $myfile = fopen("logs.txt", "wr"
reactjs - typescript 附加 Prop
我正在尝试使用 typescript 和 Formik 创建一个自定义输入字段。我可以就完成以下代码的最佳方式获得一些帮助吗？我需要添加额外的 Prop 标签和名称......我已经坚持了一段时间，希
jQuery 附加 html 与附加现有元素
我有一个字符串 big_html，我想将它添加到某个 div 中。我观察到以下方面的性能差异: $('#some-div').append( big_html ); // takes about 10
json - FormData 附加 JSON
如何使用 FormData 创建以下结果 ------WebKitFormBoundaryOmz20xyMCkE27rN7 Content-Disposition: form-data; name="
jquery - 附加 jQuery 事件处理程序以便首先触发它们
有没有办法附加 jQuery 事件处理程序，以便在任何先前附加的事件处理程序之前触发该处理程序？我遇到了this article ，但代码不起作用，因为事件处理程序不再存储在数组中，而这正是他的代码所
iphone - 附加 XCode 调试器
我正在开发一个需要网络登录的 iPhone 应用程序。像往常一样我打电话 [[UIApplication sharedApplication] openURL:loginURL]; 这将关闭应用程序并
firefox-addon - 如何制作仅可用于特定站点的Firefox扩展(附加)？
我想开发一个仅针对特定域激活的扩展。我不希望它在不浏览此特定域时出现在浏览器菜单中。有可能这样做吗？最佳答案可能：对于菜单，您可以添加一个弹出窗口侦听器，用于检查当前加载的URL（docs f
javascript - 附加 cookie 的新值
这段 JavaScript 代码 function writeCookie(CookieName, CookieValue, CookieDuration) { var expiration
javascript - jQuery 附加 Handlebars
我正在使用 Handlebars 来渲染使用ajax从本地服务器获得的信息。我的 HTML 看起来像: {{#each Tabs}}
javascript - 附加 html 后欧芹不起作用
我尝试了以下代码，但当输入框中没有数据时它不会通知。当我直接添加此内容(不附加)时，它会起作用。我在这里做错了什么 var output = "\n"+ "\n"+

首页

博学

6Ren·AI

商城