python - Dask 相当于 pandas.DataFrame.update

转载作者：行者123 更新时间：2023-12-04 15:23:02

25

4

我有一些函数正在使用 pandas.DataFrame.update 方法，我正在尝试使用 Dask 代替数据集，但是 Dask Pandas API 没有实现 update 方法。有没有其他方法可以在 Dask 中获得相同的结果？

以下是我使用更新的方法:

前向用最后已知值填充数据

df.update(df.filter(like='/').mask(lambda x: x == 0).ffill(1))

输入

id .. .. ..(some cols) 1/1/20 1/2/20 1/3/20 1/4/20 1/5/20 1/6/20 ....
1                      10     20     0      40     0      50
2                      10     30     30     0      0      50
.
.

输出

id .. .. ..(some cols) 1/1/20 1/2/20 1/3/20 1/4/20 1/5/20 1/6/20 ....
1                      10     20     20     40     40      50
2                      10     30     30     30     30      50
.
.

根据 id/index 列将数据框中的值替换为另一个数据框中的值

def replace_names(df1, df2, idxCol = 'id', srcCol = 'name', dstCol = 'name'):
    df1 = df1.set_index(idxCol)
    df1[dstCol].update(df2.set_index(idxCol)[srcCol])
    return df1.reset_index()
df_new = replace_names(df1, df2)

输入

df1

id    name  ...
123   city a
456   city b
789   city c
789   city c
456   city b
123   city a
.
.
.

df2

id    name  ...
123   City A
456   City B
789   City C
.
.
.

输出

id    name  ...
123   City A
456   City B
789   City C
789   City C
456   City B
123   City A
.
.
.

最佳答案

问题2

有一种方法可以部分解决这个问题。我假设 df2 比 df1 小得多，它实际上适合内存，因此我们可以读取为 pandas 数据帧。如果是这种情况，如果 df1 是 pandas 或 dask 数据帧，但 df2 应该是一个 pandas

import pandas as pd
import dask.dataframe as dd

def replace_names(df1, # can be pandas or dask dataframe
                  df2, # this should be pandas.
                  idxCol='id',
                  srcCol='name',
                  dstCol='name'):
    diz = df2[[idxCol, srcCol]].set_index(idxCol).to_dict()[srcCol]
    out = df1.copy()
    out[dstCol] = out[idxCol].map(diz)
    return out

问题1

关于第一个问题，以下代码适用于pandas 和dask

df = pd.DataFrame({'a': {0: 1, 1: 2},
 'b': {0: 3, 1: 4},
 '1/1/20': {0: 10, 1: 10},
 '1/2/20': {0: 20, 1: 30},
 '1/3/20': {0: 0, 1: 30},
 '1/4/20': {0: 40, 1: 0},
 '1/5/20': {0: 0, 1: 0},
 '1/6/20': {0: 50, 1: 50}})

# if you want to try with dask
# df = dd.from_pandas(df, npartitions=2)

cols = [col for col in df.columns if "/" in col]
df[cols] = df[cols].mask(lambda x: x==0).ffill(1) #.astype(int)

如果您希望输出为整数，请删除最后一行的注释。

更新问题 2如果您想要一个仅dask 的解决方案，您可以尝试以下方法。

数据

import numpy as np
import pandas as pd
import dask.dataframe as dd

df1 = pd.DataFrame({'id': {0: 123, 1: 456, 2: 789, 3: 789, 4: 456, 5: 123},
 'name': {0: 'city a',
  1: 'city b',
  2: 'city c',
  3: 'city c',
  4: 'city b',
  5: 'city a'}})

df2 = pd.DataFrame({'id': {0: 123, 1: 456, 2: 789},
 'name': {0: 'City A', 1: 'City B', 2: 'City C'}})

df1 = dd.from_pandas(df1, npartitions=2)
df2 = dd.from_pandas(df2, npartitions=2)

案例一

在这种情况下，如果一个 id 存在于 df1 但不存在于 df2 中，您将名称保留在 df1 中>.

def replace_names_dask(df1, df2,
                       idxCol='id',
                       srcCol='name',
                       dstCol='name'):
    if srcCol == dstCol:
        df2 = df2.rename(columns={srcCol:f"{srcCol}_new"})
        srcCol = f"{srcCol}_new"
    
    def map_replace(x, srcCol, dstCol):
        x[dstCol] = np.where(x[srcCol].notnull(),
                             x[srcCol],
                             x[dstCol])
        return x
    
    df = dd.merge(df1, df2, on=idxCol, how="left")
    df = df.map_partitions(lambda x: map_replace(x, srcCol, dstCol))
    df = df.drop(srcCol, axis=1)
    return df

df = replace_names_dask(df1, df2)

案例2

在这种情况下，如果一个 id 存在于 df1 但不存在于 df2 中，那么输出中的 name df 将是 NaN(与标准左连接一样)

def replace_names_dask(df1, df2,
                       idxCol='id',
                       srcCol='name',
                       dstCol='name'):
    df1 = df1.drop(dstCol, axis=1)
    df2 = df2.rename(columns={srcCol: dstCol})
    df = dd.merge(df1, df2, on=idxCol, how="left")
    return df

df = replace_names_dask(df1, df2)

关于python - Dask 相当于 pandas.DataFrame.update，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/62900970/

25

4

0

文章推荐： c# - 如何使用 C# 从 PDF 或 XPS 中提取具有格式的文本？

文章推荐： python - 将多维数组的每个子数组的最后一项放入列表

文章推荐： php - 将 GitLab CI 变量写入文件

npm-update - 命令 "npm update"与包 "npm-check-updates"
命令 npm update 有什么区别和包裹npm-check-updates ?使用后者是否完全安全？执行后好像是npm update并非所有软件包都已更新，因此似乎不完整。许多其他 popula
node.js - ExpressJS : Sequelize method update need to show updated data as result not num of row updated
我有使用 ExpressJS 和 ORM Sequelize 的 API。我正在尝试使用 Sequelize 中的 update() 方法进行更新。默认情况下，it 方法将返回更新的行数。但我希望结果
ruby-on-rails - "rvm rubygems current"对比 "rvm update --system"对比 "gem update rubygems-update"
关于如何更新 rubygems 有点困惑。过程不断变化(或者至少我从互联网上得到了相互矛盾的信息)。 $ gem outdated rubygems-update (1.8.10 < 1.8.11
javascript - build 目录中的 .hot-update.json、.hot-update.js 和 .hot-update.js.map 文件是什么？
我正在使用 webpack-dev-server处于开发模式( watch )。每次服务器重新加载时，一些 json 和 js 文件都会挤满我的构建目录，如下所示:'hash'.hot-update.
updates - 错误 : Update could not be validated. 确保网络安全并重试。
Mamp Pro 的当前版本是 5.04 (15996)。可用更新窗口显示“Mamp 5.0.0 > 5.1。更新失败，并显示一条消息:错误:无法验证更新。请确保您使用的是安全网络，然后重试。” 更新
MySQL AFTER UPDATE 在特定列中 UPDATE 同一行中的时间戳
我想在浏览量增加时更新时间戳“lastpageview_at”。我想我已经接近了，但我总是遇到语法错误，有人知道为什么或有其他解决方案吗？我的触发器: CREATE TRIGGER Update_l
MySql: SELECT ... FOR UPDATE break before the UPDATE
我正在执行 SELECT ... FOR UPDATE 以锁定一条记录，然后进行一些计算，然后进行实际的 UPDATE。我正在处理 InnoDB 数据库。但是计算可能会以我不想执行 UPDATE 的
sql - 当我在 AFTER UPDATE 触发器中使用 UPDATE 语句时会发生什么？
我需要在表更新时进行一些更新和插入以强制执行正确的数据。将 UPDATE 语句放入触发器中会导致某种“循环”吗？谢谢! 最佳答案更新触发器中的目标表将使触发器再次触发。您可以使用 TRIGGER
JSF + PrimeFaces : `update` attribute does not update component
这是我的布局当我点击链接更新时，该链接应该打开和关闭renderComment bool
AngularJS性能: How to update only the scopes I know need to be updated?
我有一个包含两件事的 Angular 范围: 一个包含 10k 行的巨型表格，需要一秒钟才能渲染一些小的额外信息位于固定的覆盖标题栏中根据您向下滚动页面/表格的距离，我必须更新标题中的小信息位之一
MySQL:我可以在 BEFORE UPDATE 触发器中停止 UPDATE 查询吗？
标题几乎已经说明了一切。 IF NEW.variance <> 0 THEN (kill update) END IF 这可能吗？最佳答案查看手册 (http://dev.mysql.com/do
MySQL 触发器 : turn UPDATE into UPDATE and INSERT?
我有几个表，我想强制执行版本控制，并且有一个生效日期和生效日期。每当应用程序或用户向该表写入更新时，我希望它重定向到两个全新的命令:更新目标记录，以便 EFFECTIVE_TO 日期填充当前日期和时间
mysql - UPDATE row ON UPDATE 触发器，多表条件
我正在使用 Shopware，一件奇怪的事情让我抓狂 :( 所以我将首先解释问题是什么。除了普通商品外，还有多种款式的商品，例如不同尺码的衬衫。这是 XS、S、M、L 和/或不同颜色的同一商品……但
Mysql 在 before update 触发器中发出 update 命令
寻求帮助制作 mysql 触发器。我当前的代码无法按预期工作。我想做的是，如果表A中的字段A被修改，则将字段A复制到表A中的字段B。当前代码如下所示: BEGIN IF new.set_id=301
sql - UPDATE 的 FROM 端如何与 UPDATE 的目标表相关？
以下查询(来自此处Postgres SQL SELECT and UPDATE behaving differently) update fromemailaddress set call =
javascript - d3 : update dataset not updating the DOM
我想使用 D3 使用以下数据创建一个列表: var dataSet = [ { label: 'a', value: 10}, { label: 'b', value: 20},
MySQL:Select then Update 和 UPDATE 哪个更好？
哪个更好，先进行选择，然后进行更新。或者更确切地说，像这样合而为一: UPDATE items set status = 'NEW' where itemid in (1,2,3,
php - Laravel 事件 : updating vs updated?
对于 eloquent model events，updating 和 updated 之间有什么区别？？我的猜测是 updating 在模型更新之前触发，而 updated 在模型更新之后触发。
Angular 2 : *ngFor does not update when array is updated
我有一个对象数组(我们称之为arr)。在我的组件输入之一的 (change) 方法中，我修改了这些对象的属性之一，但在 View (*ngFor) 中没有任何变化。我读到 Angular2 变化检测不
javascript - D3js : data update is not updating right objects
我正在尝试使用 d3.js 构建水平日历时间线。主要目标是突出显示用户的假期和假期。 http://jsbin.com/ceperavu/2/edit?css,js,output 我首先从“开始”日期

首页

博学

6Ren·AI

商城

python - Dask 相当于 pandas.DataFrame.update

问题2

问题1

数据

案例一

案例2