r - 交易从长到宽 reshape ，加入买卖数据帧-6ren

r - 交易从长到宽 reshape ，加入买卖数据帧

转载作者：行者123 更新时间：2023-12-01 11:38:51

我有长格式的买卖交易，我想将其转换为宽格式。看例子:

enter image description here

对于某个股票的每笔买入交易，必须存在关闭头寸的同一股票的卖出交易。如果 SELL 交易不存在或股票数量为零，则将 NA 置于卖出价。

说明:

我们以 34.56 的价格买入了 100 股 AIG 股票。接下来，我们必须找到相同股票代码 AIG 的 BUY 交易的退出(SELL)交易。本次交易存在于下方，股数为 600 股。因此，我们以 100 股结束我们的 AIG 买入交易，将卖出交易的股数从 600 股减少到 500 股，并用买入价和卖出价以宽格式写下这笔交易。

下一个交易是GOOG。对于这个股票，我们找到了两个 SELL 交易并将它们全部写成宽格式，但 100 股未售出，因此我们将此交易作为“未完成”，卖出价格为 NA。

如有必要，我可以稍后将算法放入伪代码中。但我希望，我的解释是清楚的。

我的问题如下:用干净的矢量化代码在 R 中很容易做到吗？这个算法很容易用命令式范式语言编程，比如 C++。但是对于 R 我有麻烦。

编辑 1:为 R 添加了输入和输出数据帧:

inputDF1 <- data.frame(Ticker = c("AIG", "GOOG", rep("AIG", 3), rep("GOOG", 2), rep("NEM", 3)), Side = c(rep("BUY", 4), rep("SELL", 3), "BUY", rep("SELL", 2)), Shares = c(100, 400, 200, 400, 600, 200, 100, 100, 50, 50), Price = c(34.56, 457, 28.56, 24.65, 30.02, 460, 461, 45, 56, 78))
inputDF2 <- data.frame(Ticker = c(rep("AIG", 3), rep("GOOG", 3)), Side = c(rep("BUY", 2), "SELL", "BUY", rep("SELL", 2)), Shares = c(100, 100, 200, 300, 200, 100), Price = c(34, 35, 36, 457, 458, 459))
inputDF3 <- data.frame(Ticker = c(rep("AIG", 3), rep("GOOG", 3)), Side = c(rep("BUY", 2), "SELL", "BUY", rep("SELL", 2)), Shares = c(100, 100, 100, 300, 100, 100), Price = c(34, 35, 36, 457, 458, 459))

outputDF1 <- data.frame(Ticker = c("AIG", rep("GOOG", 3), rep("AIG", 3), rep("NEM", 2)), Side = rep("BUY", 9), Shares = c(100, 200, 100, 100, 200, 300, 100, 50, 50), BuyPrice = c(34.56, 457, 457, 457, 28.56, 24.65, 24.65, 45, 45), SellPrice = c(30.02, 460, 461, NA, 30.02, 30.02, NA, 56, 78))
outputDF2 <- data.frame(Ticker = c(rep("AIG", 2), rep("GOOG", 2)), Side = rep("BUY", 4), Shares = c(100, 100, 200, 100), BuyPrice = c(34, 35, 457, 457), SellPrice = c(36, 36, 458, 459))
outputDF3 <- data.frame(Ticker = c(rep("AIG", 2), rep("GOOG", 3)), Side = rep("BUY", 5), Shares = rep(100, 5), BuyPrice = c(34, 35, rep(457, 3)), SellPrice = c(36, NA, 458, 459, NA))

编辑 2:更新了 R 的示例和输入/输出数据

最佳答案

原始答案(虽然问题仍在开发中，但我没有给予足够的关注)

使用 dcast来自 reshape2 :

> t <- c("AIG", "GOOG", "AIG", "AIG", "AIG", "GOOG", "GOOG")
> sd <- c(rep("BUY", 4), rep("SELL", 3))
> sh <- c(100, 400, 200, 400, 600, 200, 100)
> pr <- c(34.56, 457, 28.56, 24.65, 30.02, 460, 461)
> df <- data.frame(Ticker = t, Side = sd, Shares = sh, Price = pr)
> 
> library(reshape2)
> df
  Ticker Side Shares  Price
1    AIG  BUY    100  34.56
2   GOOG  BUY    400 457.00
3    AIG  BUY    200  28.56
4    AIG  BUY    400  24.65
5    AIG SELL    600  30.02
6   GOOG SELL    200 460.00
7   GOOG SELL    100 461.00
> dcast(df, Ticker*Shares ~ Side, value.var="Price")
  Ticker Shares    BUY   SELL
1    AIG    100  34.56     NA
2    AIG    200  28.56     NA
3    AIG    400  24.65     NA
4    AIG    600     NA  30.02
5   GOOG    100     NA 461.00
6   GOOG    200     NA 460.00
7   GOOG    400 457.00     NA

新答案

这里的关键症结在于，R 中的“基于向量”通常与“函数式”相关(例如 apply() 系列)，但纯函数式方法在这里不太适用，因为您必须更新销售 list 对于每个(每个的一部分)购买交易。我真的觉得你可以用 aggregate 做一些神奇的事情或 by和精心设计的功能，但我想到的最佳可读解决方案涉及一个简单的 for -环形。

带有 for 的版本

inputDF <- data.frame(Ticker = c("AIG", "GOOG", "AIG", "AIG", "AIG", "GOOG", "GOOG"), 
                      Side = c(rep("BUY", 4), rep("SELL", 3)), 
                      Shares = c(100, 400, 200, 400, 600, 200, 100), 
                      Price = c(34.56, 457, 28.56, 24.65, 30.02, 460, 461))
buys <- subset(inputDF,Side=="BUY")
sells <- subset(inputDF,Side=="SELL")
transactions <- NULL

# go through every buy operation
for(i in 1:nrow(buys)){
    ticker <- buys[i,"Ticker"]
    bp <- buys[i,"Price"]
    shares <- buys[i,"Shares"]

    # keep going as long as we can find sellers
    while(shares > 0 & sum(sells[sells$Ticker == ticker,"Shares"]) > 0){
        sp <- sells[sells$Ticker == ticker & sells$Shares > 0,][1,"Price"]
        if(sells[sells$Ticker == ticker & sells$Shares > 0,][1,"Shares"] > shares){
            shares.sold <- shares
        }else{
            shares.sold <- sells[sells$Ticker == ticker & sells$Shares > 0,][1,"Shares"]
        }
        shares <- shares - shares.sold
        sells[sells$Shares >= shares & sells$Ticker == ticker,][1,"Shares"] <- sells[sells$Shares >= shares & sells$Ticker == ticker,][1,"Shares"] - shares.sold
        transactions <- rbind(transactions,data.frame("Ticker"=ticker
                                                      ,"Side"="BUY"
                                                      ,"Shares"=shares.sold
                                                      ,"BuyPrice"=bp
                                                   ,"SellPrice"=sp))
    }
    # not enough sellers
    if(shares > 0){ 
        transactions <- rbind(transactions,data.frame("Ticker"=ticker
                                                  ,"Side"="BUY"
                                                  ,"Shares"=shares
                                                  ,"BuyPrice"=bp
                                                  ,"SellPrice"="NA"))

    }

}

print(transactions)

输出:

  Ticker Side Shares BuyPrice SellPrice
1    AIG  BUY    100    34.56     30.02
2   GOOG  BUY    200   457.00       460
3   GOOG  BUY    100   457.00       461
4   GOOG  BUY    100   457.00        NA
5    AIG  BUY    200    28.56     30.02
6    AIG  BUY    300    24.65     30.02
7    AIG  BUY    100    24.65        NA

如果我们尝试使用 foreach，更新就会变得明显。包以自动并行化循环。很快就很明显我们在 sell 上存在竞争条件。数据框。

带有 apply 的版本

上面的代码有一些效率低下的地方可以改进。附加操作通过 rbind()效率不高，可能会稍微优化一下，或者减少对 rbind() 的调用次数或将其全部消除。您还可以将所有内容打包成一个函数并将其转换为对 apply() 的调用。，即使对于串行 apply() 也确实会更快因为循环是在更优化的级别完成的。 (CPython 也是如此——列表推导式和 str.join() 比 for 循环快得多，因为它们“更了解”操作的总大小，并且因为它们是用优化的 C 编写的。)这是第一个尝试——注意我们使用 do.call(rbind, list(...))为了简化我们从原始调用中返回的小数据框列表 apply .这不是非常有效(来自 rbindlist 的 data.table 明显更快，参见 here )，但它没有任何外部依赖。您从 apply() 返回的列表实际上以它自己的方式很有趣——每个元素都是完成整个购买操作所需的交易列表。如果您将行名称添加到 buys数据框，然后您可以按名称调用每组事务。

inputDF <- data.frame(Ticker = c("AIG", "GOOG", "AIG", "AIG", "AIG", "GOOG", "GOOG"), 
                      Side = c(rep("BUY", 4), rep("SELL", 3)), 
                      Shares = c(100, 400, 200, 400, 600, 200, 100), 
                      Price = c(34.56, 457, 28.56, 24.65, 30.02, 460, 461))
buys <- subset(inputDF,Side=="BUY")
sells <- subset(inputDF,Side=="SELL")
transactions <- NULL

# go through every buy operation
buy.operation <- function(x){
    ticker <- x["Ticker"]
    # apply() converts to matix implicity, and all the elements of a matrix have
    # have the same data type, so everything gets converted to characters
    # thus, we need to convert back
    bp <- as.numeric(x["Price"])
    shares <- as.numeric(x["Shares"])

    # keep going as long as we can find sellers
    while(shares > 0 & sum(sells[sells$Ticker == ticker,"Shares"]) > 0){
        sp <- sells[sells$Ticker == ticker & sells$Shares > 0,][1,"Price"]
        if(sells[sells$Ticker == ticker & sells$Shares > 0,][1,"Shares"] > shares){
            shares.sold <- shares
        }else{
            shares.sold <- sells[sells$Ticker == ticker & sells$Shares > 0,][1,"Shares"]
        }
        shares <- shares - shares.sold
        sells[sells$Shares >= shares & sells$Ticker == ticker,][1,"Shares"] <- sells[sells$Shares >= shares & sells$Ticker == ticker,][1,"Shares"] - shares.sold
        transactions <- rbind(transactions,data.frame("Ticker"=ticker
                                                      ,"Side"="BUY"
                                                      ,"Shares"=shares.sold
                                                      ,"BuyPrice"=bp
                                                      ,"SellPrice"=sp))
    }
    # not enough sellers
    if(shares > 0){ 
        transactions <- rbind(transactions,data.frame("Ticker"=ticker
                                                      ,"Side"="BUY"
                                                      ,"Shares"=shares
                                                      ,"BuyPrice"=bp
                                                      ,"SellPrice"="NA"))

    }

    transactions
}

transactions <- do.call(rbind, apply(buys,1,buy.operation) )
# get rid of weird row names
row.names(transactions) <- NULL
print(transactions)

输出:

  Ticker Side Shares BuyPrice SellPrice
1    AIG  BUY    100    34.56     30.02
2   GOOG  BUY    200   457.00       460
3   GOOG  BUY    100   457.00       461
4   GOOG  BUY    100   457.00        NA
5    AIG  BUY    200    28.56     30.02
6    AIG  BUY    400    24.65     30.02

不幸的是，最终未完成的 AIG 交易丢失了。我还没有想出如何解决这个问题。

关于r - 交易从长到宽 reshape ，加入买卖数据帧，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23981074/

文章推荐： java - 使用 Foursquare 进行类别搜索返回错误类别

文章推荐： java - 屏幕旋转后以不同布局重绘 fragment

文章推荐： sitecore - 设计一个 Sitecore 树来存储超过 100 万个项目

language-agnostic - 是(宽，高)还是(高，宽)？
函数参数中或显示尺寸时(高度，宽度)的顺序是否有约定？最佳答案我不知道大量的语言，但我使用过的语言(宽度，高度)。它更适合沿着 (x, y) 坐标线。关于language-agnostic -
编译器不会将长*宽*高计算为立方英寸
关闭。此题需要details or clarity 。目前不接受答案。想要改进这个问题吗？通过 editing this post 添加详细信息并澄清问题. 已关闭 6 年前。 Improve th
youtube - YouTube嵌入广告的视频尺寸更大(宽/高)
有没有办法显示自定义宽度/高度的YouTube视频？最佳答案在YouTube网站上的this link中: You can resize the player by editing the obj
python - pandas数据转换长-宽-长
如何从此表单获取数据(数据的长表示): import pandas as pd df = pd.DataFrame({ 'c0': ['A','A','B'], 'c1': ['b',
css - 我的(宽)页面在低分辨率下看起来很奇怪
我在让宽度为 900px 的页面在宽度低于 900px 的分辨率下看起来不错时遇到了一些麻烦。这包括智能手机等移动设备。看起来我在页面上放大了，但无法滚动或缩小。我的页面包装器被定义为以屏幕为中心。这
html - 如何确保表格永远不会比包含它的 div 宽？
我有一个包含一个表的 div，它有另一个带有动态变化文本的 div。div 有样式 overflow: hidden; white-space: nowrap; text-overflow: elli
HTML:宽
不生成水平滚动条
我一直在愚弄下面的html代码。我已将 div id ="mainWide"设置为 2500 像素的宽度，这比我的屏幕还宽，我希望在主浏览器窗口中有一个水平滚动条，而不是在 div block 本身中
javascript - 文章比父 div 宽
当我的屏幕浏览器窗口在 992px-1199px 之间时，我的文章元素比它们的父 div (.wrapper) 更宽。所以在这个屏幕宽度下，面板重叠并且看起来不对。在所有其他屏幕宽度下，我的代码都准
css - 我怎样才能让我的行 100% 宽？
我在对齐某些行时遇到了一些问题。我正在显示一个占据视口(viewport) 100% 高度的部分。因此，当您在屏幕上查看此部分时，您只会看到此部分。在这个部分中，我有一个标题和副标题。标题应显示在节
css - 为什么输入字段比它的父 div 宽？
为什么表单输入字段比其父 div 宽？宽度应用于文本 div，但不应用于其中包含表单字段的 div。为什么会这样？ See the livecode here. .parent { width:
html - 我怎样才能使这个标题 100% 宽？
我想让这个标题 100% 宽。我在 jsfiddle 上试过这个，但是左边和右边还有一些余量。 CSS: #header { background: url("../img/top-bg.png
javascript - 如何去除页面的白边并使其 100% 宽
我的页面宽度有问题。无论我尝试什么，它的左边或右边都有白边(默认情况下在右边，如果我使用 margin-right:0 则在左边)。如果我使用 margin:0 比它留在右边。尝试了我所知道的一切，但
html - 宽 div - 我能以某种方式摆脱滚动条吗？
我有一个带有背景图片的宽 div。 div 的宽度为 1100 像素，当浏览器窗口小于该宽度时，会出现滚动条。有什么办法可以避免滚动条吗？那不是任何黑客。现在我知道我可以把它放在 body image
html - 如何保持表格 100% 宽？
我有一个您可以访问的应用程序 here .当您打开应用程序时，只需单击加号按钮，您就会看到一个带有搜索栏的模态窗口。现在请执行这两个搜索: 搜索 1:AAA 搜索 2:AAE 您会看到，在 AAE
css - 为什么子输入字段比父 div 宽
这个问题在这里已经有了答案: Does element width include padding? (5 个答案) 关闭 7 年前。 HTML CSS .wrap{widt
cocoa - NSToolbarItem 宽 32 点
我正在尝试在工具栏中创建一个自定义显示，类似于 Xcode 工具栏中心的信息 Pane 。我们如何创建一个宽度超过 32 点的 NSToolbarItem？框架始终将其限制为 32 点，即使最小和
reshape R 中的数据(宽 -> 长)
我想将df1转换成df2 旧示例数据框 df1 df1 长)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/359
javascript - 上传前如何检查图像尺寸(宽 x 高)？
我正在使用 JavaScript 代码在 FireBase/FireStore 中上传图像。核心功能已经可以运行，我可以上传，但我还需要在上传之前检查图像的大小。这就是我很乐意获得帮助的地方。以下
python - ttk.Separator 设置长/宽
如何在 Tkinter 中设置/更改 ttk.Separator 对象的长度/宽度？ ttk.Separator(self, orient='horizontal').grid(c
html - Div 自动 100% 宽
我有一个简单的问题。为什么 a 不会自动调整其内容的大小？像这样: Test 返回 width:100%，尽管我希望“Test”这个词简单地居中。有什么想法吗？最佳答案您的问题与 HT

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

r - 交易从长到宽 reshape ，加入买卖数据帧