- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
问题
为股票交易准备机器学习数据。我在大型 DataFrame 上有 3-dim MultiIndex(可能是 n=800000 x f=20
)。一个索引维度是 date
关于 dt=1000
水平,其他人识别m=800
不同的股票(每只股票有 20 个特征,每只股票都有)。因此对于每个日期,有 800 x 20 个不同的值。
现在我有 dt=1000 x g=30
全局时间序列(如 DJIA、货币汇率等),因此每个日期的 30 个值对于每只股票都相同。这是一个单一的索引 DataFrame,只有日期作为索引。
问题一
我如何合并这两个数据集,以便将 30 个系列广播到每只股票上,最终形状为 (800000 x 50)
?
问题二
有没有办法不通过复制后30列的数据,而是查看原始数据来节省内存?根据我提到的数字,对于 float64 精度,我仍然会在 ~ 300 MB 左右,这仍然可以。但我很好奇。
示例
这是 f=2
的一个最小示例, g=1
, m=4
和 dt=3
我所拥有的:
import pandas as pd
data = {
'x': [5,6,7,3,4,5,1,1,0,12,15,14],
'y': [4,6,5,5,4,3,2,0,1,13,14,13]
}
dates = [pd.to_datetime('2018-01-01'), pd.to_datetime('2018-01-02'), pd.to_datetime('2018-01-03')]
index = pd.MultiIndex.from_arrays([
['alpha'] * 6 + ['beta'] * 6,
['A'] * 3 + ['B'] * 3 + ['C'] * 3 + ['D'] * 3,
dates * 4,
])
df1 = pd.DataFrame(data, index=index)
df1.index.names = ['level', 'name', 'date']
df2 = pd.DataFrame([123,124,125], index=dates, columns=['z'])
df2.index.name = "date"
print (df1)
print (df2)
-------------------------------
x y
level name date
alpha A 2018-01-01 5 4
2018-01-02 6 6
2018-01-03 7 5
B 2018-01-01 3 5
2018-01-02 4 4
2018-01-03 5 3
beta C 2018-01-01 1 2
2018-01-02 1 0
2018-01-03 0 1
D 2018-01-01 12 13
2018-01-02 15 14
2018-01-03 14 13
z
date
2018-01-01 123
2018-01-02 124
2018-01-03 125
我喜欢拥有的东西:
x y z
level name date
alpha A 2018-01-01 5 4 123
2018-01-02 6 6 124
2018-01-03 7 5 125
B 2018-01-01 3 5 123
2018-01-02 4 4 124
2018-01-03 5 3 125
beta C 2018-01-01 1 2 123
2018-01-02 1 0 124
2018-01-03 0 1 125
D 2018-01-01 12 13 123
2018-01-02 15 14 124
2018-01-03 14 13 125
最佳答案
我认为需要join
两个 DataFrame
中相同索引名称 date
的对齐方式:
df = df1.join(df2)
print (df)
x y z
level name date
alpha A 2018-01-01 5 4 123
2018-01-02 6 6 124
2018-01-03 7 5 125
B 2018-01-01 3 5 123
2018-01-02 4 4 124
2018-01-03 5 3 125
beta C 2018-01-01 1 2 123
2018-01-02 1 0 124
2018-01-03 0 1 125
D 2018-01-01 12 13 123
2018-01-02 15 14 124
2018-01-03 14 13 125
关于python - pandas:在 MultiIndex DataFrame 上复制/广播单索引 DataFrame:HowTo 和内存效率,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48807723/
谁能给我提供代码或链接,以便在可能的情况下使用 UDP 发送和接收广播消息? 我一直被困在一个问题中,希望你们能帮助我解决它。谢谢 最佳答案 这是一个 C# 示例: using System; usi
我想将形状为 [a,b,c] 的张量中的元素相乘,每个元素在第 3 维中使用来自形状为 [a,b] 的张量的标量。 例如, x = |[1,2][3,4][5,6]| |[1,2][3,4][5,6]
广播是使具有不同形状的数组具有用于算术运算的兼容形状的过程。在 numpy 中,我们可以广播数组。 TensorFlow 图是否支持类似于 numpy 的广播? 最佳答案 是的,它是支持的。打开终端并
我有一个刷新功能,需要广播到子 Controller 。我在父 Controller 中做了类似的事情: // Refresh/Cancel $scope.OnGridBODRefre
我正在尝试在计算中使用字典值,如下所示: mydict = dict(zip(['key1', 'key2', 'key3'], [1, 2, 3])) print
刚刚掌握使用 MPI 的 Java 接口(interface)进行并行编程。只是想知道是否有人可以非常简单地解释广播的工作原理? 我有以下内容: if (me ==0) { // This is th
我正在处理一个项目,当我发送消息时,我将它作为通知发送给另一个用户使用广播它工作正常但是当我再次发送新消息然后替换为旧通知而不创建新通知 下面是我生成通知的代码 NotificationCompat.
我是 android 的初学者。但我非常需要你的帮助。我有一个流媒体视频广播视频项目。我找不到好的示例,在哪里可以实现从摄像机录制视频、将流发送(上传)到服务器以及从服务器下载(获取流)到播放器。请帮
请帮我解决我的问题。当我从父 Controller 调用并在子 Controller 中捕获时,为什么 $broadcast 函数不起作用?
我如何从 shell 中看到设置了哪些套接字选项?我特别想知道是否设置了 SO_BROADCAST? 最佳答案 你看过lsof了吗? 关于linux - 广播 socket ,我们在Stack Ove
当我在 Numpy 中进行此操作时会发生什么? a = np.ones([500,1]) b = np.ones([5000,])/2 c = a + b # a.shape (500,1) # b.
我有一个 Nexus S,当我在手机上手动更改日期时,并不总是广播 ACTION_DATE_CHANGED。如果我将日期从 2014 年 2 月 13 日更改为 2014 年 2 月 14 日,我还没
环境:springboot2.3.9RELEASE + RocketMQ4.8.0 依赖 <dependency>  
UDP 广播 面向连接的传输(如 TCP)管理两个网络端点之间的连接的建立,在连接的生命周期的有序和可靠的消息传输,以及最后,连接的有序终止。相比之下,类似 UDP 的无连接协议中则没有持久化连接的概
我正在开发一个带有 Angular 的单页应用程序,我需要在两个不同的指令之间进行通信,这些指令基本上没有父子关系。 在指令 A 中,我有 2 个地方需要从不同的功能广播相同的事件。在指令 B 中,为
我有一个带有多个重复项的主要二维 numpy 数组和一个具有第一个唯一值的辅助数组。 [[ 0 0 1 ] [ 1 0 2 ] [ 2 0 2 ] ... [ 0 0 1 ]
我正在制作多人网络游戏。现在要连接到服务器,客户端需要服务器的 ip 地址。 所以,我的实现方式如下。 客户端在广播 IP 和端口 A 上广播其 IP 地址。服务器通过 A 监听它,并且 服务器与客户
是否可以在没有 Urban Airship 等服务的情况下广播推送通知? 谢谢。 最佳答案 当然可以,但是您需要自己实现整个基础架构。 http://developer.apple.com/libra
我想复制矩阵的每一行 M没有任何复制发生(即通过创建 View ): 0 1 0 1 2 3 -> 0 1 2 3
我从一个 2D 数组开始,想将它广播到一个 3D 数组(例如,从灰度图像到 rgb 图像)。这是我使用的代码。 >>> img_grey = np.random.randn(4, 4) >>> img
我是一名优秀的程序员,十分优秀!