gpt4 book ai didi

r - TraMineR 的并行计算

转载 作者:行者123 更新时间:2023-12-02 04:33:21 26 4
gpt4 key购买 nike

我有一个包含超过 250,000 个观察值的大型数据集,我想使用 TraMineR 包进行分析。特别是,我想使用命令 seqtreeseqdist,当我使用 10,000 个观测值的子样本时,它们可以正常工作。我的计算机可以管理的限制是大约 20,000 个观察值。

我想使用所有的观察结果,并且我确实可以使用一台 super 计算机,它应该能够做到这一点。然而,这并没有多大帮助,因为该进程仅在单个核心上运行。因此我的问题是,是否可以将并行计算技术应用于上述命令?或者有其他方法可以加快这个过程吗?任何帮助将不胜感激!

最佳答案

内部seqdist函数是用C++编写的,并且有许多优化。因此,如果你想并行化 seqdist,你需要用 C++ 来完成。该循环位于源文件“distancefunctions.cpp”中,您需要查看函数“cstringdistance”中第 300 行附近的两个循环(抱歉,所有注释都是法语)。不幸的是,第二个重要的优化是所有计算之间共享内存。因此,我认为并行化会非常复杂。

除了选择示例之外,您还应该考虑以下优化:

关于r - TraMineR 的并行计算,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17464385/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com