- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一系列R数据帧(以千计)。每个变量都有一个类别变量(productId)和一个连续变量(sales)。我还创建了一个距离函数(my_distance),用于计算同一数据帧中两个productID之间的距离。由于每个数据帧和数千个数据帧中都有数百个productID,因此我想探索使用Hadoop加快流程的机会。
现在,我正在使用for循环在所有数据帧上进行迭代,并使用mcmapply计算给定数据帧中productID之间的所有距离。
我想知道是否可以在Hadoop中完成这项工作,以在群集节点上利用并行计算。
不要仅仅关注距离函数的内容,因为它只是一个例子。
library(parallel)
library(reshape2)
calcDist <- function(x1, x2) {
return(sqrt(sum(x1^2-x2^2)))
}
my_distance <- function(df, id1, id2) {
x1 <- df[df$productId==id1,c('sales')]
x2 <- df[df$productId==id2,c('sales')]
distx <- calcDist(x1, x2)
return(distx)
}
productId <- c(1,1,1,1,2,2,2,2,3,3,3,3)
sales <- runif(length(productId), min=0, max=100)
df <-data.frame(productId,sales)
...mcmapply()
最佳答案
这是一个可行的解决方案,请注意,您的函数有时返回NaN
,由于您的问题似乎更针对整个过程,因此我尚未对其进行调查。
我将localhost
用作工作程序,您只需要用集群上节点名称的字符 vector 替换hostNumbers
,或者初始化集群即可,但是您已经这样做了。只要您用它代替devClust
进行调用,该mapply就会起作用。
# define supporting data structures
productId <- rep(c(1, 2, 3), each = 4)
sales.gen <- function() runif(length(productId), min = 0, max = 100)
df.gen <- function(x) data.frame(productId, sales = sales.gen())
dfList <- lapply(as.list(1:10), df.gen)
library(parallel)
on.exit(stopCluster(devClust))
# here you should use a vector of your nodes' names
hostNumbers <- c("localhost")
# builds a list structure of host names, one per node
hostFrame <- lapply(hostNumbers, function(x) list(host = x));
# replicates each node `kCPUs` times, so number of cpus on each node is equal
# NOTE: total number of workers cannot exceed 128 in base R!
kCPUs <- 2
hostList <- rep(hostFrame, kCPUs);
# initialize the socket cluster, outfile = "" specifies that individual cpu commands & logs be printed to stdout, w
# which will be our log file for R.
devClust <- makePSOCKcluster(hostList)
# define functions
calcDist <- function(x1, x2) {
return(sqrt(sum(x1^2-x2^2)))
}
my_distance <- function(df, id1, id2) {
x1 <- df[df$productId==id1,c('sales')]
x2 <- df[df$productId==id2,c('sales')]
distx <- calcDist(x1, x2)
return(distx)
}
# export function definitions to cluster
functionDefs <- Filter(function(x) is.function(get(x, .GlobalEnv)), ls(.GlobalEnv))
clusterExport(devClust, functionDefs)
# run distance calcs. Note that we quote the function because it has
# already been exported to the workers so there is no need to serialize again
list.of.distance.calcs <- clusterMap(devClust, 'my_distance', dfList, MoreArgs = list(id1 = 1, id2 = 2))
关于r - 在Hadoop上运行R distance函数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28284407/
按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the
我已经检查了问题、源代码和其他示例,但我终究无法理解 Distance d = Distance() 是什么。参数在函数中的意思 template int flann::hierarchicalClu
从 GeoDjango Point Field,我得到以下几点: object1.point = "POINT(-113.4741271000000040 53.4235217000000020)"
这是在与@Nargiza 解决此问题的过程中出现的意外行为:3d distance calculations with GeoDjango . 遵循 Distance 上的 Django 文档函数:
我在 C++ 中实现了 Damerau–Levenshtein 距离,但它没有为输入(pantera,主动脉)提供正确的 o/p,正确的 o/p 是 4,但我的代码给出了 5...... int e
嘿,各位极客们! 我对 Web 3.0 有一个革命性的想法,呵呵。我将创建一个像 jQuery-UI 一样的 SVG-UI-lib。为了使某些功能成为可能,我需要 fork /贡献 d3.js。IE。
我有一个列表,其中包含具有 3D 名称和坐标的点列表。类似这样的列表长度要长得多: group=[[gr1, 5, 8, 9], [gr2, 7, 4, 5], [gr3, 3, 8, 1], [gr
我是 OOP 的新手,我在这个任务中一直遇到这个错误。或许你能帮帮我。 这是类头文件: class Distance : public Magnitude { private: double
Django——地质学 我正在寻找如何定义两点之间的距离。第一个与帖子本身有关,不会因每个帖子而改变。它表示帖子的位置。第二个将与用户的位置相关联。 我想计算发布和用户的距离。 问题:假设我已连接:每
当使用短语运算符( )语法进行全文搜索时,它并没有像我期望的那样“小于或等于”数字。搜索值必须正好位于那么多位置之外。 给出这个例子: select * from (values ('bob i
假设我有两个由纬度和经度表示的位置。 位置1:37.5613 , 126.978地点 2 : 37.5776 , 126.973 如何使用曼哈顿距离计算距离? 编辑:我知道计算曼哈顿距离的公式,如 E
我有两个我知道纬度和经度的点。 我如何计算它们之间的距离(以公里和英里为单位)。公式是什么? 最佳答案 您可以使用 haversine formula来计算这样的距离。 关于distance - 以公
我搜索了 A* 的算法/伪代码,然后对其进行了编码。我使用曼哈顿距离作为 h(n)。 ( f(n) = g(n) + h(n) ) 这就是结果, 当没有墙挡路时总是会发生这种情况,但是当我放置很多墙时
我正在寻找一种数据结构来处理包含 512 个二进制值的数十亿个二进制字符串。 我的目标是向结构发送查询并获得一个结果集,其中包含距离更短的所有数据。 我的第一个想法是使用 kd 树。但是这些树对于高维
无线测量相距几米的两个物体(计算机、智能手机或专用设备)之间的距离的最佳方法是什么,精确到约 10 厘米? 这是否可以通过在 WLAN、蓝牙或 GPS 上小 pig 乞求来实现? 最佳答案 Ekaha
给定一个四元数值,我想在一组四元数中找到它的最近邻居。为此,我显然需要一种方法来比较两个四元数之间的“距离”。这种比较需要什么距离表示以及如何计算? 谢谢 乔什 最佳答案 这是一个老问题,但似乎需要更
我们如何测量分类数据之间的相似度距离? 示例:性别:男、女数值:[0 - 100]、[200 - 300]弦乐:专业人士、初学者等... 提前致谢。 最佳答案 有不同的方法可以做到这一点。最简单的一种
我正在开发一种工具来查找给定纬度和经度的两点之间的距离。当纬度和经度在 中给出时就可以了签名学位格式 .但是当在 中给出纬度和经度时,我找不到计算距离的方法。度分秒格式 (例如:N 11° 14' 5
编辑距离查找一个字符串到另一个字符串所需的插入、删除或替换次数。我还想在这个算法中包含掉期。例如“apple”和“appel”应该给出1的编辑距离。 最佳答案 您定义的编辑距离称为 Damerau-L
我实现了一个 levenshtein trie 来查找与给定单词相似的单词。 我的目标是有一种快速的方法来进行拼写纠正。 但是我发现有一种更快的方法可以做到这一点: 莱文斯坦自动机 我只是有一个问题.
我是一名优秀的程序员,十分优秀!