- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个大型数据集(200 万行),其中每一行代表一个点,其空间坐标以米为单位(x 和 y)及其得分。它看起来像这样:
my_points <- data.frame(ID = 1:2e6,
x = sample(x = 1:1e6, size = 2e6, replace = TRUE),
y = sample(x = 1:1e6, size = 2e6, replace = TRUE),
Score = sample(x = 1:1e3, size = 2e6, replace = TRUE))
head(my_points)
# ID x y Score
# 1 21984 628151 54
# 2 675714 27715 431
# 3 273248 127287 47
# 4 659750 795394 921
# 5 478142 417083 416
# 6 783249 440782 253
所有点都位于一个大区域(1000 x 1000 公里)。
我试图找到 100 米半径范围内的点组,这些点的得分最高。
到目前为止,我已经尝试了两种解决方案,但它们都无法处理如此多的数据(即使使用并行计算或 data.table
包):
第一种解决方案:
我建立了一个覆盖所有空间的空间网格。我为网格选择了一小步(10 米)以确保我收集了所有可能的解决方案。对于网格的每个点,我将距离小于 100 米的点的分数相加。此解决方案需要太多时间(在我的计算机上可能需要数周或数月)...
第二种解决方案
我已经构建了一个函数,对于一对 (x, y),返回包含在中心 (x, y) 和半径 100 米的圆内的分数。我试图找到这个函数的最大值,但我无法为这种非连续函数找到合适的方法...
有什么更快的解决方案(不到一天)的想法吗?
最佳答案
好的 - 我认为我的解决方案有效,但速度很慢。
library(Rcpp)
sourceCpp(code = '
#include <Rcpp.h>
using namespace Rcpp;
// determine, if a point is in a polygon
bool pnp(NumericVector vertx, NumericVector verty, float testx, float testy) {
int nvert = vertx.size();
bool c = FALSE;
int i, j = 0;
for (i = 0, j = nvert-1; i < nvert; j = i++) {
if ( ((verty[i]>testy) != (verty[j]>testy)) &&
(testx < (vertx[j]-vertx[i]) * (testy-verty[i]) / (verty[j]-verty[i]) + vertx[i]) )
c = !c;
}
return c;
}
// create a circle polygon (36 corners) around a point with a certain radius
NumericMatrix circle(float centerx, float centery, float radius){
int pnum = 36;
double rotation = 2 * 3.14159 / pnum;
NumericMatrix res(36, 2);
for (int p1 = 0; p1 < pnum; ++p1) {
double rot = p1 * rotation;
res(p1, 0) = centerx + cos(rot) * radius;
res(p1, 1) = centery + sin(rot) * radius;
}
return res;
}
// create a vector with the circle score sum of each point
// [[Rcpp::export]]
NumericVector searchmaxclust(DataFrame points) {
Function asMatrix("as.matrix");
SEXP points2m = points;
NumericMatrix pm = asMatrix(points2m);
NumericVector co(pm.nrow());
for (int p1 = 0; p1 < pm.nrow(); p1++) {
NumericVector curp = pm(p1,_);
NumericMatrix circ = circle(curp(1), curp(2), 100.0);
for (int p2 = 0; p2 < pm.nrow(); p2++) {
NumericVector curp2 = pm(p2,_);
bool isin = pnp(circ(_,0), circ(_,1), curp2(1), curp2(2));
if (isin) {
co(p1) = co(p1) + curp2(3);
}
}
}
return co;
}
')
我使用 Rcpp 来加快速度 - 算法非常简单。
1000点大约需要0.6s。我想这意味着,您的2000000点大约需要一个月的时间。嗯。无论如何,我决定发布这个。也许它可以帮助别人。
关于r - 找到最集中的区域,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40268602/
在使用 GDI 进行图形处理的传统 Windows 程序中,您必须担心只绘制需要重绘的窗口区域;这是“更新矩形”,可以通过 PAINTSTRUCT.rcPaint 或通过调用 GetUpdateRec
我对 TFS 中的所有内容感到困惑。有人可以解释一下所有这些是如何组合在一起的吗? 团队项目合集 团队项目 团队 地区 迭代 来自 this page,我认为一个(团队)项目集合可以包含多个(团队)项
这对我来说根本没有意义。创建新的 API 网关时,您可以指定它是区域优化的还是边缘优化的。但话又说回来,当您为 API Gateway 创建自定义域名时,您可以在两者之间进行选择。 最糟糕的是,您可以
我有一个工作表,其中包含我想循环遍历的许多不同区域。我将进行一些计算,并认为它比在列中逐个单元格地更快/更有效。 我尝试了一些不同的东西,但不知道如何跳到下一个区域。我已经发表了一些评论,最有希望的是
最近迁移到 TFS 2010 后,我想知道对于区域而言,最佳或最广泛接受的定义或配置是什么? 我能在网上找到的唯一有用的文章是 this one并且是我认为是正确的。然而,这让我开始思考是否以下任何一
我在“北欧”有一个存储帐户,现在我想使用生命周期管理将冷 blob 移动到存档层。 但是我每次尝试都会遇到以下失败:无法为存储帐户“myStorageAccount”添加生命周期管理规则。错误:管理策
我正在开发一个项目,您在扫描仪中输入州的缩写,然后程序会告诉您该州位于美国的哪个地区。我认为我的大部分代码都是正确的,但我有以前从未使用过 switch。 我已经将我的工作改进为一个错误,即我的第一个
我正在尝试学习 AngularJS,我想我有一个架构问题。 如果我想开始开发一个应用程序,比方说,比如 youtube,我如何在“区域”(比如 Marionette)中组织页面?我的意思是:顶部导航栏
我正在制作一个动态内存分配器,当我释放其中的一部分时,我需要检查我传递给函数的指针实际上是否在该区域内。我有一个指向 malloc 区域开头的指针 typedef unsigned char byte
有时我想看看 到底在哪里页面上图片上的标签。 在 Javascript 中有没有办法改变颜色或隐藏与区域标签对应的图像部分? 最佳答案 也许您正在寻找类似 mapper.js 的内容.它允许您在鼠标
我有一个使用 D3 js 创建的时间序列图表。我想为特定时间间隔添加高亮区域,以显示在该特定时间发生的特定事件(会有不同类型的事件,因此每个高亮标记将根据其类型具有不同的颜色)。我希望这个突出显示区域
我正在尝试创建网站的密码保护区。我想通过检查 MySql 表中的用户名和密码来允许访问,然后启动一个 session 并允许在 session 处于事件状态时访问多个页面。如果有人尝试直接访问这些页面
在 ScrollView 中我添加了几个按钮。正如您在图片中看到的,2 个按钮完全可见,第三个按钮半可见。当我向右滚动看到第三个时;1-如果滚动条很短,则它会滚动回到第一个位置。2- 如果滚动足够则显
我正在开发我的第一个 spritekit 应用程序,并且有一个关于如何处理我想到的事情的快速问题。我正在制作一个我想要的棋盘游戏原型(prototype),并希望在 iOS map 中进行一些集思广益
在我的 C# 程序中,我收到这样的日期和时间:DateTime.Now 我得到:19/09/2010 20:10:30 因为我的地区是:希伯来语(以色列) 但是如果我将我的程序安装在区域为 Engli
有时我在 Visual Studio 的源文件中运行(在我的例子中是 2010),我看到很多区域,我必须点击 + 号才能一个一个地打开它们! 是否有任何快捷方式或菜单选项可以使这对我来说更容易,并且对
关闭。这个问题是opinion-based .它目前不接受答案。 想要改进这个问题? 更新问题,以便 editing this post 可以用事实和引用来回答它. 关闭 7 年前。 Improve
我正在寻找二维数据中的峰值区域(如果您愿意,灰度图像或二维景观,通过霍夫变换创建)。 峰值区域是指局部最大峰值,但不是单个点而是周围的一部分strong>contributing region 随之而
我希望能够将任何字符或字符串转换为形状或区域,以便我可以按照我喜欢的任何大小、样式、效果等来绘制该字符。 更具体地说,我将使用视差绘制它,以便它仅在特定角度清晰定义(这就是为什么我不能使用 html
我非常喜欢数学(或者你们大多数人会说的“数学”!),但我还没有达到知道这个问题答案的程度。我有一个主圆,它可以在显示器上的任何 x 和 y 处有一个中心点。其他圆圈将随意在显示器周围移动,但在任何给定
我是一名优秀的程序员,十分优秀!