gpt4 book ai didi

c++ - OpenCV/C++ 程序比它的 numpy 对应程序慢,我该怎么办?

转载 作者:太空狗 更新时间:2023-10-29 21:59:00 26 4
gpt4 key购买 nike

我前段时间在 Python 中实现了 Procrustes 分析算法,最近被告知要将其移植到 OpenCV/C++。完成后,我运行了一些测试,对于相同的输入/实例,C++ 代码花费的时间是 Python 代码的两倍(分别大约 8 秒和 4 秒)。我重复测试一千次只是为了确保我在太短的时间内没有测量它们)。我对这些结果感到困惑。

我已经使用 gprof 试图了解发生了什么,但除了 cv::Mat::~Mat() 占用了 34.67% 的执行时间这一事实之外,我不能说出很多错误并且被调用的次数比任何其他函数都多 100 倍以上。也不确定我应该怎么做,除非我应该用 std::vectors 或原始数组替换 cv::Mats,这两者对我来说都是不好的做法。

void align(const cv::Mat& points, const cv::Mat& pointsRef, cv::Mat& res, cv::Mat& ops) {
cv::Mat pts(points.rows, points.cols, CV_64FC1);
cv::Mat ptsRef(points.rows, points.cols, CV_64FC1);
points.copyTo(pts);
pointsRef.copyTo(ptsRef);

cv::Mat avgs = meanOfColumns(pts);
for(int i = 0; i < avgs.cols; i++) {
pts.col(i) -= avgs.col(i);
}
cv::Mat avgsR = meanOfColumns(ptsRef);
for(int i = 0; i < avgsR.cols; i++) {
ptsRef.col(i) -= avgsR.col(i);
}

cv::Mat x2(pts.rows, 1, CV_64FC1);
cv::Mat y2(pts.rows, 1, CV_64FC1);
cv::Mat x2R(pts.rows, 1, CV_64FC1);
cv::Mat y2R(pts.rows, 1, CV_64FC1);
cv::pow(pts.col(0), 2, x2);
cv::pow(pts.col(1), 2, y2);
cv::pow(ptsRef.col(0), 2, x2R);
cv::pow(ptsRef.col(1), 2, y2R);
cv::Mat sqrootP(pts.rows, 1, CV_64FC1);
cv::Mat sqrootPR(pts.rows, 1, CV_64FC1);
cv::sqrt(x2R + y2R, sqrootPR);
cv::sqrt(x2 + y2, sqrootP);
double offsetS = (cv::mean(sqrootPR) / cv::mean(sqrootP))[0];
pts *= offsetS;

cv::Mat rot(pts.rows, 1, CV_64FC1);
cv::Mat rotR(pts.rows, 1, CV_64FC1);
rot = arctan2(pts.col(1), pts.col(0));
rotR = arctan2(ptsRef.col(1), ptsRef.col(0));
double offsetR = -cv::mean((rot - rotR))[0];
cv::Mat angRot(pts.rows, 1, CV_64FC1);
angRot = rot + offsetR;
cv::Mat dist(pts.rows, 1, CV_64FC1);
cv::pow(pts.col(0), 2, x2);
cv::pow(pts.col(1), 2, y2);
cv::sqrt(x2 + y2, dist);
copyColumn(dist.mul(cosine(angRot)), res, 0, 0);
copyColumn(dist.mul(sine(angRot)), res, 0, 1);

ops.at<double>(0, 0) = -avgs.at<double>(0, 0);
ops.at<double>(0, 1) = -avgs.at<double>(0, 1);
ops.at<double>(0, 2) = offsetS * cv::cos(offsetR / RADIANS_TO_DEGREES);
ops.at<double>(0, 3) = offsetS * cv::sin(offsetR / RADIANS_TO_DEGREES);
}

这是对齐 2 组点的代码。它调用了一些未显示的函数,但它们很简单,如有必要我可以解释它们,但我希望这些名称足以理解它们的作用。

我是一名普通的 C++ 程序员,请放轻松。

Ignacio Vazquez-Abrams 的想法似乎是正确的。一个更简洁/直接的例子:

#include <boost/date_time/posix_time/posix_time.hpp>
#include <cv.hpp>
#include <iostream>

using namespace boost::posix_time;

int main() {
cv::Mat m1(1000, 1000, CV_64FC1);
cv::Mat m2(1000, 1000, CV_64FC1);
ptime firstValue( microsec_clock::local_time() );
for(int i = 0; i < 10; i++) {
cv::Mat m3 = m1 * m2;
}
ptime secondValue( microsec_clock::local_time() );
time_duration diff = secondValue - firstValue;
std::cout << diff.seconds() << "." << diff.fractional_seconds() << " microsec" << std::endl;
}

在我的机器上这需要大约 14 秒以上的时间。现在是 Python:

import datetime
import numpy as np

if __name__ == '__main__':
print datetime.datetime.now()
m1 = np.zeros((1000, 1000), dtype=float)
m2 = np.zeros((1000, 1000), dtype=float)
for i in range(1000):
m3 = np.dot(m1, m2)
print datetime.datetime.now()

这需要 4 秒以上,尽管 C++ 示例只执行了 10 次,而 Python(Fortran) 示例执行了 1000 次。

好的,有时间更新

我检查了我正在使用的 Python 代码并意识到它只加载了点的一个子集(大约 5%)...这意味着我的 C++ 测试实际上运行的实例比 Python 代码多 20 倍,所以C++ 代码实际上快了大约 10 倍,因为代码只慢了两倍。不过,在某些操作中,numpy 似乎仍然击败了 OpenCV。

最佳答案

for(int i = 0; i < 10; i++) {
cv::Mat m3 = m1 * m2;
}

这在 C++ 中完全没有意义,m3 在循环的每次迭代中都会被销毁 - 这就是为什么你会得到所有这些析构函数调用的原因。

编辑:

cv::Mat m3 = m1 * m2;

m3 = np.dot(m1, m2)

不是一回事。您是否尝试过比较 numpy 中的叉积或 opencv 中的点积?

关于c++ - OpenCV/C++ 程序比它的 numpy 对应程序慢,我该怎么办?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6674338/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com