- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
在C++中使用openMP时,我再次陷入困境。这次,我正在尝试实现并行quicksort。
代码:
#include <iostream>
#include <vector>
#include <stack>
#include <utility>
#include <omp.h>
#include <stdio.h>
#define SWITCH_LIMIT 1000
using namespace std;
template <typename T>
void insertionSort(std::vector<T> &v, int q, int r)
{
int key, i;
for(int j = q + 1; j <= r; ++j)
{
key = v[j];
i = j - 1;
while( i >= q && v[i] > key )
{
v[i+1] = v[i];
--i;
}
v[i+1] = key;
}
}
stack<pair<int,int> > s;
template <typename T>
void qs(vector<T> &v, int q, int r)
{
T pivot;
int i = q - 1, j = r;
//switch to insertion sort for small data
if(r - q < SWITCH_LIMIT)
{
insertionSort(v, q, r);
return;
}
pivot = v[r];
while(true)
{
while(v[++i] < pivot);
while(v[--j] > pivot);
if(i >= j) break;
std::swap(v[i], v[j]);
}
std::swap(v[i], v[r]);
#pragma omp critical
{
s.push(make_pair(q, i - 1));
s.push(make_pair(i + 1, r));
}
}
int main()
{
int n, x;
int numThreads = 4, numBusyThreads = 0;
bool *idle = new bool[numThreads];
for(int i = 0; i < numThreads; ++i)
idle[i] = true;
pair<int, int> p;
vector<int> v;
cin >> n;
for(int i = 0; i < n; ++i)
{
cin >> x;
v.push_back(x);
}
cout << v.size() << endl;
s.push(make_pair(0, v.size()));
#pragma omp parallel shared(s, v, idle, numThreads, numBusyThreads, p)
{
bool done = false;
while(!done)
{
int id = omp_get_thread_num();
#pragma omp critical
{
if(s.empty() == false && numBusyThreads < numThreads)
{
++numBusyThreads;
//the current thread is not idle anymore
//it will get the interval [q, r] from stack
//and run qs on it
idle[id] = false;
p = s.top();
s.pop();
}
if(numBusyThreads == 0)
{
done = true;
}
}
if(idle[id] == false)
{
qs(v, p.first, p.second);
idle[id] = true;
#pragma omp critical
--numBusyThreads;
}
}
}
return 0;
}
g++ -o qs qs.cc -Wall -fopenmp
./qs < in_100000 > out_100000
最佳答案
我实际上没有运行您的代码,但是我看到p
上立即出现错误,应该是private
而不是shared
。并行调用qs
:qs(v, p.first, p.second);
将在p
上引起种族,从而导致不可预测的行为。 qs
的局部变量应该可以,因为所有线程都有自己的堆栈。但是,总体方法是好的。您走在正确的轨道上。
这是我对并行quicksort的实现的一般性评论。 Quicksort本身令人尴尬地是并行的,这意味着不需要同步。分区数组上的qs
的递归调用令人尴尬地是并行的。
但是,并行性以递归形式公开。如果仅在OpenMP中使用嵌套并行机制,那么最终将在一秒钟内拥有数千个线程。无法获得加速。因此,大多数情况下,您需要将递归算法转换为交互式算法。然后,您需要实现一种工作队列。这是您的方法。而且,这并不容易。
对于您的方法,有一个很好的基准:OmpSCR。您可以在http://sourceforge.net/projects/ompscr/下载
在基准测试中,有几种基于OpenMP的快速排序版本。它们中的大多数与您的相似。但是,要增加并行度,必须最小化全局队列中的争用(在您的代码中为s
)。因此,可能会有一些优化,例如具有本地队列。尽管算法本身是完全并行的,但是实现可能需要同步工件。而且,最重要的是,很难实现加速。
但是,您仍然可以通过两种方式在OpenMP中直接使用递归并行性:(1)限制线程总数,以及(2)使用OpenMP 3.0的task
。
这是第一种方法的伪代码(这仅基于OmpSCR的基准):
void qsort_omp_recursive(int* begin, int* end)
{
if (begin != end) {
// Partition ...
// Throttling
if (...) {
qsort_omp_recursive(begin, middle);
qsort_omp_recursive(++middle, ++end);
} else {
#pragma omp parallel sections nowait
{
#pragma omp section
qsort_omp_recursive(begin, middle);
#pragma omp section
qsort_omp_recursive(++middle, ++end);
}
}
}
}
omp_set_nested(1)
和
omp_set_num_threads(2)
。代码真的很简单。我们只是在工作划分上产生了两个线程。但是,我们插入了一个简单的限制逻辑,以防止线程过多。请注意,我的实验显示了这种方法的不错的提速。
task
,其中任务是逻辑上并发的工作。在上述所有OpenMP方法中,每个并行构造都产生两个物理线程。您可能会说,任务与工作线程之间存在一对一的硬映射。但是,
task
将逻辑任务和工作程序分开。
void qsort(int* begin, int* end)
{
if (begin != end) {
--end;
int* middle = std::partition(begin, end,
std::bind2nd(std::less<int>(), *end));
std::swap(*end, *middle);
cilk_spawn qsort(begin, middle);
qsort(++middle, ++end);
// cilk_sync; Only necessay at the final stage.
}
}
cilk_spawn
是并行化quicksort的所有内容。我跳过了Cilk Plus和spawn关键字的说明。但是,这很容易理解:两个递归调用被声明为逻辑上并发的任务。每当进行递归时,就会创建逻辑任务。但是,Cilk Plus运行时(实现了有效的工作窃取调度程序)将处理各种脏工作。它以最佳方式将并行任务排队并映射到工作线程。
task
本质上类似于Cilk Plus的方法。我的实验表明,相当不错的加速是可行的。我在8核计算机上的速度提高了3到4倍。而且,加速是规模化的。 Cilk Plus的绝对加速比OpenMP 3.0的绝对加速大。
关于c++ - C OpenMP并行quickSort,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8023135/
我已经使用多线程实现了快速排序,它正确地对整数数组进行了排序,但是它比普通的快速排序需要更长的时间来执行。例如,对 10000 个整数进行排序多线程:6856 毫秒正常:1毫秒 我不知道我的代码有什么
关闭。这个问题是opinion-based .它目前不接受答案。 想要改进这个问题? 更新问题,以便 editing this post 可以用事实和引用来回答它. 关闭 9 年前。 Improve
我正在比较 Julia 和 C++ 之间的性能。然后我发现 Julia 中的快速排序要快得多(甚至比 C++ 还要快),尤其是当数组的大小非常大时。 任何人都可以解释原因吗? quickSort.jl
据说特定的分区算法可以导致稳定的快速排序,我想知道要做到这一点需要什么细节? 如果有人有创建此类算法的示例或提示,将会有所帮助 最佳答案 分区算法被用作快速排序算法的“核心”。 “明智地”使用分区算法
我试图了解 APL 中的经典快速排序: Q←{1≥≢⍵:⍵ ⋄ S←{⍺⌿⍨⍺ ⍺⍺ ⍵} ⋄ ⍵((∇S))⍵⌷⍨?≢⍵} 有些东西我不明白,有些风格选择让我很困扰,所以我将把它们全部列出来。我希望
我对快速排序的理解是 选择一个枢轴元素(在本例中我选择中间元素作为枢轴) 在极值处初始化左指针和右指针。 查找枢轴左侧第一个大于枢轴的元素。 同样找到枢轴右侧第一个小于枢轴的元素 交换 3 和 4 中
我在此指出,很难进行稳定的快速排序。但是,我的快速排序似乎很稳定。 quicksortBy _ []=[] quicksortBy key (pivot:rest)= (quicksortBy
我在此指出,很难进行稳定的快速排序。但是,我的快速排序似乎很稳定。 quicksortBy _ []=[] quicksortBy key (pivot:rest)= (quicksortBy
我读到可以让快速排序以 O(nlogn) 运行 该算法表示在每一步中选择中位数作为主元 但是,假设我们有这个数组: 10 8 39 2 9 20 哪个值将是中位数? 在数学中,如果我没记错的话,中位数
我有这样一个算法问题:我需要让 Quicksort 像这样工作: 1) 数组的下标为奇数时,应从小到大排序 2) 即使是索引也应该从大到小排序。 所以如果我们有数组:2 5 1 3 4 0 6 2 5
我是 Java 新手,我正在尝试实现 QuickSort。下面是我的脚本。 public class QuickSort { public static void main(String[]
你能解释一下这个用java实现的快速排序算法有什么问题吗? static ArrayList quickSort(ArrayList array){ if (array.size() a =
我正在尝试使用就地排序在 python 中编写快速排序代码。我的代码在子数组中运行完美,但是它似乎无法将子数组粘在一起以形成最终的排序数组。 def quickSort (ar): if le
已关闭。此问题需要 debugging details 。目前不接受答案。 编辑问题以包含 desired behavior, a specific problem or error, and the
我有一个程序来接收一个结构,存储它然后对其进行排序。我尝试过使用希尔排序,但后来我选择了快速排序算法。但是,当我尝试在排序后打印数组时,它仍然返回未排序的数组。请记住,我正在尝试按“num_aluno
当我尝试运行此 QuickSort 时,出现段错误:11,但它编译正常。我使用驱动程序运行它,这就是我使用 fastsort() 和 fastsortR() 的原因。是什么导致了分段? /* ---
我现在正在学习不同类型的排序,我发现,从某个点开始,我的快速排序算法根本无法快速工作。 这是我的代码: class QuickSort { // partitioning arr
我正在编写一个网络应用程序,它会向用户询问一系列问题,这些问题只是两个值的主观比较。他们选择更大的那个,然后它构成了排序所需的下一个比较。目标是对58个项目进行排序,并显示排序列表。 我想使用快速排序
我一直在用头撞 table 。 我需要创建一个 n 大小的数组,该数组针对快速排序分区进行了优化。它将用于演示 QuickSort 的最佳案例的增长。我知道在最好的情况下,QuickSort 必须为每
对于quickSort,我有以下4种分区方法的代码.现在,如果我运行代码,各种分区的性能如下 partition0 性能为 1877, 分区 2 是 781, 分区 3 674, partition4
我是一名优秀的程序员,十分优秀!