c++ - 当调度策略为 SCHED_RR 时，pthread 临界区中运行时间峰值的原因可能是什么？-6ren

c++ - 当调度策略为 SCHED_RR 时，pthread 临界区中运行时间峰值的原因可能是什么？

转载作者：行者123 更新时间：2023-11-30 04:49:35

我正在 Linux 中做一些时间计算测试。我的内核是 Preempt-RT(但是 vanilla 内核在我的测试中给出了类似的结果......)

我有两个 pthread，在同一个处理器中同时运行(给定亲和性)。它们是实时线程(prio 99)。

我有一个受自旋锁保护的关键部分，其中两个线程竞争锁。在关键部分内，我有一个增量操作，我尝试计算该操作的运行时间。

使用 __rdtsc 的代码示例:

pthread_spin_lock(&lock);

start_time = __rdtsc();
++cnt; //shared ram variable, type is unsigned long long
stop_time = __rdtsc();

pthread_spin_unlock(&lock);

计时码表示例:

pthread_spin_lock(&lock);

auto _start_time = std::chrono::high_resolution_clock::now();
++cnt; //shared ram variable, type is unsigned long long
auto _stop_time = std::chrono::high_resolution_clock::now();

pthread_spin_unlock(&lock);

线程循环运行几百万次然后终止。解锁自旋锁后，我记录了平均耗用时间和最大耗用时间。

现在，事情变得有趣了(至少对我而言):

测试 1:线程的调度策略为 SCHED_RR:

线程号:0，最大时间:34124，平均时间:28.114271，运行 Cnt:10000000

线程号:1，最长时间:339256976，平均时间:74.781960，运行次数:10000000

测试 2:线程的调度策略为 SCHED_FIFO:

线程号:0，最大时间:33114，平均时间:48.414173，运行 Cnt:10000000

线程号:1，最大时间:38637，平均时间:24.327742，运行 Cnt:10000000

测试3:只有单线程，调度策略为SCHED_RR:

线程号:0，最大时间:34584，平均时间:54.165470，运行 Cnt:10000000

注意:主线程是非 rt 线程，它在单独的处理器中具有亲和性。这里不重要。

注 1:所有测试给出大约。每次我运行它们时都会得到类似的结果。

注2:给出的结果是rdtsc的输出。然而，计时计时器的结果与这些几乎相似。

所以我想我可能对调度器有一个误解，所以我需要问这些问题:

在测试 1 中，巨大的最大时间峰值是如何出现的？测试 2 和 3 的行为不像它...
为什么最大值和平均值计算之间存在很大差距？是什么原因造成的，像定时器这样的中断？

我所有的测试代码是:

#include <stdio.h>
#include <stdlib.h>
#include "stdint.h"
#include <float.h>
#include <pthread.h>
#include <cxxabi.h>
#include <limits.h>
#include <sched.h>
#include <sys/mman.h>
#include <unistd.h> 
#include <sys/time.h> 
#include <sys/resource.h> 
#include <malloc.h>
#include <chrono>

/********* TEST CONFIG ************/

#define TEST_PTHREAD_RUN_CNT    10000000    //1000000000
#define NUM_OF_TEST_PTHREADS    2
#define MAIN_THREAD_CORE_INDEX  0
#define TEST_PTHREAD_PRIO       99
#define TEST_PTHREAD_POLICY     SCHED_RR

#define TIME_RDTSC              1
#define TIME_CHRONO             0
/**********************************/

/**********************************/
struct param_list_s
 {
    unsigned int thread_no;
 };
/**********************************/

/********* PROCESS RAM ************/
pthread_t threads[NUM_OF_TEST_PTHREADS];
struct param_list_s param_list[NUM_OF_TEST_PTHREADS];
unsigned long long max_time[NUM_OF_TEST_PTHREADS];
unsigned long long _max_time[NUM_OF_TEST_PTHREADS];
unsigned long long tot_time[NUM_OF_TEST_PTHREADS];
unsigned long long _tot_time[NUM_OF_TEST_PTHREADS];
unsigned long long run_cnt[NUM_OF_TEST_PTHREADS];
unsigned long long cnt;
pthread_spinlock_t lock;
/**********************************/

/*Proto*/
static void configureMemoryBehavior(void);
void create_rt_pthread(unsigned int thread_no);

/*
* Date............: 
* Function........: main
* Description.....: 
*/
int main(void)
{
    cpu_set_t  mask;
    int i;

    for (i = 0; i < NUM_OF_TEST_PTHREADS; ++i)
     {
        max_time[i] = 0;
        tot_time[i] = 0;
        run_cnt[i] = 0;

        _max_time[i] = 0;
        _tot_time[i] = 0;
     }
    cnt = 0;

    printf("\nSetting scheduler affinity for the process...");
    CPU_ZERO(&mask);
    CPU_SET(MAIN_THREAD_CORE_INDEX, &mask);
    sched_setaffinity(0, sizeof(mask), &mask);
    printf("done.\n");

    configureMemoryBehavior();

    pthread_spin_init(&lock, PTHREAD_PROCESS_PRIVATE);

    for (i = 0; i < NUM_OF_TEST_PTHREADS; ++i)
     {
        create_rt_pthread(i);
     }

    printf("Waiting threads to join\n...\n");
    for (i = 0; i < NUM_OF_TEST_PTHREADS; i++)
    {
        pthread_join(threads[i], NULL);
        #if(TIME_RDTSC == 1)
        printf("Thread no: %d, Max Time: %llu, Avg Time: %f, Run Cnt: %llu\n", i, max_time[i], (float)((float)tot_time[i] / run_cnt[i]), run_cnt[i]);
        #endif

        #if(TIME_CHRONO == 1)
        printf("Thread no: %d, Max Time: %lu, Avg Time: %f, Run Cnt: %lu\n", i, _max_time[i], (float)((float)_tot_time[i] / run_cnt[i]), run_cnt[i]);
        #endif
    }
    printf("All threads joined\n");
    printf("Shared Cnt: %llu\n", cnt);

    return 0;
}


/*
* Date............:
* Function........: thread_func
* Description.....:
*/
void *thread_func(void *argv)
{

    unsigned long long i, start_time, stop_time, latency = 0;
    unsigned int thread_no;

    thread_no = ((struct param_list_s *)argv)->thread_no;
    i = 0;
    while (1)
     {
        #if(TIME_RDTSC == 1)
        pthread_spin_lock(&lock);
        start_time = __rdtsc();
        ++cnt;
        stop_time = __rdtsc();
        pthread_spin_unlock(&lock);

        if (stop_time > start_time)
        {
            latency = stop_time - start_time;
            ++run_cnt[thread_no];

            tot_time[thread_no] += latency;
            if (latency > max_time[thread_no])
                max_time[thread_no] = latency;
        }
        #endif

        #if(TIME_CHRONO == 1)
        pthread_spin_lock(&lock);

        auto _start_time = std::chrono::high_resolution_clock::now();
        ++cnt;
        auto _stop_time = std::chrono::high_resolution_clock::now();

        pthread_spin_unlock(&lock);

        auto __start_time = std::chrono::duration_cast<std::chrono::nanoseconds>(_start_time.time_since_epoch()).count();
        auto __stop_time = std::chrono::duration_cast<std::chrono::nanoseconds>(_stop_time.time_since_epoch()).count();
        auto __latency = __stop_time - __start_time;

        if (__stop_time > __start_time)
        {
            _tot_time[thread_no] += __latency;
            ++run_cnt[thread_no];
            if (__latency > _max_time[thread_no])
            {
                _max_time[thread_no] = __latency;
            }
        }
        #endif

        if (++i >= TEST_PTHREAD_RUN_CNT)
            break;
     }

    return 0;
}


/*
* Date............:
* Function........: create_rt_pthread
* Description.....:
*/
void create_rt_pthread(unsigned int thread_no)
{

    struct sched_param  param;
    pthread_attr_t      attr;

    printf("Creating a new real-time thread\n");
    /* Initialize pthread attributes (default values) */
    pthread_attr_init(&attr);

    /* Set a specific stack size  */
    pthread_attr_setstacksize(&attr, PTHREAD_STACK_MIN);

    /* Set scheduler policy and priority of pthread */
    pthread_attr_setschedpolicy(&attr, TEST_PTHREAD_POLICY);
    param.sched_priority = TEST_PTHREAD_PRIO;
    pthread_attr_setschedparam(&attr, &param);

    /* Set the processor affinity*/
    cpu_set_t cpuset;
    CPU_ZERO(&cpuset);
    CPU_SET(1, &cpuset);

    pthread_attr_setaffinity_np(&attr, sizeof(cpu_set_t), &cpuset);

    /* Use scheduling parameters of attr */
    pthread_attr_setinheritsched(&attr, PTHREAD_EXPLICIT_SCHED);

    param_list[thread_no].thread_no = thread_no;

    if(pthread_create(&threads[thread_no], &attr, thread_func, (void *)&param_list[thread_no]) != 0)
     {
        printf("Thread could not be created.\n");
        exit(-1);
     }
}


/*
* Date............:
* Function........: configureMemoryBehavior
* Description.....:
*/
static void configureMemoryBehavior(void)
{
    printf("\nLocking memory...");
    /* Now lock all current and future pages
       from preventing of being paged */
    if (mlockall(MCL_CURRENT | MCL_FUTURE))
        perror("mlockall failed:");

    /* Turn off malloc trimming.*/
    mallopt(M_TRIM_THRESHOLD, -1);

    /* Turn off mmap usage. */
    mallopt(M_MMAP_MAX, 0);
    printf("done.\n");
}

最佳答案

当您使用 SCHED_FIFO 运行时，您的线程之一开始运行。然后它会一直运行直到完成——因为这就是 SCHED_FIFO 的工作方式——没有任何东西会抢占它。因此，它在自旋锁中花费的时间是相对一致的。然后，在第一个线程完成后，第二个线程在没有争用锁的情况下运行到完成。所以它也有一个更一致的时间。由于中断等原因，两者仍然存在一些抖动，但这两者之间相当一致。

当您使用 SCHED_RR 运行时，您的一个线程会运行一段时间。在一个时间片结束时，它会被抢占，另一个将开始运行——因为这就是 SCHED_RR 的工作方式。现在，它很有可能在持有自旋锁时被抢占。所以，现在另一个线程正在运行，它立即尝试获取自旋锁，但失败了——因为另一个线程持有锁。但它只是一直尝试直到时间片结束(因为自旋锁就是这样工作的——它永远不会阻塞等待获取锁)。当然，它在此期间什么也做不了。最终，时间片结束，持有锁的线程再次运行。但是归因于该单个增量操作的时间现在包括等待另一个线程在其整个时间片中自旋的所有时间。

我认为如果您增加最大计数 (TEST_PTHREAD_RUN_CNT)，您会看到 SCHED_RR 行为随着您的两者而变得均匀线程最终会受到这种影响。现在，我猜一个线程很有可能在一两个时间片内完成。

如果您想锁定在同一处理器上以同等优先级运行的另一个线程，您可能应该使用 pthread_mutex_t。在成功获取的情况下，这与自旋锁的作用几乎相同，但在无法获取锁时会阻塞。

但请注意:这样做的结果很可能会将 SCHED_RR 行为转变为 SCHED_FIFO 行为:大多数情况下，抢占会在一个线程发生时发生持有锁，因此另一个将运行几条指令，直到它尝试获取锁，然后它将阻塞，第一个将再次运行一个完整的时间片。

总的来说，尝试在一个处理器上运行两个 RT 优先级线程确实很冒险，因为它们都需要运行很长时间。 RT 优先级在您将每个线程锁定到其自己的核心，或者 RT 线程需要立即得到调度但在再次阻塞之前只会运行很短时间的情况下效果最好。

关于c++ - 当调度策略为 SCHED_RR 时，pthread 临界区中运行时间峰值的原因可能是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55336272/

文章推荐： java - 这是创建包含多个包的 jar 文件的正确方法吗？

文章推荐：我的布局中的 Android Canvas？

c - 将线程策略设置为 SCHED_RR 时出现未知错误
尝试将线程的调度策略设置为 SCHED_RR 时，我收到未知错误代码(实际上是 48)。这是我的代码示例: #include #include #include int main() {
Linux 调度策略 : SCHED_FIFO against SCHED_RR
根据我在搜索过程中了解到的情况，FIFO 任务需要阻塞或自愿放弃，以便释放 CPU 并允许其他任务在该 CPU 上运行。我不能确定的是 3 个具体情况: 1) 优先级为 99 的(可运行的)FIFO
linux - 我需要将所有线程调度策略设置为 SCHED_RR 以提高线程优先级吗？
我们正在使用pthread API开发多媒体跨平台应用程序。我们希望提高音频线程的优先级，使其即使在 CPU 较高的情况下也能正常工作。有些事情不容易通过测试来观察，所以我想先了解它是如何工作的。我
c++ - 内核模块和 SCHED_RR 线程的优先级
我有一个嵌入式 Linux 平台(Beagleboard，运行 Angstrom Linux)，连接了两个设备: 通过 USB 连接的激光测距仪 (Hokuyo UTM 30) 通过 SPI 连接的自
c - 在一个程序中混合使用 SCHED_FIFO 和 SCHED_RR？
我想用 RR 调度创建 3 个线程。在每个线程中我将创建例如5 个线程，采用 FIFO 调度。我知道3个线程有指定的处理时间。在此期间，其他 5 个线程应以“RR”调度运行。在这段时间之后，其他 2
c++ - Kworker 线程被 SCHED_RR 用户空间线程阻塞
我们有一个使用内核 3.14.17、PREEMPT RT 的 Linux 系统。它是一个单核系统。对于延迟问题，我们的应用程序将其某些线程的调度类型设置为 SCHED_RR。但是，这会导致内核中的
linux - SCHED_FIFO 和 SCHED_RR 如何相互干扰？
SCHED_FIFO 和 SCHED_RR 都是为实时使用而设计的。我知道 SCHED_RR 可以被时间片抢占。但是如果我有一个线程设置为 SCHED_FIFO，另一个设置为 SCHED_RR，如果两
linux-kernel - sched_wakeup_granularity_ns 、 sched_min_granularity_ns 和 SCHED_RR
我的框中的以下值: sysctl -A | grep "sched" | grep -v "domain" kernel.sched_autogroup_enabled = 0 kernel.sche
c++ - 使用 SCHED_RR 调度策略运行的线程的 sched_yield() 的影响
我在 Linux 下有一个进程，由两个线程组成，一个生产者和一个消费者。为简单起见，假设这是在单核、单 CPU 架构上的系统中运行的唯一进程。生产者首先被创建，并使用 sched_setschedu
c++ - 当调度策略为 SCHED_RR 时，pthread 临界区中运行时间峰值的原因可能是什么？
我正在 Linux 中做一些时间计算测试。我的内核是 Preempt-RT(但是 vanilla 内核在我的测试中给出了类似的结果......) 我有两个 pthread，在同一个处理器中同时运行(给
c - 无法使用 SCHED_RR 在创建时设置 pthread 优先级
如何获得以初始优先级创建的 pthread 线程？在下面的代码中，我声明了执行此操作所必需的上限，事实上，它确实将线程的优先级更改为 15，但由于某种原因线程总是以优先级 0 开始，即使我指定它需要
Linux SCHED_OTHER、SCHED_FIFO 和 SCHED_RR - 区别
谁能解释一下 SCHED_OTHER、SCHED_FIFO 和 SCHED_RR 之间的区别？谢谢最佳答案 SCHED_FIFO 和 SCHED_RR 是所谓的“实时”策略。它们实现了 POSIX
c++ - SCHED_RR 线程上的 Posix 计时器正在使用 100% CPU
我有以下代码片段: #include #include #include #include #include int main() { std::thread rr_thread([
python - 将 python 程序设置为 SCHED_RR 或 SCHED_FIFO
我正在 Raspberry Pi 上运行一个 python 程序，我想将其设置为 SCHED_FIFO 或 SCHED_RR 优先级。我在网上找到了一些使用 C/C++ 执行此操作的人的信息，代码如下
c - Linux 实时调度优先级(SCHED_FIFO 和 SCHED_RR)的实际使用？
我正在试验 SCHED_FIFO，我看到了一些意外行为。我使用的服务器有 12 个内核，禁用了超线程。所有可配置的中断都已设置为在 CPU 0 上运行。我的程序开始使用 pthreads 库为较低优
c - 在 Linux 上 SCHED_FIFO 和 SCHED_RR
我正在编写一个非常小的守护进程，即使在系统承受巨大压力时它也必须保持响应。我正在研究 SCHED_FIFO 和 SCHED_RR 在调度方面的差异，并试图确定一个合理的优先级。哪种调度程序适合小型但
Linux SCHED_OTHER (CFS) 用户时间与 SCHED_RR 和 SCHED_FIFO 用户时间
想知道这里是否有消息灵通的 Linux 专家可以回答我的问题。我一直在为我的 OS 类做统计分析，其中调度程序对 CPU 和 IO 绑定(bind)进程更有效/有效。我无法解释从 GNU 时间得到的一

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

c++ - 当调度策略为 SCHED_RR 时，pthread 临界区中运行时间峰值的原因可能是什么？