gpt4 book ai didi

c++ - 固定到核心的 FIFO 线程上的 std::promise::set_value 不会唤醒 std::future

转载 作者:太空狗 更新时间:2023-10-29 23:07:55 26 4
gpt4 key购买 nike

我正在尝试创建一个具有确定性实时响应的系统。

我创建了一些 cpusets ,将所有非关键任务和未固定的内核线程移动到一组,然后将我的每个实时线程固定到它自己的 cpuset,每个 cpuset 由一个 cpu 组成。

$ non-critical tasks and unpinned kernel threads
cset proc --move --fromset=root --toset=system
cset proc --kthread --fromset=root --toset=system

$ realtime threads
cset proc --move --toset=shield/RealtimeTest1/thread1 --pid=17651
cset proc --move --toset=shield/RealtimeTest1/thread2 --pid=17654

我的场景是这样的:

  • 线程 1:SCHED_OTHER , 固定到 set1 , 等待 std::future<void>
  • 线程 2:SCHED_FIFO , 固定到 set2 , 来电 std::promise<void>::set_value()

线程 1 永远阻塞。但是,如果我更改线程 2,则为 SCHED_OTHER ,线程 1 能够继续。

我运行了一个 strace -f获得更多洞察力;似乎线程 1 正在等待 futex (我假设是 std::future 的内部结构)但从未被唤醒。

我完全受阻了 - 有什么方法可以让线程将自身固定到核心并将其调度程序设置为 FIFO,然后使用 std::promise唤醒另一个正在等待它完成这个所谓的实时设置的线程?

thread1创建thread2的代码如下:

// Thread1:
std::promise<void> p;
std::future <void> f = p.get_future();

_thread = std::move(std::thread(std::bind(&Dispatcher::Run, this, std::ref(p))));

LOG_INFO << "waiting for thread2 to start" << std::endl;

if (f.valid())
f.wait();

thread2 的Run函数如下:

// Thread2:
LOG_INFO << "started: threadId=" << Thread::GetId() << std::endl;

Realtime::Service* rs = Service::Registry::Lookup<Realtime::Service>();
if (rs)
rs->ConfigureThread(this->Name()); // this does the pinning and FIFO etc

LOG_INFO << "thread2 has started" << std::endl;
p.set_value(); // indicate fact that the thread has started

strace 输出如下:

  • 线程 1 是 [pid 17651]
  • 线程 2 是 [pid 17654]

为了简洁起见,我删除了一些输出。

//////// Thread 1 creates thread 2 and waits on a future ////////

[pid 17654] gettid() = 17654
[pid 17651] write(2, "09:29:52 INFO waiting for thread"..., 4309:29:52 INFO waiting for thread2 to start
<unfinished ...>
[pid 17654] gettid( <unfinished ...>
[pid 17651] <... write resumed> ) = 43
[pid 17654] <... gettid resumed> ) = 17654
[pid 17651] futex(0xd52294, FUTEX_WAIT_PRIVATE, 1, NULL <unfinished ...>
[pid 17654] gettid() = 17654
[pid 17654] write(2, "09:29:52 INFO thread2 started: t"..., 6109:29:52 INFO thread2 started: threadId=17654
) = 61

//////// <snip> thread2 performs pinning, FIFO, etc </snip> ////////

[pid 17654] write(2, "09:29:52 INFO thread2 has starte"..., 3409:29:52 INFO thread2 has started
) = 34
[pid 17654] futex(0xd52294, FUTEX_CMP_REQUEUE_PRIVATE, 1, 2147483647, 0xd52268, 2) = 1
[pid 17651] <... futex resumed> ) = 0
[pid 17654] futex(0xd522c4, FUTEX_WAKE_PRIVATE, 2147483647 <unfinished ...>
[pid 17651] futex(0xd52268, FUTEX_WAKE_PRIVATE, 1 <unfinished ...>
[pid 17654] <... futex resumed> ) = 0
[pid 17651] <... futex resumed> ) = 0

//////// blocks here forever ////////

可以看到pid 17651(thread1)报告futex resumed ,但它是否可能在错误的 CPU 上运行并被阻塞在以 FIFO 运行的线程 2 后面? ?

更新:这似乎是线程没有在它们固定到的 cpus 上运行的问题。

top -p 17649 -Hf,j调出 last used cpu显示线程 1 确实在线程 2 的 cpu 上运行

top - 10:00:59 up 18:17,  3 users,  load average: 7.16, 7.61, 4.18
Tasks: 3 total, 2 running, 1 sleeping, 0 stopped, 0 zombie
Cpu(s): 7.1%us, 0.1%sy, 0.0%ni, 89.5%id, 0.0%wa, 0.0%hi, 3.3%si, 0.0%st
Mem: 8180892k total, 722800k used, 7458092k free, 43364k buffers
Swap: 8393952k total, 0k used, 8393952k free, 193324k cached

PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ P COMMAND
17654 root -2 0 54080 35m 7064 R 100 0.4 5:00.77 3 RealtimeTest
17649 root 20 0 54080 35m 7064 S 0 0.4 0:00.05 2 RealtimeTest
17651 root 20 0 54080 35m 7064 R 0 0.4 0:00.00 3 RealtimeTest

但是,如果我查看 cpuset文件系统,我可以看到我的任务应该固定到我请求的 cpus 上:

/cpusets/shield/RealtimeTest1 $ for i in `find -name tasks`; do echo $i; cat $i; echo "------------"; done

./thread1/tasks
17651
------------
./main/tasks
17649
------------
./thread2/tasks
17654
------------

显示 cpuset 配置:

$ cset set --list -r
cset:
Name CPUs-X MEMs-X Tasks Subs Path
------------ ---------- - ------- - ----- ---- ----------
root 0-23 y 0-1 y 279 2 /
system 0,2,4,6,8,10 n 0 n 202 0 /system
shield 1,3,5,7,9,11 n 1 n 0 2 /shield
RealtimeTest1 1,3,5,7 n 1 n 0 4 /shield/RealtimeTest1
thread1 3 n 1 n 1 0 /shield/RealtimeTest1/thread1
thread2 5 n 1 n 1 0 /shield/RealtimeTest1/thread2
main 1 n 1 n 1 0 /shield/RealtimeTest1/main

据此我会说 thread2 应该在 cpu 5 上,但 top 说它在 cpu 3 上运行。

有趣的是,sched_getaffinity报告内容 cpuset确实 - thread1 在 cpu 3 上,thread2 在 cpu 5 上。

然而,看着/proc/17649/task找到 last_cpu它的每个任务都运行在:

/proc/17649/task $  for i in `ls -1`; do cat $i/stat | awk '{print $1 " is on " $(NF - 5)}'; done
17649 is on 2
17651 is on 3
17654 is on 3

sched_getaffinity报道是一回事,但现实是另一回事

有趣的是,main线程[pid 17649 ] 应该在 cpu 1 上(根据 cset 输出),但实际上它在 cpu 2 上运行(在另一个套接字上)

所以我会说 cpuset不工作?

我的机器配置是:

$ cat /etc/SuSE-release
SUSE Linux Enterprise Server 11 (x86_64)
VERSION = 11
PATCHLEVEL = 1
$ uname -a
Linux foobar 2.6.32.12-0.7-default #1 SMP 2010-05-20 11:14:20 +0200 x86_64 x86_64 x86_64 GNU/Linux

最佳答案

我在 SLES 11/SP 2 盒子上重新运行了测试,固定工作正常。

因此,我将其标记为答案,即:这是与 SP 1

相关的问题

关于c++ - 固定到核心的 FIFO 线程上的 std::promise::set_value 不会唤醒 std::future,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11217559/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com