c - pthread_cond_signal 导致死锁-6ren

c - pthread_cond_signal 导致死锁

转载作者：可可西里更新时间：2023-11-01 11:50:32

25

4

我有一个程序在其中一个线程调用 pthread_cond_siganl(或广播)时死锁。该问题在主程序中可 100% 重现。我无法弄清楚它有什么问题，因此提取了调用 wait 和 signal 的代码段。但是，死锁不能用提取的问题重现。

在主程序上运行 valgrind 不会报告任何无效的读/写或内存泄漏。

我想知道在调用pthread_cond_signal时出现死锁的可能原因是什么。

提取的片段如下。

#include <pthread.h>
#include <math.h>
#include <syscall.h>
#include <assert.h>
#include <stdlib.h>
#include <iostream>

using namespace std;

void Task() {
    cerr << syscall(SYS_gettid) << " In Task, sleeping..." << endl;
    sleep(5);
}

pthread_mutex_t lock;
pthread_cond_t cond;
bool doingTheTask= false;

void* func(void* ) { 
    pthread_mutex_lock(&lock);
    if (doingTheTask) {
        cerr << syscall(SYS_gettid) << " wait... " << endl;
        while ( doingTheTask) {//spurious wake-up
            cerr << syscall(SYS_gettid) << " waiting..." << endl ;
            pthread_cond_wait(&cond, &lock);
            cerr << syscall(SYS_gettid) << " woke up!!!" << endl ;
        }
    }
    else {
        cerr << syscall(SYS_gettid) << " My Turn to do the task..." << endl;
        assert( ! doingTheTask );
        doingTheTask= true;
        pthread_mutex_unlock(&lock);
        Task();
        cerr << syscall(SYS_gettid) << " Before trying to acquire lock" << endl;
        pthread_mutex_lock(&lock);
        cerr << syscall(SYS_gettid) << " After acquiring lock" << endl ;
        assert( doingTheTask );
        doingTheTask = false;
        cerr << syscall(SYS_gettid) << " Before broadcast" << endl;
        pthread_cond_broadcast(&cond);
        cerr << syscall(SYS_gettid) << " After broadcast" << endl;
    }
    pthread_mutex_unlock(&lock);
    return NULL;
}


int main() {
    pthread_mutex_init(&lock,NULL);
    pthread_cond_init(&cond,NULL);
    pthread_t thread[2];

    for ( int i = 0 ;  i < 2 ; i ++ ) {
        if (0 != pthread_create(&thread[i], NULL, func, NULL) ) {
            cerr << syscall(SYS_gettid) << " Error creating thread" << endl;
            exit(1);
        }
    } 

    for ( int i = 0 ;  i < 2 ; i ++ ) {
        pthread_join(thread[i],NULL);
    }
    pthread_mutex_destroy(&lock);
    pthread_cond_destroy(&cond);

    return 0;
}

唯一重要的部分是 func 函数。其他部分只是为了编译而呈现。

正如我所说，问题在此程序中不可重现。这段代码和主程序的区别是:

在主程序中，mutex和condvar是成员字段，function是成员方法。
任务做一些任务而不是休眠。
多个线程可能会等待，我们应该广播而不是发信号。但是，即使我使用信号和一个等待线程，死锁也是 100% 可重现的。

我试图用这段代码解决的问题是一种在至少一个线程需要完成任务时执行一次任务的机制。但是没有两个线程应该并行执行任务，一旦其中一个执行了任务，其他线程就不需要执行它了。此方法的客户端假定它会阻塞直到任务完成(因此我无法在看到有人正在执行任务后立即返回)。

死锁线程的回溯是:

#0  __lll_lock_wait () at ../nptl/sysdeps/unix/sysv/linux/x86_64/lowlevellock.S:136
#1  0x00007ffff73e291c in pthread_cond_wait@@GLIBC_2.3.2 () at ../nptl/sysdeps/unix/sysv/linux/x86_64/pthread_cond_wait.S:259

和

#0  __lll_lock_wait () at ../nptl/sysdeps/unix/sysv/linux/x86_64/lowlevellock.S:136
#1  0x00007ffff73e30b1 in pthread_cond_signal@@GLIBC_2.3.2 () at ../nptl/sysdeps/unix/sysv/linux/x86_64/pthread_cond_signal.S:142

pthread_cond_signal deadlocks是一个类似的问题。但似乎提出问题的人有内存损坏。我没有内存损坏(valgrind)。

问题在我测试过的两台机器上 100% 重现。 (最新的 ArchLinux 和 Uubntu 10.04.3)。

主程序的示例输出如下。它再次显示线程在调用 pthread_cond_wait 和 pthread_cond_signal 之前阻塞。 (第一列显示线程 ID)。

3967    In Task, sleeping...
3967    My Turn to do the task...
3967    In Task, sleeping...
3973    wait...
3973    waiting...
3976    <output from some other thread>
3967    Before trying to acquire lock
3967    After acquiring lock
3967    Before broadcast

主要程序是用C++编写的。但我使用的是语言的 C 部分，因此避免使用 C++ 标记。

最佳答案

愚蠢的错误。在执行信号和等待之前，我正在销毁 mutex 和 condvar。要重现，只需在主函数中加入线程之前移动销毁函数。

令人惊讶的是，在我的两台机器上，这会产生 100% 一致(和错误)的行为。

关于c - pthread_cond_signal 导致死锁，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8248458/

25

4

0

文章推荐： c - 使用 gdb 为多线程应用程序设置观察点

文章推荐：如果仅写入，O_WRONLY 和 O_RDWR 之间的 C linux 内部差异

文章推荐： php - Windows PHP cURL 上传不发布文件

文章推荐： linux - 使用依赖于另一个库的库的 CMake 项目

java - 如何找到 Cassandra 导致 Spark 作业中止的根本原因(导致 ClassCastException - ShuffleMapTask 到 Task)？
我正在尝试使用 Spark 从 Cassandra 读取数据。 DataFrame rdf = sqlContext.read().option("keyspace", "readypulse
ctime() 导致 SIGABRT(？!)
这是代码: void i_log_ (int error, const char * file, int line, const char * fmt, ...) { /* Get erro
导致 Gtk 在断言时中止
我必须调试一个严重依赖 Gtk 的程序。问题是由于某些原因，在使用 GtkWindow 对象时开始出现许多运行时警告。问题是，即使 Gtk 提示严重错误，它也不会因这些错误而中止。我没有代码库的更改历
glsl - glGetProgramBinary 导致 GL_INVALID_OPERATION
我正在尝试从已有效编译和链接的程序中检索二进制文件。我已经通过 GL_PROGRAM_BINARY_LENGTH 收到了它的长度。该文档说有两个实例可能会发生 GL_INVALID_OPERATION
wcf - 导致 ServiceActivationException 的原因是什么？
我有一个托管在 Azure 环境中的服务。我正在使用控制台应用程序使用该服务。这样做时，我得到了异常: "The requested service, 'http://xxxx-d.yyyy.be/S
multithreading - sem_init() 导致 SEGV
我有以下代码，它被 SEGV 信号杀死。使用调试器表明它被 main() 中的第一个 sem_init() 杀死。如果我注释掉第一个 sem_init() ，第二个会导致同样的问题。我试图弄清楚是什么
xcode - NSJSONSerialization 导致 EXC_BAD_ACCESS
目前我正在编写一个应用程序(目标 iOS 6，启用 ARC)，它使用 JSON 进行数据传输，使用核心数据进行持久存储。 JSON 数据由 PHP 脚本通过 json_encode 从 MySQL 数
android - PopAsync 导致 ArgumentOutOfRangeException
我对 Xamarin.Forms 还是很陌生。我在出现的主页上有一个非常简单的功能 async public Task BaseAppearing() { if (UserID
android - notifyDataSetChanged() 导致 IndexOutOfBoundsException
这是我的代码的简化版本。 public class MainActivity extends ActionBarActivity { private ArrayList entry = new Arr
java - 导致 NoSuchMethodError 的显式转换？
我想弄明白为什么我的两个 Java 库很难很好地协同工作。这是场景: 库 1 有一个类 A，其构造函数如下: public A(Object obj) { /* boilerplate */ } 在以
iphone - didReceiveAuthenticationChallenge 导致 EXC_BAD_ACCESS
如果网站不需要身份验证，我的代码可以正常工作，如果需要，则在打印“已创建凭据”后会立即出现 EXC_BAD_ACCESS 错误。我不会发布任何内容，并且此代码是直接从文档中复制的 - 知道出了什么问题
iphone - NSArray 导致 EXC_BAD_ACCESS
我在使用 NSArray 填充 UITableView 时遇到问题。我确信我正在做一些愚蠢的事情，但我无法弄清楚。当我尝试进行简单的计数时，我得到了 EXC_BAD_ACCESS，我知道这是因为我试图
iphone - resignFirstResponder 导致 EXC_BAD_ACCESS
我在 UITableViewCell 上有一个 UITextField，在另一个单元格上有一个按钮。我单击 UITextField(出现键盘)。 UITextField 调用了以下方法: - (BO
iphone - MKReverseGeocoder 导致 EXC_BAD_ACCESS？
我有一个应用程序出现间歇性崩溃。崩溃日志显示了一个堆栈跟踪，这对我来说很难破译，因此希望其他人看到了这一点并能为我指出正确的方向。基本上，应用程序在启动时执行反向地理编码请求，以在标签中显示用户的位
iphone - UIImageWriteToSavedPhotosAlbum 导致 EXC_BAD_ACCESS
我开发了一个 CGImage，当程序使用以下命令将其显示在屏幕上时它工作正常: [output_view.layer performSelectorOnMainThread:@selector(set
android - EncryptedSharedPreferences 导致 UnrecoverableKeyException
我正在使用新的 EncryptedSharedPreferences以谷歌推荐的方式上课: private fun securePrefs(context: Context): SharedPrefe
javascript - ClientId 导致 NullReferenceException
我有一个中继器，里面有一些控件，其中一个是文本框。我正在尝试使用 jquery 获取文本框，我的代码如下所示: $("#").click(function (event) {}); 但我总是得到 nu
android - 导致 TTS 初始化失败的原因是什么？
在以下场景中观察到 TTS 初始化错误，太随机了。已安装 TTS 引擎，存在语音集，并且可以从辅助功能选项中播放示例 tts。 TTS 初始化在之前初始化和播放的同一设备上随机失败。在不同的设备(
java - 64位VM不启动指针压缩，导致-8内存对齐
maven pom.xml org.openjdk.jol jol-core 0.10 Java 类: public class MyObjectData { pr
math - 导致 MD5 冲突的最短字符串对是什么？
在不担心冲突的情况下，可以使用 MD5 作为哈希值，字符串长度最多为多少？这可能是通过为特定字符集中的每个可能的字符串生成 MD5 哈希来计算的，长度不断增加，直到哈希第二次出现(冲突)。没有冲突的

首页

博学

6Ren·AI

商城

c - pthread_cond_signal 导致死锁