C - 使用多线程时使用 lseek() 获得的 write() 位置不准确-6ren

C - 使用多线程时使用 lseek() 获得的 write() 位置不准确

转载作者：太空宇宙更新时间：2023-11-04 07:33:20

24

4

当使用多个线程同时写入同一文件的不同部分时，我在获取正确的文件位置时遇到问题。

我有一个文件的全局文件描述符。在我的写作功能中，我首先锁定一个互斥锁，然后执行 lseek(global_fd, 0, SEEK_CUR) 获取当前文件位置。接下来，我使用 write() 写入 31 个零字节(31 是我的条目大小)，实际上是为以后保留空间。然后我解锁互斥体。

稍后在函数中，我向同一个文件声明一个本地 fd 变量，然后打开它。我现在在本地 fd 上执行 lseek 以到达我从中学到的位置早些时候，我的空间被保留了。最后，我 write() 那里有 31 个数据字节条目，并关闭本地 fd。

这个问题似乎很少见，一个条目没有被写入预期的位置(它不是损坏的数据 - 似乎它与不同的条目交换，或者两个条目被写入相同的位置) .有多个线程在运行我描述的“写作功能”。

我从那以后了解到 pwrite() 可以用来写入特定的偏移量，这会更有效，并且消除了 lseek()。但是，我首先想弄清楚:我原来的算法有什么问题？是否有任何类型的缓冲可能导致预期写入位置与数据实际最终存储在文件中的位置之间存在差异？

相关代码片段如下。这是一个问题的原因是，在第二个数据文件中，我记录了我正在写入的条目的存储位置。如果基于写入前的 lseek() 的位置不准确，则我的数据无法正确匹配——这种情况偶尔会发生(很难重现——它发生在可能是 10 万分之一的写入)。谢谢!

db_entry_add(...)
{
   char dbrecord[DB_ENTRY_SIZE];
   int retval;

   pthread_mutex_lock(&db_mutex);

   /* determine the EOF index, at which we will add the log entry */
   off_t ndb_offset = lseek(cfg.curr_fd, 0, SEEK_CUR);
   if (ndb_offset == -1)
   {
      fprintf(stderr, "Unable to determine ndb offset: %s\n", strerror_s(errno, ebuf, sizeof(ebuf)));
      pthread_mutex_unlock(&db_mutex);
      return 0;
   }

   /* reserve entry-size bytes at the location, at which we will
      later add the log entry */
   memset(dbrecord, 0, sizeof(dbrecord));

   /* note: db_write() is a write() loop */ 
   if (db_write(cfg.curr_fd, (char *) &dbrecord, DB_ENTRY_SIZE) < 0)
   {
      fprintf(stderr, "db_entry_add2db - db_write failed!");
      close(curr_fd);
      pthread_mutex_unlock(&db_mutex);

      return 0;
   }

   pthread_mutex_unlock(&db_mutex);

   /* in another data file, we now record that the entry we're going to write 
      will be at the specified location. if it's not (which is the problem,
      on rare occasion), our data will be inconsistent */ 
   advertise_entry_location(ndb_offset);
   ...

   /* open the data file */
   int write_fd = open(path, O_CREAT|O_LARGEFILE|O_WRONLY, 0644);
   if (write_fd < 0)
   {
      fprintf(stderr, "%s: Unable to open file %s: %s\n", __func__, cfg.curr_silo_db_path, strerror_s(errno, ebuf, sizeof(ebuf)));
      return 0;
   }

   pthread_mutex_lock(&db_mutex);

   /* seek to our reserved write location */
   if (lseek(write_fd, ndb_offset, SEEK_SET) == -1)
   {
      fprintf(stderr, "%s: lseek failed: %s\n", __func__, strerror_s(errno, ebuf, sizeof(ebuf)));
      close(write_fd);
      return 0;
   }

   pthread_mutex_unlock(&db_mutex);

   /* write the entry */
   /* note: db_write_with_mutex is a write() loop wrapped with db_mutex lock and unlock */ 
   if (db_write_with_mutex(write_fd, (char *) &dbrecord, DB_ENTRY_SIZE) < 0)
   {
      fprintf(stderr, "db_entry_add2db - db_write failed!");         
      close(write_fd);

      return 0;
   }

   /* close the data file */
   close(write_fd);

   return 1; 
}

为了完整性，再补充一点。我有一个类似但更简单的例程，也可能导致问题。这个使用缓冲输出 (FILE*, fopen, fwrite)，但在每次写入结束时执行 fflush()。它写入一个与早期例程不同的文件，但可能导致相同的症状。

pthread_mutex_lock(&data_mutex);

/* determine the offset at which the data will be written. this has to be accurate,    
otherwise it could be causing the problem */ 
offset = ftell(current_fp);

fwrite(data);
fflush(current_fp);

pthread_mutex_unlock(&data_mutex);

最佳答案

似乎有几个地方可能会出错。我将进行以下更改:(1) 保持一致并按照 bdonlan 的建议使用相同的 I/O 库，(2) 使 lseek() 和写入一个由互斥锁保护的原子操作，以便只有一个线程在一次可以执行添加到两个文件的那些操作。 SEEK_CUR 根据文件偏移指针的当前位置进行查找，所以您不希望 SEEK_END 查找到文件末尾以便追加到那里吗？然后，如果您正在修改文件的特定部分，您将使用 SEEK_SET 重新定位到您要写入的位置。并且您希望在互斥保护部分执行此操作，以便仅允许单个线程执行文件定位和文件更新。

关于C - 使用多线程时使用 lseek() 获得的 write() 位置不准确，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11286736/

24

4

0

文章推荐： java - 是否可以将 Spring MVC 和预先存在的网页集成？

文章推荐： Java 转换 func_get_args PHP、varargs

文章推荐： c - 为什么窗口不能正确设置光标？

algorithm - 如何(准确)估计剩余下载时间？
当然，您可以将剩余文件大小除以当前下载速度，但如果您的下载速度波动(而且它会波动)，这不会产生很好的结果。有什么更好的算法可以产生更平滑的倒计时？最佳答案安exponential moving a
image - 准确(且快速)的角度匹配
对于一个业余项目，我正在尝试对齐照片并创建 3D 图片。我基本上在一个钻机上有 2 个相机，我用来拍照。我会自动尝试以您获得 3D SBS 图像的方式对齐图像。它们是高分辨率图像，这意味着需要处理大
algorithm - 如何(准确)估计剩余下载时间？
当然，您可以将剩余的文件大小除以当前的下载速度，但如果您的下载速度波动(而且会波动)，这不会产生很好的结果。什么是产生更平滑倒计时的更好算法？最佳答案安exponential moving ave
machine-learning - 机器学习中训练数据的标记可能不是 100% 准确
我有一个数据集，其中包含患有糖尿病和未患有糖尿病的人。我想使用这些数据训练一个模型来计算糖尿病状况未知的人的风险概率。我知道在培训中没有被诊断出糖尿病的人大多数都没有糖尿病，但很可能其中一些人可能患有
Swift - 即使 objectId 准确，自定义对象仍未找到
let parent = path[row-1] let child = path[row] let indexOfChild = matrix[parent.obje
javascript - Element.getBoundingClientRect 何时保证更新/准确？
我正在编写一些使用 Element.getBoundingClientRect 的代码(gBCR)，加上内联样式更新，以执行计算。这不适用于一般网站，我不关心或不感兴趣是否有“更好的 CSS 方式”
python - 从 csv 文件中删除不需要的值的快速、准确、可靠的方法
我有一个很大的 csv 文件，其中包含大量脏数据，我想通过消除所有不是绝对必要的值来稍微清理一下它。 Here是我正在谈论的文件。它有以下组件: 网站,标题,开始日期,开始日期,雇主,地点,纬度,
java - Windows 上的 Java 准确 sleep
有谁知道一个库，它为 Java 提供了一个错误不高于 1-2 毫秒的 Thread.sleep()？我尝试了 sleep 、错误测量和 BusyWait 的混合，但在不同的 Windows 机器上我
javascript - (准确)从用户输入获取时间的首选方法(在 UiApp - GAS 中)
UiApp有DateBox和 DateTimeFormat 对于那个类(class)。但是，不存在诸如 TimePicker 或 TimeBox 这样的东西，用户可以通过明确指定的方式(例如通过使用
python - mnist 数据集的 SVM 是否 100% 准确？
因此，我使用 sklearn 的 svm.SVC 模块编写了一个程序来学习 mnist 数据集，出于某种原因，每当我计算其准确性为 100% 时。这似乎好得令人难以置信，这是预期的吗？ from sk
python - 为什么 gpytorch 似乎不如 scikit-learn 准确？
我当前找到了 gpytorch ( https://github.com/cornellius-gp/gpytorch )。它似乎是将 GPR 集成到 pytorch 中的一个很棒的包。第一次测试也呈
c++ - 转到不同网站后如何获得完整(准确)的 Url/QUrl 地址？
我正在使用 QT Creator 5.9 创建一个简单的 Web 浏览器模型，我的 EditLine/Text Box 有问题: 1.如何在转到不同的网站/页面后自动更新显示的 URL 字符串。 2。
c++ - 为什么 long int 不是 100% 准确？
我在 Linux 上尝试 time -p 命令，我写了一些代码来浪费 CPU 周期: #include using namespace std; int main() { long int c;
java - 准确(方位角)罗盘方向 Android 3.2 平板电脑
亲爱的程序员/脚本编写者/工程师/其他人，问题:我目前正在为 Android 3.2 平板电脑开发增强现实应用程序，但在获取准确的罗盘读数方面遇到一些问题。我需要确切地知道平板电脑所面向的 (z)
apache-spark - Apache Spark 是否不如 Scikit Learn 准确？
我最近一直在尝试了解 Apache Spark 作为 Scikit Learn 的替代品，但在我看来，即使在简单的情况下，Scikit 收敛到准确模型的速度也远远快于 Spark。例如，我使用以下脚本
http - 如果我检查 "content-length" header ，它是否 100% 准确？
如果不是，它的准确性如何？我想在下载之前知道图片的大小。最佳答案 HTTP Content-length header 是否格式错误？是的。您是否应该相信它能公平地表示消息正文的大小？是的。关
machine-learning - 一元词和二元词 (tf-idf) 不如二元词 (ff-idf) 准确？
这是一个关于 ngram 线性回归的问题，使用 Tf-IDF(术语频率 - 逆文档频率)。为此，我使用 numpy 稀疏矩阵和 sklearn 进行线性回归。使用一元语法时，我有 53 个案例和 6
objective-c - *准确*计算 Cocoa 中的文本高度(适用于 Mac，不适用于 iOS)
对于某些给定的固定宽度，如何计算特定标签 (NSTextField) 中字符串的高度？我用谷歌搜索了各种方法并尝试了 this method from Apple .它的工作原理，除了高度变成一行对

首页

博学

6Ren·AI

商城

C - 使用多线程时使用 lseek() 获得的 write() 位置不准确