hardware - 同时读取多个文件是个好主意吗？-6ren

hardware - 同时读取多个文件是个好主意吗？

转载作者：行者123 更新时间：2023-12-04 17:19:12

26

4

我们公司的一台服务器有 32 个 CPU，我们有 1000 多个非常大的文件要处理。我不确定同时读取 32 个文件是否是个好主意，这样所有内核也可以同时执行独立计算。谁能简单解释一下硬盘的工作原理？如果我同时读取 32 个文件，会不会降低读取速度？谢谢!

最佳答案

hard disk传统上是一种机械数据存储设备。我假设服务器使用机械硬盘，而不是较新的 SSD 类型的硬盘，后者没有移动部件。我还假设有如此多的数据和处理能力，正在使用多个硬盘(RAID 或 NAS)。这些细节会显着影响性能，并可能导致以下大部分内容不准确。
硬盘是机械设备，内部有一个旋转的光盘，就像老式的唱机或 CD。它涂有一种可以记录和回放微小磁脉冲的 Material 。一个可定位的“读写”磁头在每个磁盘的表面上方飞行，通常在磁盘的两侧，准备在每个磁盘的表面上移动以定位、读取和写入这些磁脉冲。旋转和移动都需要时间。磁盘要做的“工作”越多，完成所需的时间就越长，这仅仅是因为它必须在磁盘表面上物理定位更多的微观区域。
也就是说，假设有 29 名员工被分配阅读大英百科全书的所有 29 卷。 (当然是 3 个主管。)每个卷都存储在一个硬盘上，因此有 29 个硬盘。有两种方法可以阅读整件事:

拿起第一卷，然后让每位员工一次阅读一页，直到所有卷都读完。主管在处理所有页面时收集并重新排序，一次一卷。

同时拿起所有 29 卷，并尝试随机阅读页面(最终效果)，直到所有卷都读完。主管在处理时从 29 个随机章节中收集并重新排序所有页面...

选项#1 似乎“过时”，但是关于这种方法的一个重要的事情是其他 28 个磁盘根本没有被使用。只有一个是。硬盘在顺序读取数据方面比随机读取数据要好得多。这是因为顺序读取避免了读写头来回寻找造成的延迟。
选项#2 可行，而且听起来很合理，但它并不理想，原因有两个:a) 几乎没有顺序读取，以及 b) 所有磁盘都在使用中。这会使用更多的电力，并对服务器提出更大的要求以同时运行所有这些磁盘。
所以是的，如果您尝试同时处理 32 个大文件，那么这会给磁盘带来巨大的负载，并且它们可能会缓慢爬行。更复杂，但可能是更好的解决方案，让 32 个内核一次“轮流”处理这些大文件中的一个，直到它们全部处理完毕。 (“轮流”是指将其分解为更小、更易于管理的块。)同样，目标是使磁盘尽可能按顺序读取，并避免随机来回查找。
完成此操作的软件必须是 multi-threaded ，这意味着用户只启动一个程序，但它为其他 CPU 内核创建了 31 个新的“工作线程”。主程序开始按顺序读取数据，并将这些传入数据拆分为多个块，供其他线程(核心)处理。然后所有这些都“轮流”处理整个数据文件的一小部分，直到它被完全处理。

关于hardware - 同时读取多个文件是个好主意吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28614953/

26

4

0

文章推荐： c++11 - 为什么 decltype 的行为是这样定义的？

文章推荐： listview - 带有空文本的 ListView 中的 ListItems

文章推荐： .net - 适用于 Visual Studio 2008 的 Crystal Reports 合并模块

文章推荐： wcf - 为什么 .Net Remoting 不需要已知类型而 WCF 需要？

security - 在散列之前对加盐密码进行加扰。好主意？
我正在更新一个旧的经典 ASP 站点并且我需要存储密码，因此考虑到经典 ASP 的局限性，我对如何处理这个问题自然有点过于谨慎。我同时使用盐和胡椒(胡椒是存储在服务器上而不是数据库中的常量)，我只是
php - 增加登录的时间延迟以停止暴力破解，好主意？
我已经设置了我的数据库来记录每次失败的登录尝试。我以为我会将失败尝试的次数乘以 0.05 秒之类的。就像是: time_nanosleep(0, (50000000 * $fa
c# - 使用系统时钟测量广播消息延迟，好主意？
我想测量 1GB LAN 上消息代理的广播消息延迟。消息以 pub sub 方式传输，一个发布者，多个消费者。生产者使用系统时钟(C# 中的 DateTime.Now)为每条消息加上时间戳，消费者通
c# - 代码契约检查线程亲和性——好主意？
我正在尝试学习代码契约并了解它们的用处。我有一个 WPF 应用程序，因此很多代码注定要在 UI 线程上独占运行。相当多的实用程序类期望仅从 UI 线程调用。在我的代码中加入这些是个好主意吗？为什么
c# - 为多个客户组合数据库 - 好主意？
我加入了一家小公司，该公司主要销售一种网络应用程序。 Web 应用程序中的数据非常敏感，以至于所有数据都经过字段级加密。应用程序使用 ASP.NET Web API 2(C#) 编写，前端为 html
php - 永无休止的ajax请求，好主意/坏主意？
对于我网站的后端，只有少数人可见，我有一个系统，通过 ajax 与 php 进行通信，如下所示: function ajax(url, opts) { var progress = false
javascript - Meteor:为收集服务器端创建过滤器并将它们存储在本地集合中。好主意？
我们有相当大的文档集，我们希望我们的用户能够查看和过滤这些文档。为了加快速度，我们只向客户发送有限数量的文件。但是，由于我们确实需要客户端能够过滤文档，因此我们需要一种方法来发送他们可以过滤的键和值。
c++ - 通过使用函数指针在游戏引擎数学库中使用 SIMD ~ 好主意？
我从 14 岁起就开始阅读游戏引擎书籍(那时候我什么都不懂:P)几年后，我想开始为我的游戏引擎编写数学基础。我一直在思考如何设计这个“图书馆”。 (我的意思是“有组织的文件集”)每隔几年就会出现新的
mysql - 从redis 切换到Mysql。好主意？
我们正在使用 Rails 为餐厅构建 SaaS 后端。我们直接与 POS 集成，因此每个 POS 不断发送我们存储的客户订单以供以后处理。我们在大约 1,000 个地点进行了这种 POS 集成，每月向
mysql - 从不删除条目？好主意？通常？
我正在设计一个系统，但我认为让最终用户能够删除数据库中的条目并不是一个好主意。我是这么认为的，因为通常最终用户一旦获得管理员权限，最终可能会在数据库中弄得一团糟，然后求助于我来修复它。当然，如果他们
web-applications - REST 服务应用程序和单独的前端 - 好主意？
我正在考虑使用 RESTful Web 服务构建应用程序。我的想法是将应用程序的 RESTful(json 等)部分构建为独立的，然后将前端(例如 html/css/js/等)构建为该服务的客户端，虽
Objective-c:引用ivar persistent？好主意？
我有一种情况，我要保留对需要持久化的 ivar 的引用。在一个对象中，我有一个指向另一个对象中的 ivars 的指针数组，这些指针在程序的整个生命周期中都被使用。换句话说，我不只是传递一个引用来检索一
javascript - 干净的原型(prototype) fork (好主意？)
有没有prototype没有任何 DOM/ajax 部件的 fork？我真的更喜欢 jQuery，并且不想背负额外的包袱。到目前为止，我一直在使用优秀的 JS.Class库，它甚至不触及内置类原型(p
java - 使用实用程序生成 Java 代码使我的项目更加简洁。好主意？
我正在从事的项目需要我编写大量重复代码。例如，如果我想在我的代码中加载一个名为“logo.png”的图像文件，我会这样写:位图标志图片； ... // Init logoImage = load("l
c++ - 好主意/坏主意我应该重新实现大部分 C++ 吗？
关闭。这个问题是opinion-based .它目前不接受答案。想改善这个问题吗？更新问题，以便可以通过 editing this post 用事实和引文回答问题. 3年前关闭。 Improve t
javascript - 通过 Javascript 不断查询服务器 - 好主意？
我有一个小型网站，大约有 5-10 名管理员。我已将其设置为监视每个管理员正在做什么(添加项目、删除项目等)。我在我们的管理面板中有一个列表，显示了集体管理部门之前执行的 10 项事件。今天，我决定每
git - 用 Git 备份数据库 - 好主意？
我看到将 PostgeSQL 数据库转储到一个大 SQL 文件中，然后提交并推送到远程 Git 存储库的方式可能是一个了不起的备份解决方案:我获得了所有版本的历史记录、散列、安全传输、单向(真的很难通
language-agnostic - 使用 DI 框架进行本地化 - 好主意？
我正在开发一个需要本地化和国际化的 Web 应用程序。我突然想到我可以使用依赖注入(inject)框架来做到这一点。假设我声明了一个接口(interface) ILocalResources(在本示例
.net - 使用 ThreadStatic 替换昂贵的 locals —— 好主意？
更新 :正如我所料，社区针对这个问题给出的合理建议是“衡量并观察”。 chibacity posted an answer一些非常好的测试为我做了这件事；同时，我自己写了一个测试；我看到的性能差异实际
C#:使用 new 创建一个对象但不分配它。好主意/坏主意？
我想知道使用 new 运算符创建对象但不将返回的对象分配给任何变量是否是个好主意。本质上，我只是在同一行中调用这些方法。例如: new Object().ToString(); 好吧，我知道上面的行不

首页

博学

6Ren·AI

商城

hardware - 同时读取多个文件是个好主意吗？