- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
有没有人有使用 r/python 处理存储在固态驱动器中的数据的经验。如果您主要进行读取,理论上这应该会显着缩短大型数据集的加载时间。我想知道这是否属实,以及是否值得投资 SSD 以提高数据密集型应用程序的 IO 速率。
最佳答案
我的 2 美分:只有当您的应用程序存储在 SSD 上而不是数据时,SSD 才有返回。即使那样,也只有在需要大量访问磁盘的情况下,比如操作系统。人们将您指向分析是正确的。我可以不做就告诉你,几乎所有的读取时间都花在了处理上,而不是在磁盘上读取。
考虑数据的格式比考虑数据的存储位置更有意义。使用正确的应用程序和正确的格式可以加快读取数据的速度。就像使用 R 的内部格式而不是摸索文本文件一样。让它成为感叹号:永远不要继续摸索文本文件。如果您需要速度,请使用二进制。
由于开销,如果您使用 SSD 或普通磁盘从中读取数据,通常不会有什么不同。我都有,并使用普通磁盘存储我的所有数据。我有时会处理大数据集,但从未遇到过问题。当然,如果我必须非常繁重,我只会在我们的服务器上工作。
因此,当我们谈论数以千计的数据时,这可能会有所不同,但即便如此,我仍然非常怀疑磁盘访问是否是限制因素。除非你不断地读写磁盘,但我会说你应该重新开始思考你到底在做什么。与其将钱花在 SDD 驱动器上,不如增加内存是更好的选择。或者只是说服老板给你一个像样的计算服务器。
使用伪造数据帧的计时实验,以及在 SSD 磁盘和普通磁盘上以文本格式与二进制格式进行读写。
> tt <- 100
> longtext <- paste(rep("dqsdgfmqslkfdjiehsmlsdfkjqsefr",1000),collapse="")
> test <- data.frame(
+ X1=rep(letters,tt),
+ X2=rep(1:26,tt),
+ X3=rep(longtext,26*tt)
+ )
> SSD <- "C:/Temp" # My ssd disk with my 2 operating systems on it.
> normal <- "F:/Temp" # My normal disk, I use for data
> # Write text
> system.time(write.table(test,file=paste(SSD,"test.txt",sep="/")))
user system elapsed
5.66 0.50 6.24
> system.time(write.table(test,file=paste(normal,"test.txt",sep="/")))
user system elapsed
5.68 0.39 6.08
> # Write binary
> system.time(save(test,file=paste(SSD,"test.RData",sep="/")))
user system elapsed
0 0 0
> system.time(save(test,file=paste(normal,"test.RData",sep="/")))
user system elapsed
0 0 0
> # Read text
> system.time(read.table(file=paste(SSD,"test.txt",sep="/"),header=T))
user system elapsed
8.57 0.05 8.61
> system.time(read.table(file=paste(normal,"test.txt",sep="/"),header=T))
user system elapsed
8.53 0.09 8.63
> # Read binary
> system.time(load(file=paste(SSD,"test.RData",sep="/")))
user system elapsed
0 0 0
> system.time(load(file=paste(normal,"test.RData",sep="/")))
user system elapsed
0 0 0
关于python - 使用 R/python 和 SSD 进行数据分析,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4262984/
我希望 Kubernetes 在我的 Google Kubernetes 引擎集群中使用本地 SSD,而不使用 alpha 功能。有办法做到这一点吗? 预先感谢您的任何建议或帮助。 最佳答案 http
我已经阅读了论文 MobileNetV2(arXiv:1801.04381) 并从 Tensorflow model zoo 运行模型. 我注意到 SSD Lite MobileNetV2 的推理
Kafka 速度很快,因为它在 HDD 上使用顺序写入技术。 如果我为 Kafka Brokers 使用 SSD,我能获得更快的性能吗? 据我所知,SSD 的工作方式与 HDD 不同。而且我认为使用
大多数 SQL 关系数据库都支持表中聚集索引的概念。聚簇索引通常作为 B 树实现,表示给定表中的实际记录,按磁盘/存储上的索引物理排序。这种特殊的聚簇索引的一个优点是,在遍历 B 树搜索一条记录或一组
目录 c:\test 里面有 50 个左右的文件,没有子目录。 If IO.Directory.Exists("C:\test") Then IO.Directory.Dele
我准备发布一个只对普通硬盘有效的工具,而不是 SSD(固态硬盘)。事实上,它不应该与 SSD 一起使用,因为它会导致大量读/写而没有实际效果。 任何人都知道检测给定驱动器是否为固态的方法? 最佳答案
鉴于固态硬盘 (SSD) 的价格正在下降,并且很快将作为系统驱动器变得更加普遍,并且鉴于它们的访问率明显高于旋转磁介质,哪些标准算法将通过使用用于本地存储的 SSD?例如,SSD 的高随机读取速度使得
SSD 现在很普遍; Amazon EBS 由 SSD 支持,因此大多数云数据库现在也运行在 SSD 上(Heroku PostgreSQL 等)。传统上,数据库和相关架构的设计理念是随机访问不好 -
为什么选择Windows 单击部署后,Vultr云业务流程将接管并在所需的数据中心中旋转实例。 Windows支持的云服务器 Windows Serv
来源:晓飞的算法工程笔记 公众号,转载请注明出处 论文: Exploring the Benefit of Activation Sparsity in Pre-training
我已经用自定义数据集(电池)训练了 SSD Mobilenet 模型。下面给出了电池的示例图像,并附上了我用来训练模型的配置文件。 当物体靠近摄像头时(用网络摄像头测试),它以超过 的概率准确检测到物
我有一个应用程序,它每秒通过网络接收数百个字符串,大约 50 个字节长。我想将这些缓存到 SSD 以进行进一步处理。如果我每秒执行数百 ~50 字节的文件附加写入,SSD 是否安全?我怀疑操作系统可能
我需要创建一个 T 卷,T 已创建,但如果磁盘是 ssd,我还需要一个新的 U 卷,我该怎么做? 知道我是否是 SSD 的批处理命令是什么? [...] set /a VOL_SIZE= %MINSI
我想在自定义数据集上训练 Mobilenet SSD 模型。 我研究了重新训练模型的工作流程,并注意到配置文件中的 image_resizer{} 块: https://github.com/tens
我已经在 tensorflow 中尝试了 SSD 和 YOLO 实现。现在我想为我自己的数据集重新训练其中任何一个,比如交通信号。如何从 pascal voc 中重新训练 SSD 数据?有人可以帮忙吗
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。 这个问题似乎与 help center 中定义的范围内的编程无关。 . 已关闭 2 年前。 已锁定。这个问题
我正在开发一个应用程序,其中有大量数据不断写入 ram,我试图从 ram 中快速读取数据,并将其写入 NVMe SSD,写入完成后,我重新排队 ram允许它被写入的空间。 我目前的问题是数据无限期地连
Closed. This question is off-topic. It is not currently accepting answers. Learn more。 想改进这个问题吗?Upda
我确定的是: 我在 Linux 上使用 Java/Eclipse,并尝试在磁盘上分别存储大量 16/32 字节的键/值对。 key 是完全随机的,由 SecureRandom 生成。 速度恒定在约 5
我正在用 Rust 编写一个工具,它需要根据当前文件系统是 SSD 还是传统硬盘驱动器来改变其功能。 运行时的区别在于,如果文件存在于 SSD 上,与 HDD 相比,将使用更多线程来访问文件,这只会破
我是一名优秀的程序员,十分优秀!