amazon-web-services - AWS Kubernetes 中缺少 NVMe SSD-6ren

amazon-web-services - AWS Kubernetes 中缺少 NVMe SSD

转载作者：行者123 更新时间：2023-12-05 09:05:44

26

4

当 r6gd 实例部署在 Kubernetes 中时，AWS 似乎隐藏了我的 NVMe SSD，该实例是通过以下配置创建的。

# eksctl create cluster -f spot04test00.yaml                                                      
apiVersion: eksctl.io/v1alpha5               
kind: ClusterConfig                          
metadata:                                    
  name: tidb-arm-dev #replace with your cluster name
  region: ap-southeast-1 #replace with your preferred AWS region
nodeGroups:                                  
  - name: tiflash-1a                         
    desiredCapacity: 1                       
    availabilityZones: ["ap-southeast-1a"]   
    instancesDistribution:                   
      instanceTypes: ["r6gd.medium"]         
    privateNetworking: true                  
    labels:                                  
      dedicated: tiflash

正在运行的实例具有 80 GiB EBS gp3 block 和零 NVMe SSD 存储，如图 1 所示。

为什么亚马逊将 59GiB NVMe 换成 80GiB EBS gp3 存储？

我的 NVMe 磁盘哪里去了？

即使我使用非托管节点组预分配临时存储，它仍然显示 80 GiB EBS 存储(图 1)。
如果我使用 AWS Web UI 启动一个新的 r6gd 实例，它会清楚地显示附加的 NVMe SSD(图 2)

经过进一步实验，我们发现 80 GiB EBS 卷作为“临时”资源附加到 r6gd.medium、r6g.medium、r6gd.large、r6g.large 实例，无论实例大小如何。

eksctl describe nodes:

Capacity:
  attachable-volumes-aws-ebs:  39
  cpu:                         2
  ephemeral-storage:           83864556Ki
  hugepages-2Mi:               0
  memory:                      16307140Ki
  pods:                        29
Allocatable:
  attachable-volumes-aws-ebs:  39
  cpu:                         2
  ephemeral-storage:           77289574682
  hugepages-2Mi:               0
  memory:                      16204740Ki
  pods:                        29

Capacity:
  attachable-volumes-aws-ebs:  39
  cpu:                         2
  ephemeral-storage:           83864556Ki
  hugepages-2Mi:               0
  memory:                      16307140Ki
  pods:                        29
Allocatable:
  attachable-volumes-aws-ebs:  39
  cpu:                         2
  ephemeral-storage:           77289574682
  hugepages-2Mi:               0
  memory:                      16204740Ki
  pods:                        29

等待在 Kubernetes 中成功使用 NVMe SSD 的人指点。

最佳答案

解决了我的问题，这是我的经验教训:

默认情况下，NVMe 不会显示在实例中(无论是在 AWS 网络控制台中还是在 VM 的终端中)，但可以作为/dev/nvme1 访问。是的，您需要格式化并挂载它们。对于单个 VM，这很简单，但是对于 k8s，您需要刻意格式化它们才能使用它们。
可以使用 kubernetes 配置文件中的设置覆盖 80GB
要在 k8s 中使用虚拟机附加的 NVMe，您需要在设置 k8s 节点时运行这 2 个额外的 kubernetes 服务。如果您使用的是 ARM64 VM，请记住修改 2 个服务的 yaml 文件以使用 ARM64 图像:
一个。 storage-local-static-provisioner
- ARM64 图像:jasonxh/local-volume-provisioner:latest
eks-nvme-ssd-provisioner
- ARM64镜像:zhangguiyu/eks-nvme-ssd-provisioner
NVMe 永远不会作为您的 k8s 集群的临时存储的一部分出现。该临时存储描述了您附加到每个 VM 的 EBS 卷。从那以后，我将我的 EBS 限制为 20GB。
当您键入 kubectl get pvc 时，PV 将显示:
以下 TiDB 节点配置文件副本供引用:

kubectl 获取 pvc

  guiyu@mi:~/dst/bin$ kubectl get pv
  NAME                CAPACITY   ACCESS MODES   RECLAIM POLICY   STATUS   CLAIM                                           STORAGECLASS    REASON   AGE
  local-pv-1a3321d4   107Gi      RWO            Retain           Bound    tidb-cluster-dev/tikv-tidb-arm-dev-tikv-2       local-storage            9d
  local-pv-82e9e739   107Gi      RWO            Retain           Bound    tidb-cluster-dev/pd-tidb-arm-dev-pd-1           local-storage            9d
  local-pv-b9556b9b   107Gi      RWO            Retain           Bound    tidb-cluster-dev/data0-tidb-arm-dev-tiflash-2   local-storage            6d8h
  local-pv-ce6f61f2   107Gi      RWO            Retain           Bound    tidb-cluster-dev/pd-tidb-arm-dev-pd-2           local-storage            9d
  local-pv-da670e42   107Gi      RWO            Retain           Bound    tidb-cluster-dev/tikv-tidb-arm-dev-tikv-3       local-storage            6d8h
  local-pv-f09b19f4   107Gi      RWO            Retain           Bound    tidb-cluster-dev/pd-tidb-arm-dev-pd-0           local-storage            9d
  local-pv-f337849f   107Gi      RWO            Retain           Bound    tidb-cluster-dev/data0-tidb-arm-dev-tiflash-0   local-storage            9d
  local-pv-ff2f11c6   107Gi      RWO            Retain           Bound    tidb-cluster-dev/tikv-tidb-arm-dev-tikv-0       local-storage            9d

pods.yaml

tiflash:
  baseImage: pingcap/tiflash-arm64
  maxFailoverCount: 3
  replicas: 2
  nodeSelector:
    dedicated: tiflash
  tolerations:
  - effect: NoSchedule
    key: dedicated
    operator: Equal
    value: tiflash
  storageClaims:
  - resources:
      requests:
        storage: "100Gi"
    storageClassName: local-storage

eks-setup.yaml

- name: tiflash-1a
  desiredCapacity: 1
  instanceTypes: ["r6gd.large"]
  privateNetworking: true
  availabilityZones: ["ap-southeast-1a"]
  spot: false
  volumeSize: 20      # GiB EBS gp3 3000 IOPS
  volumeType: gp3
  ssh:
      allow: true
      publicKeyPath: '~/dst/etc/data-platform-dev.pub'
  labels:
    dedicated: tiflash

关于amazon-web-services - AWS Kubernetes 中缺少 NVMe SSD，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/66828369/

26

4

0

文章推荐： r - 在 R 中将凌乱的宽数据转换为长数据

文章推荐： c# - 在 API 中使用任务并行库

文章推荐： c - 在 c 中使用 malloc 时的自由变量

文章推荐：清除所有内容的 Docker 命令

kubernetes - 在 GKE 集群中使用 SSD 或本地 SSD
我希望 Kubernetes 在我的 Google Kubernetes 引擎集群中使用本地 SSD，而不使用 alpha 功能。有办法做到这一点吗？预先感谢您的任何建议或帮助。最佳答案 http
python - SSD 和 SSD Lite 有什么区别？？(Tensorflow)
我已经阅读了论文 MobileNetV2(arXiv:1801.04381) 并从 Tensorflow model zoo 运行模型. 我注意到 SSD Lite MobileNetV2 的推理
apache-kafka - Kafka Brokers 的 SSD 还是 HDD？ (为 Kafka 使用 SSD)
Kafka 速度很快，因为它在 HDD 上使用顺序写入技术。如果我为 Kafka Brokers 使用 SSD，我能获得更快的性能吗？据我所知，SSD 的工作方式与 HDD 不同。而且我认为使用
sql - SSD 将聚簇索引和非聚簇索引之间的性能差距缩小了多少？
大多数 SQL 关系数据库都支持表中聚集索引的概念。聚簇索引通常作为 B 树实现，表示给定表中的实际记录，按磁盘/存储上的索引物理排序。这种特殊的聚簇索引的一个优点是，在遍历 B 树搜索一条记录或一组
.net - SSD 驱动器上奇怪的目录删除行为
目录 c:\test 里面有 50 个左右的文件，没有子目录。 If IO.Directory.Exists("C:\test") Then IO.Directory.Dele
disk - 有什么方法可以检测驱动器是否为 SSD？
我准备发布一个只对普通硬盘有效的工具，而不是 SSD(固态硬盘)。事实上，它不应该与 SSD 一起使用，因为它会导致大量读/写而没有实际效果。任何人都知道检测给定驱动器是否为固态的方法？最佳答案
使用快速磁盘存储 (SSD) 进行优化的算法？
鉴于固态硬盘 (SSD) 的价格正在下降，并且很快将作为系统驱动器变得更加普遍，并且鉴于它们的访问率明显高于旋转磁介质，哪些标准算法将通过使用用于本地存储的 SSD？例如，SSD 的高随机读取速度使得
database - SSD 使用对基本数据库假设有何影响？
SSD 现在很普遍； Amazon EBS 由 SSD 支持，因此大多数云数据库现在也运行在 SSD 上(Heroku PostgreSQL 等)。传统上，数据库和相关架构的设计理念是随机访问不好 -
Vultr SSD VPS部署Windows服务器
为什么选择Windows 单击部署后，Vultr云业务流程将接管并在所需的数据中心中旋转实例。 Windows支持的云服务器 Windows Serv
SSD：清华出品，可切换密集稀疏的大模型预训练加速方案|ICML'24
来源：晓飞的算法工程笔记公众号，转载请注明出处论文: Exploring the Benefit of Activation Sparsity in Pre-training
tensorflow - SSD mobilenet 模型无法检测较远距离的物体
我已经用自定义数据集(电池)训练了 SSD Mobilenet 模型。下面给出了电池的示例图像，并附上了我用来训练模型的配置文件。当物体靠近摄像头时(用网络摄像头测试)，它以超过的概率准确检测到物
io - 每秒对 SSD 进行多次小写入是否安全？
我有一个应用程序，它每秒通过网络接收数百个字符串，大约 50 个字节长。我想将这些缓存到 SSD 以进行进一步处理。如果我每秒执行数百 ~50 字节的文件附加写入，SSD 是否安全？我怀疑操作系统可能
batch-file - 我如何知道磁盘是否为 SSD？
我需要创建一个 T 卷，T 已创建，但如果磁盘是 ssd，我还需要一个新的 U 卷，我该怎么做？知道我是否是 SSD 的批处理命令是什么？ [...] set /a VOL_SIZE= %MINSI
tensorflow - Mobilenet SSD 输入图像大小
我想在自定义数据集上训练 Mobilenet SSD 模型。我研究了重新训练模型的工作流程，并注意到配置文件中的 image_resizer{} 块: https://github.com/tens
tensorflow - 如何为我们自己的数据集重新训练 SSD 对象检测模型？
我已经在 tensorflow 中尝试了 SSD 和 YOLO 实现。现在我想为我自己的数据集重新训练其中任何一个，比如交通信号。如何从 pascal voc 中重新训练 SSD 数据？有人可以帮忙吗
machine-learning - 移动网络与 SSD
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。这个问题似乎与 help center 中定义的范围内的编程无关。 . 已关闭 2 年前。已锁定。这个问题
c++ - 如何快速将无限大小的缓冲区写入 NVMe SSD
我正在开发一个应用程序，其中有大量数据不断写入 ram，我试图从 ram 中快速读取数据，并将其写入 NVMe SSD，写入完成后，我重新排队 ram允许它被写入的空间。我目前的问题是数据无限期地连
linux - linux ssd + hdd上的文件访问
Closed. This question is off-topic. It is not currently accepting answers. Learn more。想改进这个问题吗？Upda
java - SSD 上的键/值存储速度极慢
我确定的是: 我在 Linux 上使用 Java/Eclipse，并尝试在磁盘上分别存储大量 16/32 字节的键/值对。 key 是完全随机的，由 SecureRandom 生成。速度恒定在约 5
linux - 确定是否在 SSD 上的跨平台方式？
我正在用 Rust 编写一个工具，它需要根据当前文件系统是 SSD 还是传统硬盘驱动器来改变其功能。运行时的区别在于，如果文件存在于 SSD 上，与 HDD 相比，将使用更多线程来访问文件，这只会破

首页

博学

6Ren·AI

商城

amazon-web-services - AWS Kubernetes 中缺少 NVMe SSD