Storage & I/O Plan: Maximale Fabric-Effizienz

Beseitigung von Daten-Engpässen

Ein moderner GPU-Cluster ist nur so schnell wie sein langsamster Datenpfad. Unser Plan fokussiert sich auf die Eliminierung von Latenzen, um Ihre Investition in Blackwell- oder Quantum-Simulationen voll auszuschöpfen. Wir setzen auf eine Non-Blocking-Fabric (InfiniBand NDR / Spectrum-X), die East-West-Traffic ohne Kollisionen garantiert.

1. Durchsatz-Kalkulation (The Math)

Um 32 Blackwell GPUs (4 HGX Nodes) ohne „Data Starvation“ zu betreiben, berechnen wir folgende Anforderungen:

Theoretischer Peak-Bedarf: $$32 \times 50 \, \text{GB/s} = \mathbf{1.600 \, \text{GB/s} \, (1,6 \, \text{TB/s})}$$
Realistischer Trainings-Bedarf: Sustained 80–100 GB/s für LLM-Datenstreaming.
Checkpointing: Um 5,76 TB HBM3e in < 60s zu sichern, benötigen wir ~100 GB/s Schreibgeschwindigkeit.

2. Hardware-Design: Tiering Plan

Wir entwerfen eine Architektur, die den Lebenszyklus Ihrer Daten versteht:

Tier 0: Local Scratch

8x 15.36 TB Gen5 NVMe SSDs pro Node. Ultraschneller lokaler Cache für Epochen-Daten (~100 GB/s Read pro Node).

Tier 1: Central All-Flash

Zentrales Cluster (WEKA/VAST) mit NDR 400G InfiniBand Anbindung. Aggregierter Durchsatz >250 GB/s.

3. Fabric-Design: GPUDirect Storage

Durch den Einsatz von RDMA (Remote Direct Memory Access) fließen Daten direkt vom Storage in den GPU-Speicher – unter vollständiger Umgehung der CPU.

Vorteil: Die CPU-Last sinkt um bis zu 80%, während der Durchsatz um den Faktor 2x bis 4x steigt.

Infrastructure Summary

Fabric	400G InfiniBand NDR
Storage	All-Flash Parallel FS
Protocol	GPUDirect Storage
SSD Tier	NVMe Gen5 (RAID 0)

Orchestrierungs-Modell

Ideal für LLM Training & Quantum Simulation. Bietet volle Kontrolle über die Topologie.

Perfekt für Inferenz, Jupyter-Notebooks und Microservices via MIG.

Topology-Aware Scheduling

Bin-Packing & Rail-Optimized Placement verhindern Latenzsprünge zwischen GPU-Ranks.

Rail-Optimized Network Topologie

Für einen Cluster mit 32 Blackwell-GPUs (4 Nodes) ist eine physische Trennung von Rechen- und Speicherverkehr essenziell:

Compute Fabric: 2x NVIDIA Quantum-2 NDR Switches für GPU-to-GPU Traffic.
Storage Fabric: Dedicated 400G Pfad pro GPU zum Storage-Cluster.
Adaptive Routing: Dynamische Lastverteilung zur Vermeidung von Paket-Kollisionen.

Real-time Telemetrie

Tracking von Durchsatz & I/O-Wait via Prometheus/Grafana.

Congestion Control

Hardware-basiertes Victim Marking verhindert Fabric-Slowdowns.

Fair-Share Scheduling

Garantierte GPU-Stunden-Kontingente pro Projektgruppe.

Malgukke Computing

STRATEGIC PLAN: Storage & I/O

Beseitigung von Daten-Engpässen

1. Durchsatz-Kalkulation (The Math)

2. Hardware-Design: Tiering Plan

Tier 0: Local Scratch

Tier 1: Central All-Flash

3. Fabric-Design: GPUDirect Storage

Infrastructure Summary

Orchestrierungs-Modell

Topology-Aware Scheduling

Rail-Optimized Network Topologie

Real-time Telemetrie

Congestion Control

Fair-Share Scheduling

STRATEGIC PLAN: Storage & I/O

Beseitigung von Daten-Engpässen

1. Durchsatz-Kalkulation (The Math)

2. Hardware-Design: Tiering Plan

Tier 0: Local Scratch

Tier 1: Central All-Flash

3. Fabric-Design: GPUDirect Storage

Infrastructure Summary

Orchestrierungs-Modell

Slurm (HPC Engine)

Kubernetes (Agile AI)

Topology-Aware Scheduling

Rail-Optimized Network Topologie

Real-time Telemetrie

Congestion Control

Fair-Share Scheduling