STRATEGIC PLAN: Storage & I/O
Maximale Fabric-Effizienz: Feeding the Zettascale Era.
Beseitigung von Daten-Engpässen
Ein moderner GPU-Cluster ist nur so schnell wie sein langsamster Datenpfad. Unser Plan fokussiert sich auf die Eliminierung von Latenzen, um Ihre Investition in Blackwell- oder Quantum-Simulationen voll auszuschöpfen. Wir setzen auf eine Non-Blocking-Fabric (InfiniBand NDR / Spectrum-X), die East-West-Traffic ohne Kollisionen garantiert.
1. Durchsatz-Kalkulation (The Math)
Um 32 Blackwell GPUs (4 HGX Nodes) ohne „Data Starvation“ zu betreiben, berechnen wir folgende Anforderungen:
- Theoretischer Peak-Bedarf: $$32 \times 50 \, \text{GB/s} = \mathbf{1.600 \, \text{GB/s} \, (1,6 \, \text{TB/s})}$$
- Realistischer Trainings-Bedarf: Sustained 80–100 GB/s für LLM-Datenstreaming.
- Checkpointing: Um 5,76 TB HBM3e in < 60s zu sichern, benötigen wir ~100 GB/s Schreibgeschwindigkeit.
2. Hardware-Design: Tiering Plan
Wir entwerfen eine Architektur, die den Lebenszyklus Ihrer Daten versteht:
Tier 0: Local Scratch
8x 15.36 TB Gen5 NVMe SSDs pro Node. Ultraschneller lokaler Cache für Epochen-Daten (~100 GB/s Read pro Node).
Tier 1: Central All-Flash
Zentrales Cluster (WEKA/VAST) mit NDR 400G InfiniBand Anbindung. Aggregierter Durchsatz >250 GB/s.
3. Fabric-Design: GPUDirect Storage
Durch den Einsatz von RDMA (Remote Direct Memory Access) fließen Daten direkt vom Storage in den GPU-Speicher – unter vollständiger Umgehung der CPU.
Infrastructure Summary
| Fabric | 400G InfiniBand NDR |
| Storage | All-Flash Parallel FS |
| Protocol | GPUDirect Storage |
| SSD Tier | NVMe Gen5 (RAID 0) |
Orchestrierungs-Modell
Topology-Aware Scheduling
Bin-Packing & Rail-Optimized Placement verhindern Latenzsprünge zwischen GPU-Ranks.
Rail-Optimized Network Topologie
Für einen Cluster mit 32 Blackwell-GPUs (4 Nodes) ist eine physische Trennung von Rechen- und Speicherverkehr essenziell:
- Compute Fabric: 2x NVIDIA Quantum-2 NDR Switches für GPU-to-GPU Traffic.
- Storage Fabric: Dedicated 400G Pfad pro GPU zum Storage-Cluster.
- Adaptive Routing: Dynamische Lastverteilung zur Vermeidung von Paket-Kollisionen.
Real-time Telemetrie
Tracking von Durchsatz & I/O-Wait via Prometheus/Grafana.
Congestion Control
Hardware-basiertes Victim Marking verhindert Fabric-Slowdowns.
Fair-Share Scheduling
Garantierte GPU-Stunden-Kontingente pro Projektgruppe.