STRATEGIC PLAN: Storage & I/O

Maximale Fabric-Effizienz: Feeding the Zettascale Era.

Beseitigung von Daten-Engpässen

Ein moderner GPU-Cluster ist nur so schnell wie sein langsamster Datenpfad. Unser Plan fokussiert sich auf die Eliminierung von Latenzen, um Ihre Investition in Blackwell- oder Quantum-Simulationen voll auszuschöpfen. Wir setzen auf eine Non-Blocking-Fabric (InfiniBand NDR / Spectrum-X), die East-West-Traffic ohne Kollisionen garantiert.

1. Durchsatz-Kalkulation (The Math)

Um 32 Blackwell GPUs (4 HGX Nodes) ohne „Data Starvation“ zu betreiben, berechnen wir folgende Anforderungen:

  • Theoretischer Peak-Bedarf: $$32 \times 50 \, \text{GB/s} = \mathbf{1.600 \, \text{GB/s} \, (1,6 \, \text{TB/s})}$$
  • Realistischer Trainings-Bedarf: Sustained 80–100 GB/s für LLM-Datenstreaming.
  • Checkpointing: Um 5,76 TB HBM3e in < 60s zu sichern, benötigen wir ~100 GB/s Schreibgeschwindigkeit.

2. Hardware-Design: Tiering Plan

Wir entwerfen eine Architektur, die den Lebenszyklus Ihrer Daten versteht:

Tier 0: Local Scratch

8x 15.36 TB Gen5 NVMe SSDs pro Node. Ultraschneller lokaler Cache für Epochen-Daten (~100 GB/s Read pro Node).

Tier 1: Central All-Flash

Zentrales Cluster (WEKA/VAST) mit NDR 400G InfiniBand Anbindung. Aggregierter Durchsatz >250 GB/s.

3. Fabric-Design: GPUDirect Storage

Durch den Einsatz von RDMA (Remote Direct Memory Access) fließen Daten direkt vom Storage in den GPU-Speicher – unter vollständiger Umgehung der CPU.

Vorteil: Die CPU-Last sinkt um bis zu 80%, während der Durchsatz um den Faktor 2x bis 4x steigt.

Infrastructure Summary


Fabric400G InfiniBand NDR
StorageAll-Flash Parallel FS
ProtocolGPUDirect Storage
SSD TierNVMe Gen5 (RAID 0)
Orchestrierungs-Modell

Ideal für LLM Training & Quantum Simulation. Bietet volle Kontrolle über die Topologie.

Perfekt für Inferenz, Jupyter-Notebooks und Microservices via MIG.
Topology-Aware Scheduling

Bin-Packing & Rail-Optimized Placement verhindern Latenzsprünge zwischen GPU-Ranks.

Rail-Optimized Network Topologie

Für einen Cluster mit 32 Blackwell-GPUs (4 Nodes) ist eine physische Trennung von Rechen- und Speicherverkehr essenziell:

  • Compute Fabric: 2x NVIDIA Quantum-2 NDR Switches für GPU-to-GPU Traffic.
  • Storage Fabric: Dedicated 400G Pfad pro GPU zum Storage-Cluster.
  • Adaptive Routing: Dynamische Lastverteilung zur Vermeidung von Paket-Kollisionen.
Real-time Telemetrie

Tracking von Durchsatz & I/O-Wait via Prometheus/Grafana.

Congestion Control

Hardware-basiertes Victim Marking verhindert Fabric-Slowdowns.

Fair-Share Scheduling

Garantierte GPU-Stunden-Kontingente pro Projektgruppe.