Der Malgukke-Leitfaden zur Diagnose und Exascale-Vorbereitung
Überprüfen Sie die Synergie Ihrer Komponenten.
Validieren Sie die Konsistenz und Optimierung Ihrer Software-Umgebung.
Effizienz-Audit der Ressourcen-Orchestrierung.
| Kategorie | Werkzeug | Fokus | Link |
|---|---|---|---|
| Log-Forensik | ELK Stack | Analyse historischer Log-Trends. | Besuchen |
| Echtzeit-Telemetrie | Prometheus | Monitoring von Lastspitzen & Metriken. | Besuchen |
| Visualisierung | Grafana | Dashboards für Performance-Daten. | Besuchen |
| Code-Diagnose | Intel VTune | Deep-Dive in CPU/GPU-Bottlenecks. | Besuchen |
| Storage-Stress | IOR / MDtest | Benchmarking von parallelem I/O. | Besuchen |
| Network-Audit | OSU Benchmarks | MPI-Latenz & Bandbreitentests. | Besuchen |
| Phase | Aktion | Ihr Malgukke-Next-Step |
|---|---|---|
| 1. Discovery | Inventur & Drift-Check | Nutzen Sie Ansible für automatisierte Konfigurations-Audits. |
| 2. Profiling | Job-Klassifizierung | Implementieren Sie JobStats zur Workload-Analyse. |
| 3. Gap-Analysis | ROI-Roadmap | Termin für einen Malgukke Architecture Review vereinbaren. |
Ein HPC-Upgrade ohne vorherige Diagnose führt fast immer zu einer Überdimensionierung teurer Komponenten bei gleichzeitiger Vernachlässigung von versteckten Engpässen.
Präzisions-Benchmarking für parallele HPC-Dateisysteme
Hinweis: Ein fehlerhafter I/O-Benchmark misst oft nur den RAM-Cache der Rechenknoten statt der tatsächlichen Storage-Performance. Diese Liste stellt sicher, dass Sie "auf das Blech" schreiben.
| Flag | Parameter | Malgukke-Empfehlung | Grund |
|---|---|---|---|
| -a | API | POSIX oder MPIIO | Standardzugriff vs. MPI-Optimierung. |
| -t | Transfer Size | 1M bis 32M | Große Transfers für sequentiellen Durchsatz. |
| -b | Block Size | 8G+ | Eliminierung von Caching-Effekten. |
| -F | File per Process | Aktivieren | Simuliert parallele Einzeldateien. |
| -C | Reorder Tasks | Aktivieren | Verhindert lokales Cache-Reading. |
| -e | fsync | Aktivieren | Erzwingt physischen Flush vor Messende. |
| Metrik | Zielwert (Erwartet) | Ist-Wert (Gemessen) | Status |
|---|---|---|---|
| Max Write Throughput | [z.B. 10 GB/s] | [ ] | |
| Max Read Throughput | [z.B. 15 GB/s] | [ ] | |
| Latenz (Time to Seek) | [Minimiert] | [ ] |
Haben die IOR-Ergebnisse Ihre Erwartungen unterschritten? Oft liegt der Fehler in der InfiniBand-Konfiguration oder den Lustre Stripe-Counts.