Aleph Alpha und Graphcore zeigen zu 80% sparsifiziertes KI-Modell

Aleph Alpha und unser Partner Graphcore stellen einen bedeutenden Fortschritt in der KI-Recheneffizienz vor: die Sparsifizierung eines Modells mit 13 Mrd. Parametern auf nur 2,6 Mrd. Parameter.

Aleph Alpha und unser Partner Graphcore stellen einen bedeutenden Fortschritt in der KI-Recheneffizienz vor: die Sparsifizierung eines Modells mit 13 Mrd. Parametern auf nur 2,6 Mrd. Parameter. Die fortgeschrittene Technik, die rund 80% der Modellgewichte entfernt und dabei den Großteil der Fähigkeiten erhält, nutzt die Unterstützung der IPU für punktdünne Matrixmultiplikationen – ein Merkmal ihrer eigens für KI entwickelten Architektur. Die beiden Unternehmen haben auf der SC22 in Texas eine sparsifizierte Variante von Aleph Alphas kommerziellem Luminous-Chatbot präsentiert. Luminous Base Sparse benötigt nur 20% der Verarbeitungs-FLOPs und 44% des Speichers seines dichten Pendants. Entscheidend ist: Seine 2,6 Mrd. Parameter passen vollständig in den ultraschnellen On-Chip-Speicher eines IPU-POD16 Classic und maximieren so die Performance.

Parameter-Pruning

Die meisten KI-Anwendungen setzen heute dichte Modelle ein, bei denen alle Parameter dieselbe Repräsentation und Rechenleistung erhalten – unabhängig davon, ob sie zum Modellverhalten beitragen oder nicht. Dadurch werden wertvolle Verarbeitungszeit und Speicher für Parameter aufgewendet, die keinen Einfluss haben. Aleph Alpha und Graphcore konnten 80% der weniger relevanten Gewichte ‚prunen‘ und das Luminous-Modell ausschließlich mit den wichtigen Gewichten neu trainieren – diese wurden im Compressed-Sparse-Row-Format (CSR) dargestellt.

Der erforderliche Inferenz-Rechenaufwand sank auf 20% des dichten Modells, während sich der Speicherbedarf auf 44% reduzierte – etwas zusätzliche Kapazität wird benötigt, um sowohl Positions- als auch Wertinformationen für die verbleibenden Nicht-Null-Parameter zu speichern. Das sparsifizierte Modell hat zudem einen 38% geringeren Energiebedarf als sein dichtes Pendant.

Wesentliche Effizienz

Sparsifizierung gilt als wichtiges Gegengewicht zum exponentiellen Wachstum von KI-Modellgrößen und dem damit verbundenen Anstieg des Rechenbedarfs. Viele Fortschritte bei den Fähigkeiten von Sprach-, Vision- und multimodalen Modellen wurden durch Skalierung getrieben. Trainingsrechenaufwand wächst jedoch ungefähr quadratisch mit der Parameteranzahl – die Kosten steigen und stellen die Nachhaltigkeit des Betriebs und der Skalierung immer größerer KI-Lösungen infrage.

Für die nächste Generation von Modellen mit Fähigkeiten, die noch weiter in den Rändern der Verteilung liegen, wird Sparsifizierung entscheidend werden: Sie ermöglicht hochspezialisierte Sub-Modelle, die dedizierte Wissensbereiche effizient beherrschen. Techniken wie grobgranulare Sparsity oder Selektivität bieten das Potenzial, weiterhin schnelle Fortschritte mit nachhaltigem, linearem Wachstum des Rechenaufwands zu erzielen. Ein solch deutlicher Abwärtsdruck auf den Rechenbedarf der KI erweitert auch das kommerzielle Potenzial von KI-Startups wie Aleph Alpha, die hochleistungsfähige Modelle mit minimalem Rechenaufwand für Kund:innen bereitstellen können.

Autor: Steve Barlow (Graphcore)

Ursprünglich veröffentlicht hier.