Im Wettlauf um eine größere und bessere KI entwickelt das Lincoln Laboratory Möglichkeiten, den Energieverbrauch zu reduzieren, effizient zu trainieren und den Energieverbrauch transparent zu machen.
Bei der Suche nach Flügen auf Google ist Ihnen vielleicht aufgefallen, dass jetzt neben den Kosten für jeden Flug auch die geschätzten CO2-Emissionen angezeigt werden. Dies ist eine Möglichkeit, Kunden über ihre Auswirkungen auf die Umwelt zu informieren und ihnen die Möglichkeit zu geben, diese Informationen in ihre Entscheidungsfindung einzubeziehen.
Eine vergleichbare Art von Transparenz gibt es für die Computerindustrie noch nicht, obwohl ihr CO2-Ausstoß den der gesamten Luftfahrtindustrie übersteigt. Dieser Energiebedarf lässt sich durch Modelle der künstlichen Intelligenz steigern. Riesige, beliebte Modelle wie ChatGPT signalisieren einen Trend zu groß angelegter künstlicher Intelligenz und verstärken Prognosen, denen zufolge Rechenzentren bis 2030 bis zu 21 Prozent der weltweiten Stromversorgung decken werden.
Das MIT Lincoln Laboratory Supercomputing Center (LLSC) entwickelt Techniken, um Rechenzentren dabei zu helfen, ihren Energieverbrauch zu senken. Ihre Techniken reichen von einfachen, aber effektiven Änderungen, wie z. B. Hardware zur Leistungsbegrenzung, bis hin zur Einführung neuartiger Tools, die das KI-Training frühzeitig stoppen können. Entscheidend ist, dass sie herausgefunden haben, dass diese Techniken nur minimale Auswirkungen auf die Modellleistung haben.
Im Großen und Ganzen mobilisiert ihre Arbeit die Green-Computing-Forschung und fördert eine Kultur der Transparenz. „Energiebewusstes Rechnen ist eigentlich kein Forschungsgebiet, weil jeder an seinen Daten festhält“, sagt Vijay Gadepally, leitender Mitarbeiter am LLSC, der energiebewusste Forschungsbemühungen leitet. „Jemand muss anfangen, und wir hoffen, dass andere folgen.“
Strom drosseln und abkühlen
Wie viele Rechenzentren verzeichnete auch das LLSC einen deutlichen Anstieg der Anzahl der auf seiner Hardware ausgeführten KI-Jobs. Da sie einen Anstieg des Energieverbrauchs bemerkten, waren Informatiker am LLSC neugierig auf Möglichkeiten, Aufgaben effizienter zu erledigen. Green Computing ist ein Prinzip des Zentrums, das vollständig mit kohlenstofffreier Energie betrieben wird.
Das Training eines KI-Modells – der Prozess, durch den es Muster aus riesigen Datensätzen lernt – erfordert den Einsatz von Grafikprozessoren (GPUs), bei denen es sich um stromhungrige Hardware handelt. Beispielsweise verbrauchen die GPUs, die GPT-3 (den Vorläufer von ChatGPT) trainierten, schätzungsweise 1.300 Megawattstunden Strom, was etwa dem Stromverbrauch von 1.450 durchschnittlichen US-Haushalten pro Monat entspricht.
Während sich die meisten Menschen wegen ihrer Rechenleistung für GPUs entscheiden, bieten die Hersteller Möglichkeiten an, die Menge an Strom zu begrenzen, die eine GPU verbrauchen darf. „Wir haben die Auswirkungen der Leistungsbegrenzung untersucht und festgestellt, dass wir den Energieverbrauch je nach Modell um etwa 12 bis 15 Prozent senken können“, sagt Siddharth Samsi, Forscher am LLSC.
Der Kompromiss für die Begrenzung der Leistung besteht darin, die Aufgabenzeit zu erhöhen – GPUs benötigen etwa 3 Prozent länger, um eine Aufgabe zu erledigen, ein Anstieg, der laut Gadepally „kaum spürbar“ ist, wenn man bedenkt, dass Modelle oft über Tage oder sogar Monate trainiert werden. In einem ihrer Experimente, in denen sie das beliebte BERT-Sprachmodell trainierten, führte die Begrenzung der GPU-Leistung auf 150 Watt zu einer Verlängerung der Trainingszeit um zwei Stunden (von 80 auf 82 Stunden), sparte aber das Äquivalent einer Woche Energie für einen US-Haushalt.
Anschließend entwickelte das Team eine Software, die diese Leistungsbegrenzungsfunktion in das weit verbreitete Zeitplanersystem Slurm integriert. Mit der Software können Besitzer von Rechenzentren Grenzwerte für ihr gesamtes System oder für jeden einzelnen Auftrag festlegen.
„Wir können diesen Eingriff heute durchführen, und das haben wir in allen unseren Systemen getan“, sagt Gadepally.
Es sind auch Nebenvorteile entstanden. Seit der Einführung von Leistungsbeschränkungen laufen die GPUs der LLSC-Supercomputer etwa 30 Grad Fahrenheit kühler und bei einer gleichmäßigeren Temperatur, was die Belastung des Kühlsystems verringert. Der Betrieb des Hardwarekühlers kann möglicherweise auch die Zuverlässigkeit und Lebensdauer erhöhen. Sie können nun erwägen, den Kauf neuer Hardware zu verzögern – und damit den „verkörperten Kohlenstoff“ des Zentrums oder die bei der Herstellung der Ausrüstung entstehenden Emissionen zu reduzieren –, bis die durch den Einsatz neuer Hardware erzielten Effizienzgewinne diesen Aspekt des CO2-Fußabdrucks ausgleichen. Sie finden auch Möglichkeiten, den Kühlbedarf zu reduzieren, indem sie Aufträge strategisch so planen, dass sie nachts und in den Wintermonaten ausgeführt werden.
„Rechenzentren können diese einfach zu implementierenden Ansätze heute nutzen, um die Effizienz zu steigern, ohne dass Änderungen am Code oder an der Infrastruktur erforderlich sind“, sagt Gadepally.
Es kann zeitaufwändig sein, den Betrieb eines Rechenzentrums ganzheitlich zu betrachten, um Möglichkeiten zur Einsparung zu finden. Um diesen Prozess für andere zu vereinfachen, hat das Team – in Zusammenarbeit mit Professor Devesh Tiwari und Baolin Li von der Northeastern University – kürzlich ein umfassendes Rahmenwerk zur Analyse des CO2-Fußabdrucks von Hochleistungsrechnersystemen entwickelt und veröffentlicht. Systempraktiker können dieses Analyse-Framework nutzen, um ein besseres Verständnis dafür zu erlangen, wie nachhaltig ihr aktuelles System ist, und um Änderungen für Systeme der nächsten Generation in Betracht zu ziehen.
Anpassen, wie Modelle trainiert und verwendet werden
Neben Anpassungen am Rechenzentrumsbetrieb erarbeitet das Team Möglichkeiten, die Entwicklung von KI-Modellen effizienter zu gestalten.
Beim Training von Modellen konzentrieren sich KI-Entwickler oft auf Impression
Sie zeichnen sich durch hohe Genauigkeit aus und bauen als Ausgangspunkt auf früheren Modellen auf. Um die gewünschte Ausgabe zu erzielen, müssen sie herausfinden, welche Parameter sie verwenden müssen. Um es richtig zu machen, müssen Tausende von Konfigurationen getestet werden. Dieser als Hyperparameteroptimierung bezeichnete Prozess ist ein Bereich, den LLSC-Forscher für geeignet befunden haben, Energieverschwendung zu reduzieren.
„Wir haben ein Modell entwickelt, das im Wesentlichen die Lernrate einer bestimmten Konfiguration untersucht“, sagt Gadepally. Angesichts dieser Rate sagt ihr Modell die wahrscheinliche Leistung voraus. Modelle mit schlechter Leistung werden frühzeitig gestoppt. „Wir können Ihnen frühzeitig eine sehr genaue Schätzung geben, dass das beste Modell unter den Top 10 der 100 laufenden Modelle sein wird“, sagt er.
In ihren Studien führte dieses frühe Anhalten zu dramatischen Einsparungen: eine 80-prozentige Reduzierung des Energieverbrauchs für das Modelltraining. Sie haben diese Technik auf Modelle angewendet, die für Computer Vision, die Verarbeitung natürlicher Sprache und Materialdesignanwendungen entwickelt wurden.
„Meiner Meinung nach hat diese Technik das größte Potenzial, die Art und Weise, wie KI-Modelle trainiert werden, voranzutreiben“, sagt Gadepally.
Training ist nur ein Teil der Emissionen eines KI-Modells. Der größte Faktor für die Emissionen im Laufe der Zeit ist die Modellinferenz oder der Prozess der Live-Ausführung des Modells, beispielsweise wenn ein Benutzer mit ChatGPT chattet. Um schnell reagieren zu können, verwenden diese Modelle redundante Hardware, die ständig läuft und darauf wartet, dass ein Benutzer eine Frage stellt.
Eine Möglichkeit zur Verbesserung der Inferenzeffizienz besteht darin, die am besten geeignete Hardware zu verwenden. Ebenfalls zusammen mit der Northeastern University entwickelte das Team einen Optimierer, der ein Modell mit dem kohlenstoffeffizientesten Hardware-Mix abgleicht, z. B. Hochleistungs-GPUs für die rechenintensiven Teile der Inferenz und Zentraleinheiten (CPUs) mit geringem Stromverbrauch für die weniger -anspruchsvolle Aspekte. Diese Arbeit wurde kürzlich beim International ACM Symposium on High-Performance Parallel and Distributed Computing mit dem Best Paper Award ausgezeichnet.
Durch die Verwendung dieses Optimierers kann der Energieverbrauch um 10 bis 20 Prozent gesenkt werden, während gleichzeitig das gleiche „Servicequalitätsziel“ (wie schnell das Modell reagieren kann) erreicht wird.
Dieses Tool ist besonders hilfreich für Cloud-Kunden, die Systeme von Rechenzentren leasen und die Hardware aus Tausenden von Optionen auswählen müssen. „Die meisten Kunden überschätzen, was sie brauchen; sie entscheiden sich für überleistungsfähige Hardware, nur weil sie es nicht besser wissen“, sagt Gadepally.
Wachsendes Bewusstsein für umweltfreundliches Computing
Die durch die Umsetzung dieser Maßnahmen eingesparte Energie reduziert auch die damit verbundenen Kosten für die Entwicklung von KI, oft im Verhältnis eins zu eins. Tatsächlich werden die Kosten normalerweise als Indikator für den Energieverbrauch verwendet. Warum investieren angesichts dieser Einsparungen nicht mehr Rechenzentren in umweltfreundliche Techniken?
„Ich denke, es handelt sich eher um ein Problem der Anreiz-Fehlausrichtung“, sagt Samsi. „Es gab einen solchen Wettlauf um den Bau größerer und besserer Modelle, dass fast alle zweitrangigen Überlegungen beiseite geschoben wurden.“
Sie weisen darauf hin, dass einige Rechenzentren zwar Gutschriften für erneuerbare Energien kaufen, diese jedoch nicht ausreichen, um den wachsenden Energiebedarf zu decken. Der Großteil des Stroms, der Rechenzentren mit Strom versorgt, stammt aus fossilen Brennstoffen, und das zur Kühlung verwendete Wasser trägt zu überlasteten Wassereinzugsgebieten bei.
Es besteht möglicherweise auch Zurückhaltung, weil keine systematischen Studien zu Energiespartechniken durchgeführt wurden. Aus diesem Grund hat das Team seine Forschung neben Open-Source-Repositories auch an von Experten begutachteten Orten vorangetrieben. Einige große Branchenakteure wie Google DeepMind haben maschinelles Lernen eingesetzt, um die Effizienz von Rechenzentren zu steigern, haben ihre Arbeit jedoch nicht anderen zur Bereitstellung oder Replikation zur Verfügung gestellt.
Führende KI-Konferenzen drängen nun auf Ethikerklärungen, die berücksichtigen, wie KI missbraucht werden könnte. Das Team sieht den Klimaaspekt als ein Thema der KI-Ethik, dem bisher noch wenig Aufmerksamkeit geschenkt wurde, aber auch dies scheint sich langsam zu ändern. Einige Forscher legen jetzt den CO2-Fußabdruck des Trainings der neuesten Modelle offen, und auch die Industrie zeigt einen Wandel in der Energietransparenz, wie in diesem aktuellen Bericht von Meta AI.
Sie erkennen auch an, dass Transparenz ohne Tools, die KI-Entwicklern ihren Verbrauch zeigen können, schwierig ist. Die Berichterstattung steht auf der LLSC-Roadmap für dieses Jahr. Sie möchten in der Lage sein, jedem LLSC-Benutzer für jeden Job zu zeigen, wie viel Energie er verbraucht und wie dieser Betrag im Vergleich zu anderen aussieht, ähnlich wie bei Energieberichten für Privathaushalte.
Ein Teil dieser Bemühungen erfordert eine engere Zusammenarbeit mit Hardwareherstellern, um die Erfassung dieser Daten von der Hardware einfacher und genauer zu gestalten. Wenn Hersteller die Art und Weise, wie die Daten ausgelesen werden, standardisieren können, können Energiespar- und Reporting-Tools auf verschiedenen Hardwareplattformen eingesetzt werden. Zwischen den LLSC-Forschern und Intel ist eine Zusammenarbeit im Gange, um genau dieses Problem zu lösen.
Selbst KI-Entwickler, die sich des hohen Energiebedarfs von KI bewusst sind, können allein nicht viel tun, um diesen Energieverbrauch einzudämmen. Das LLSC-Team möchte andere Rechenzentren bei der Umsetzung dieser Maßnahmen unterstützen und den Benutzern energiebewusste Optionen bieten. Ihre erste Partnerschaft besteht mit der U.S. Air Force,
ein Sponsor dieser Forschung, die Tausende von Rechenzentren betreibt. Die Anwendung dieser Techniken kann den Energieverbrauch und die Kosten erheblich senken.
„Wir legen die Kontrolle in die Hände von KI-Entwicklern, die ihren Fußabdruck verringern wollen“, sagt Gadepally. „Muss ich aussichtslose Modelle wirklich unentgeltlich trainieren? Bin ich bereit, meine GPUs langsamer laufen zu lassen, um Energie zu sparen? Unseres Wissens gibt es in keinem anderen Supercomputing-Zentrum die Möglichkeit, diese Optionen in Betracht zu ziehen. Mit unseren Tools können Sie heute entscheiden.“
Besuchen Sie diese Webseite, um die Veröffentlichungen der Gruppe zum Thema energiebewusstes Rechnen und die in diesem Artikel beschriebenen Ergebnisse anzuzeigen.
Quelle: MiT
Recent Comments