Jeder, der schon einmal versucht hat, eine familiengroße Menge Gepäck in einen Kofferraum in der Größe einer Limousine zu packen, weiß, dass dies ein schwieriges Problem ist. Auch Roboter haben mit dichten Packaufgaben zu kämpfen.
Für den Roboter bedeutet die Lösung des Packproblems, dass er viele Auflagen erfüllt, etwa das Gepäck so zu stapeln, dass Koffer nicht aus dem Kofferraum kippen, schwere Gegenstände nicht auf leichtere Gegenstände gelegt werden und Kollisionen zwischen dem Roboterarm und der Stoßstange des Autos vermieden werden werden vermieden.
Einige traditionelle Methoden gehen dieses Problem sequentiell an, indem sie eine Teillösung erraten, die jeweils eine Einschränkung erfüllt, und dann prüfen, ob andere Einschränkungen verletzt wurden. Bei einer langen Abfolge von Aktionen und einem Haufen Gepäck, das gepackt werden muss, kann dieser Vorgang unpraktisch zeitaufwändig sein.
MIT-Forscher verwendeten eine Form generativer KI, ein sogenanntes Diffusionsmodell, um dieses Problem effizienter zu lösen. Ihre Methode nutzt eine Sammlung maschineller Lernmodelle, von denen jedes darauf trainiert ist, eine bestimmte Art von Einschränkung darzustellen. Diese Modelle werden kombiniert, um globale Lösungen für das Packungsproblem zu generieren, wobei alle Randbedingungen gleichzeitig berücksichtigt werden.
Ihre Methode war in der Lage, wirksame Lösungen schneller als andere Techniken zu generieren, und sie führte in der gleichen Zeit zu einer größeren Anzahl erfolgreicher Lösungen. Wichtig ist, dass ihre Technik auch in der Lage war, Probleme mit neuartigen Kombinationen von Einschränkungen und einer größeren Anzahl von Objekten zu lösen, die die Modelle während des Trainings nicht sahen.
Aufgrund dieser Verallgemeinerbarkeit kann ihre Technik verwendet werden, um Robotern beizubringen, die allgemeinen Einschränkungen von Packproblemen zu verstehen und zu erfüllen, wie z. B. die Bedeutung der Vermeidung von Kollisionen oder den Wunsch, dass ein Objekt neben einem anderen Objekt liegt. Auf diese Weise trainierte Roboter könnten für eine Vielzahl komplexer Aufgaben in unterschiedlichen Umgebungen eingesetzt werden, von der Auftragsabwicklung in einem Lagerhaus bis zur Organisation eines Bücherregals bei jemandem zu Hause.
„Meine Vision ist es, Roboter dazu zu bringen, kompliziertere Aufgaben zu erledigen, die vielen geometrischen Einschränkungen unterliegen und kontinuierlichere Entscheidungen treffen müssen – das sind die Probleme, mit denen Serviceroboter in unserer unstrukturierten und vielfältigen menschlichen Umgebung konfrontiert sind. Mit dem leistungsstarken Werkzeug der Kompositionsdiffusionsmodelle können wir nun diese komplexeren Probleme lösen und großartige Verallgemeinerungsergebnisse erzielen“, sagt Zhutian Yang, ein Doktorand der Elektrotechnik und Informatik und Hauptautor einer Arbeit über diese neue Technik des maschinellen Lernens.
Zu ihren Co-Autoren gehören die MIT-Absolventen Jiayuan Mao und Yilun Du; Jiajun Wu, Assistenzprofessor für Informatik an der Stanford University; Joshua B. Tenenbaum, Professor am Department of Brain and Cognitive Sciences des MIT und Mitglied des Computer Science and Artificial Intelligence Laboratory (CSAIL); Tomás Lozano-Pérez, MIT-Professor für Informatik und Ingenieurwesen und Mitglied von CSAIL; und leitender Autor Leslie Kaelbling, Panasonic-Professorin für Informatik und Ingenieurwesen am MIT und Mitglied von CSAIL. Die Forschung wird auf der Konferenz zum Thema Roboterlernen vorgestellt.
Komplikationen bei Einschränkungen
Kontinuierliche Probleme mit der Erfüllung von Einschränkungen stellen für Roboter eine besondere Herausforderung dar. Diese Probleme treten bei mehrstufigen Robotermanipulationsaufgaben auf, etwa beim Verpacken von Gegenständen in eine Kiste oder beim Eindecken eines Esstisches. Dabei geht es oft darum, eine Reihe von Einschränkungen zu erfüllen, darunter auch geometrische Einschränkungen, wie etwa die Vermeidung von Kollisionen zwischen dem Roboterarm und der Umgebung; physische Einschränkungen, wie z. B. das Stapeln von Objekten, damit diese stabil sind; und qualitative Einschränkungen, wie zum Beispiel die Platzierung eines Löffels rechts neben einem Messer.
Es kann viele Einschränkungen geben, die je nach Problem und Umgebung variieren und von der Geometrie der Objekte und den vom Menschen vorgegebenen Anforderungen abhängen.
Um diese Probleme effizient zu lösen, entwickelten die MIT-Forscher eine maschinelle Lerntechnik namens Diffusion-CCSP. Diffusionsmodelle lernen, neue Datenproben zu generieren, die Proben in einem Trainingsdatensatz ähneln, indem sie ihre Ausgabe iterativ verfeinern.
Dazu erlernen Diffusionsmodelle eine Vorgehensweise, um kleine Verbesserungen an einer potenziellen Lösung vorzunehmen. Um ein Problem zu lösen, beginnen sie mit einer zufälligen, sehr schlechten Lösung und verbessern diese dann schrittweise.
Stellen Sie sich zum Beispiel vor, dass Sie Teller und Utensilien zufällig auf einem simulierten Tisch platzieren, sodass sie sich physisch überlappen. Die kollisionsfreien Beschränkungen zwischen Objekten führen dazu, dass sie sich gegenseitig wegstoßen, während qualitative Beschränkungen den Teller in die Mitte ziehen, die Salatgabel und die Menügabel ausrichten usw.
Diffusionsmodelle eignen sich gut für diese Art von kontinuierlichem Problem der Erfüllung von Einschränkungen, da die Einflüsse mehrerer Modelle auf die Pose eines Objekts so zusammengesetzt werden können, dass die Erfüllung aller Einschränkungen gefördert wird, erklärt Yang. Indem die Modelle jedes Mal von einer zufälligen anfänglichen Schätzung ausgehen, können sie vielfältige gute Lösungen erhalten.
Zusammen arbeiten
Für Diffusion-CCSP wollten die Forscher die Vernetzung der Einschränkungen erfassen. Beim Packen könnte eine Einschränkung beispielsweise erfordern, dass sich ein bestimmtes Objekt neben einem anderen Objekt befindet, während eine zweite Einschränkung angeben könnte, wo sich eines dieser Objekte befinden muss.
Diffusion-CCSP lernt eine Familie von Diffusionsmodellen, eines für jeden Einschränkungstyp. Die Modelle werden gemeinsam trainiert, sodass sie einiges an Wissen austauschen, beispielsweise über die Geometrie der zu verpackenden Objekte.
Die Modelle arbeiten dann zusammen, um Lösungen zu finden, in diesem Fall Orte für die zu platzierenden Objekte, die gemeinsam die Einschränkungen erfüllen.
„Wir kommen nicht immer auf den ersten Blick zu einer Lösung. Aber wenn Sie die Lösung weiter verfeinern und es zu einem Verstoß kommt, sollte dies zu einer besseren Lösung führen. Man bekommt Orientierung, wenn man etwas falsch macht“, sagt sie.
Das Trainieren einzelner Modelle für jeden Einschränkungstyp und das anschließende Kombinieren dieser Modelle zur Erstellung von Vorhersagen reduziert die Menge der erforderlichen Trainingsdaten im Vergleich zu anderen Ansätzen erheblich.
Das Training dieser Modelle erfordert jedoch immer noch eine große Datenmenge, die gelöste Probleme aufzeigt. Menschen müssten jedes Problem mit traditionellen, langsamen Methoden lösen, was die Kosten für die Generierung solcher Daten unerschwinglich mache, sagt Yang.
Stattdessen kehrten die Forscher den Prozess um, indem sie zuerst Lösungen erarbeiteten. Mithilfe schneller Algorithmen generierten sie segmentierte Boxen und fügten in jedes Segment eine Vielzahl unterschiedlicher 3D-Objekte ein, um eine dichte Packung, stabile Posen und kollisionsfreie Lösungen zu gewährleisten.
„Mit diesem Verfahren erfolgt die Datengenerierung in der Simulation nahezu augenblicklich. Wir können Zehntausende Umgebungen schaffen, in denen wir wissen, dass die Probleme lösbar sind“, sagt sie.
Mithilfe dieser Daten trainiert, arbeiten die Diffusionsmodelle zusammen, um die Positionen zu bestimmen, an denen Objekte vom Robotergreifer platziert werden sollten, der die Packaufgabe erfüllt und gleichzeitig alle Einschränkungen erfüllt.
Sie führten Machbarkeitsstudien durch und demonstrierten dann Diffusion-CCSP mit einem echten Roboter, der eine Reihe schwieriger Probleme löste, darunter das Einpassen von 2D-Dreiecken in eine Box, das Packen von 2D-Formen mit räumlichen Beziehungsbeschränkungen, das Stapeln von 3D-Objekten mit Stabilitätsbeschränkungen und das Packen von 3D-Objekten mit ein Roboterarm.
Ihre Methode übertraf in vielen Experimenten andere Techniken und führte zu einer größeren Anzahl effektiver Lösungen, die sowohl stabil als auch kollisionsfrei waren.
In Zukunft wollen Yang und ihre Mitarbeiter Diffusion-CCSP in komplizierteren Situationen testen, beispielsweise mit Robotern, die sich durch einen Raum bewegen können. Sie möchten Diffusion-CCSP auch in die Lage versetzen, Probleme in verschiedenen Bereichen anzugehen, ohne dass eine Umschulung auf neue Daten erforderlich ist.
„Diffusion-CCSP ist eine Lösung für maschinelles Lernen, die auf vorhandenen leistungsstarken generativen Modellen aufbaut“, sagt Danfei Xu, Assistenzprofessor an der School of Interactive Computing am Georgia Institute of Technology und Forschungswissenschaftler bei NVIDIA AI, der nicht beteiligt war mit dieser Arbeit. „Es kann schnell Lösungen generieren, die mehrere Einschränkungen gleichzeitig erfüllen, indem es bekannte individuelle Einschränkungsmodelle zusammenstellt. Obwohl es sich noch in einem frühen Entwicklungsstadium befindet, versprechen die laufenden Fortschritte dieses Ansatzes, effizientere, sicherere und zuverlässigere autonome Systeme in verschiedenen Anwendungen zu ermöglichen.“
Diese Forschung wurde teilweise von der National Science Foundation, dem Air Force Office of Scientific Research, dem Office of Naval Research, dem MIT-IBM Watson AI Lab, dem MIT Quest for Intelligence, dem Center for Brains, Minds usw. finanziert Machines, Boston Dynamics Artificial Intelligence Institute, das Stanford Institute for Human-Centered Artificial Intelligence, Analog Devices, JPMorgan Chase and Co. und Salesforce.
Quelle: MiT
Recent Comments