POTENZIAL-
ANALYSE
Unternehmen erzählen
ihre Geschichte
Anwendung von Deep-Learning-Algorithmen
Unfallprävention im Umfeld eines Brückenkrans mit KI – Kamerabasierte Personenerkennung
DER ANLASS
In der gewerblichen Wirtschaft spielen Brückenkrane eine zentrale Rolle beim innerbetrieblichen Transport von Lasten. Dabei treten in verschiedenen Phasen des Transports mechanische Gefährdungen auf. Eine besondere Gefährdung geht vom Schrägzug beim Anschlagen der Last aus, der ein Pendeln oder Rotieren der Last verursacht. Externe Störeinflüsse können jedoch durch Regelsysteme für einen sicheren Kranbetrieb kompensiert werden. Mit dem Wunsch nach einer Analyse der Idee einer automatischen Personenerkennung als möglicher Bestandteil einer Kollisionsvermeidung wandte sich Kilian Pößel, Softwareingenieur bei der Polarith GmbH, an das Mittelstand-Digital Zentrum Magdeburg.
DIE LÖSUNG
In einem vergangenen Mini-Projekt wurde bereits ein Konzept zur Sammlung von Farb- und Tiefendaten (RGBD) einer einzelnen Kamera erstellt. Nach der Datenvorbereitung analysierte Herr Pößel im Rahmen seiner Masterarbeit und im Austausch mit Mitarbeitenden der Polarith GmbH und der KI-Trainerin des Mittelstand-Digital Zentrums Magdeburg, Frau Juliane Höbel-Müller, das Potenzial einer Deep Learning-basierten Personenerkennung in relativ niedrig aufgelösten RGBD-Bildern. Dazu wurden vortrainierte tiefe neuronale Faltungsnetzwerke wie das Faster R-CNN und das Sparse R-CNN verwendet. Unterschiedliche Bildmodalitäten, Beleuchtungsarten und Orte von Personen im Bild wurden im Hinblick auf die Leistung der Personenerkennung untersucht.
Personen wurden in RGB-Bildern besser erkannt als in HSV- und Tiefenbildern. Die Erkennung erschien erwartungsgemäß unter künstlichen Lichtverhältnissen leichter als unter natürlichen Lichtverhältnissen. Personen in der Peripherie von RGB-Bildern wurden etwas besser erkannt als Personen in der Bildmitte. Umgekehrt wurden Personen in der Mitte von Tiefenbildern besser erkannt.
DAS HAT ES GEKOSTET
Im Rahmen einer Potenzialanalyse wurden Deep-Learning-Algorithmen zur automatischen Erkennung von Personen in Bildern recherchiert. Ausgewählte Verfahren wurden auf verschiedene Aspekte hin untersucht. Die Deep-Learning-Anwendung erforderte das „Etikettieren“ tausender Bilder für das Training der Modelle und eine GPU für die schnelle Verarbeitung der Daten. Zu Demonstrationszwecken wurden das Open-Source-Werkzeug „FiftyOne“[1] und das kommerzielle Werkzeug „CVAT“[2], in einer Basisversion kostenlos, verwendet. Die Deep Learning-Modelle wurden mithilfe des frei verfügbaren Werkzeugs „MMDetection“ feinjustiert und nachtrainiert. Das Projekt fand im Rahmen der Masterarbeit von Herrn Pößel an der Otto-von-Guericke-Universität Magdeburg statt.
DAS WÜRDE DAS UNTERNEHMEN NICHT WIEDER MACHEN
Konkrete negative Erfahrungen hat das Unternehmen nicht gemacht. Herr Pößel möchte aber alle UmsetzerInnen darauf hinweisen, dass Optimierungen und Anpassungen langwierig sein können, wenn viele Hyper-Parameter eines KI-Modells ineinandergreifen. Die Fehlersuche bei Modellanpassungen und Ergänzungen mit eigenem Code in komplexen, mehrstufig aufeinander aufbauenden Frameworks kann sehr aufwendig sein. Auch scheinbar einfache Fehler können viel Zeit bis zur Lösung beanspruchen.
DAS HAT DEM UNTERNEHMEN SEHR GEHOLFEN
Der fachliche Austausch mit Forschenden und FachexpertInnen im Bereich des maschinellen Lernens und der Neuronalen Netze hat viele Ansätze und Verbesserungspotenziale aufgezeigt. Fertige Modelle aus Frameworks wie MMDetection haben sich bei der Erstellung eines Software-Prototypens als hilfreich herausgestellt. Die anfängliche Einarbeitungszeit und das Verstehen der Komponenten sollte jedoch nicht unterschätzt werden.