Stefan Kinauer

Computer Vision: Der Schlüssel zur automatisierten Analyse der visuellen Welt

Computer Vision ist ein Prozess, um die Fähigkeit des Sehens für eine Vielzahl von automatisierten Anwendungen zu nutzen. Unser Computer-Vision-Experte Stefan Kinauer bietet in diesem Beitrag Einblicke in die steigende Relevanz von Computer Vision in den letzten Jahren und die Möglichkeiten des maschinellen Sehens für jambits Kundenbereiche wie etwa Banking & Insurance oder die produzierende Industrie.

Ein Gedankenexperiment zur Erklärung, wie Computer Vision im Prinzip funktioniert: In der Computergrafik wird ein 3D-Modell mit Geometrie und Oberflächeneigenschaften wie etwa Farbe, Reflektivität und Transparenz erzeugt. Dieses wird auf der Basis von Beleuchtungsmodellen und Kameramodellen gerendert und auf einem Bildschirm dargestellt. Maschinelles Sehen bzw. Computer Vision dreht diesen Prozess nun um und schließt vom Bild auf das 3D-Modell bzw. seine Semantik und andere Eingangsgrößen. Alle Informationen, die in die Entstehung des Bildes eingeflossenen sind, können Gegenstand und Ziel von Computer Vision sein.

An die Stelle der Projektion der Welt auf eine 2D-Bildebene tritt die Rekonstruktion der Welt aus einem Bild, also eine Art von inverser Funktion. Neben von Menschen modellierten Zusammenhängen, wie aus einzelnen Informationen ein Gesamtbild entsteht, können neuronale Netze auch Zusammenhänge datengetrieben erschließen. Im „Training“ lernt das Netz, sich aus einer Vielzahl von Bildern und einer vorgegeben Lösung, was in den Bildern zu erkennen ist, ein Modell der Umwelt zu erschließen.

Durchbrüche auf dem Weg zum maschinellen Sehen seit 2012

Durchbruch Computer Vision
Mit der Veröffentlichung von "Imagenet classification with deep convolutional neural networks" (2012) hat Alex Krizhevsky et al. dem Deep Learning zum Durchbruch verholfen. Quelle: https://paperswithcode.com/sota/image-classification-on-imagenet (CC-BY-SA)

Dass Computer Vision-Anwendungen jetzt für den praktischen Einsatz in Unternehmen in Frage kommen, ist die Konsequenz verschiedener Entwicklungen in den letzten Jahren und beruht in größten Teilen auf dem Einsatz von komplexen neuronalen Netzen. Um diese zu trainieren, braucht man erstens große Rechenkapazitäten und zweitens enorme (Trainings-) Datenmengen. Die Entwicklung von Grafikkarten und deren massive Rechenparallelität war hierfür entscheidend. Parallel dazu standen durch das Internet immer mehr Trainingsdaten zur Verfügung. Der Durchbruch für neuronale Netze wurde dann 2012 in der Arbeit von Alex Krizhevsky et al. erzielt, durch die alle Wettbewerber eines Benchmarks bei Weitem übertroffen wurden. Nach diesem Vorbild hat das entsprechende Gebiet, das Deep Learning, große Beliebtheit erfahren.

Was Computer Vision aktuell kann

Durch die bahnbrechenden Erfolge seit 2012 ist der Forschungsbereich um Computer Vision und Machine Learning stark gewachsen und es können immer schneller Fortschritte erzielt werden. Heute ist das allgemeine Klassifizieren des Bildinhaltes oder Erkennen eines Autos im Bildbereich eine Standardaufgabe, die mit frei zugänglichen Bibliotheken gelöst werden kann. Die entwickelten Techniken erlauben es auch, beispielsweise die Automarke auf Basis eines Bildes zu bestimmen oder den Bewegungsablauf eines Menschen in einem Video zu analysieren. Weiterhin ist es möglich, einfache Objektzusammenhänge zu erschließen (z. B. das Buch liegt auf dem Tisch, ein Stuhl steht neben dem Fahrrad, etc.) oder Objekte in allen drei Dimensionen zu rekonstruieren.

In den letzten Jahren kamen populäre generative neuronalen Netzwerke (GANs) auf, mit denen u. a. Bilder manipuliert werden können. Das geschieht etwa durch das Ergänzen von fehlender Bildinformation (Image Inpainting), durch das Verändern oder Hinzufügen von „falschen“ Informationen (sog. Deep Fakes) oder Verändern des Stils eines Gemäldes (Style Transfer). Wo Manipulationen und Veränderungen Menschen täuschen können, müssen Lösungen zur Aufdeckung dieser erarbeitet werden. Daher arbeitet die Forschung parallel dazu auch an der Erkennung solcher Bildmanipulationen.

Impainting Beispiel
"Global and Local Attention-Based Free-Form Image Inpainting, by Uddin et al, '2020"

Bevor diese Ansätze in der Praxis funktionieren, muss der Algorithmus normalerweise auf den konkreten Anwendungsfall und die Charakteristika des Bildmaterials angepasst werden. Für die meisten Aufgaben wird außerdem ein mehr oder weniger großer Datensatz benötigt, an dem für den Algorithmus ersichtlich wird, wie die korrekte „Lösung“ bestimmt werden kann. Besonders in dieser Phase sind in Entwicklungsprojekten der Wissenstransfer und der enge Austausch zwischen Softwaredienstleister und Kunde wichtig. Denn unsere Kunden kennen ihre Domäne meist besser als wir. Daher liegt unser Hauptbeitrag oft in der Anpassung oder Neuerstellung von Algorithmen und deren Training. Manchmal helfen wir aber auch beim Auffinden oder Erstellen von Datensätzen. Und natürlich beraten wir unsere Kunden mit unserer Expertise in Computer Vision und Machine Learning.

Das Potenzial von Computer Vision für den Finanzsektor

Computer Vision kann für Finanzunternehmen aufwändige und bisher händisch stattgefundene Prozesse zur Analyse von computererstellten aber auch handgeschriebenen Dokumenten automatisieren. Analysierte Dokumente können so kategorisiert und an die richtige Kontaktperson weitergeleitet werden. In einem späteren Schritt können mithilfe von Machine Learning Vorhersagen von finanziellen Größen, etwa der Aktienkurse oder der Kreditwürdigkeit eines Unternehmens, getroffen werden. Satellitendaten geben Rückschlüsse auf wirtschaftliche Entwicklungen. Durch die Analyse dieser großen Bilddatenmengen aus dem All können Wachstumsraten von Ländern oder Regionen somit bspw. nicht nur anhand von publizierten Zahlen, sondern durch reale Bilder von Verkehr, Infrastruktur oder Ressourcen belegt werden. Daraus ergeben sich dann wiederum relevante Informationen wie etwa für Investoren.

Potenziale von Computer Vision für die produzierende Industrie

Maschinelles Sehen
Objekterkennung im Straßenverkehr durch Computer Vision

Im Bereich Industrie kann Computer Vision menschliche Tätigkeiten in Produktionsprozessen unterstützen, die in der Vergangenheit sehr zeitaufwändig waren. Computer Vision ermöglicht etwa eine Bauteilrückverfolgung oder ein besseres Qualitätsmonitoring. Auch Inventuren oder die kontinuierliche Abschätzung von Stauraumauslastungen können durch Computer Vision unterstützt werden. Damit können Räumlichkeiten optimal genutzt und ausgelastet und damit hinsichtlich ihres wirtschaftlichen Wertes maximiert werden. Gleichzeitig erhöhen automatisierte Monitoring-Möglichkeiten die Sicherheit von Gebäuden oder von Personen, die sich darin bewegen. Im Bereich der Qualitätskontrolle können Vollständigkeit und Verarbeitungsqualität der bestellten Teile sichergestellt werden, etwa durch die Kontrolle von Schweißnähten. Baustellen können durch Computer Vision hinsichtlich ihres Fortschritts, z. B. durch die Bauleitung, besser betreut werden.

Welche Hardware-Ausstattungen sind notwendig?

Notwendig für die Nutzung von Computer Vision ist eine gewisse Hardwareausstattung. Je nach Anwendung kommen hierbei herkömmliche Kameras oder hochwertige Modelle in Frage. Erstere sind in vielen Fällen ausreichend, z. B. Handy-Kameras. Im industriellen Bereich ist eine höhere Qualität oft angebracht, etwa wenn es um die Analyse von feinen Oberflächenstrukturen oder schnell ablaufende Vorgänge geht. Für Bereichsüberwachung sind Kameras mit Weitwinkellinsen eine Option. In speziellen Anwendungsfällen, wie der Automobilbranche, kommen auch LIDARs zum Einsatz. Auch multispektrale Kameras, um Licht in relevanten Wellenlängen wahrzunehmen, werden beispielsweise in der Landwirtschaft verwendet. Manche Computer-Vision-Algorithmen sind sehr rechenintensiv. Daher ist zudem die Rechenleistung entscheidend, die auf den Chips im Gerät selbst verbaut ist oder in der Cloud zur Verfügung steht. Durch Cloud-Lösungen werden viele Anwendungen zudem skalierbar, da für Unternehmen keine physische Infrastruktur nötig ist.

Welches Profil brauchen Softwaredienstleister, um Kunden im Bereich Computer Vision zu beraten

Stefan Kinauer
Stefan Kinauer, Computer-Vision-Experte bei jambit

Im Leistungsbereich Künstliche Intelligenz versammelt jambit Rollen wie KI-Fachleute, Data Scientists, Big Data Engineers und Research Engineers. In aktuellen Projekten arbeiten jambits Expert*innen mit den Entwicklungsumgebungen Intellij und VS Code. Als Programmiersprachen kommen unter anderem Python und C++ zum Einsatz.

Um Projekte von Kunden zu begleiten, benötigen Expert*innen Kenntnisse im Bereich Machine Learning und ein klares Verständnis für Bildentstehungsprozesse. Außerdem ist eine solide mathematische Basis im Bereich der linearen Algebra, Probabilistik/Statistik und Analysis sowie in Optimierungsverfahren und Datenstrukturen wichtig.

Wir verwenden Cookies, um unsere Webseite für Sie zu optimieren. Mit dem Besuch unserer Webseite erklären Sie sich damit einverstanden. // Our website is using cookies to improve your experience. By continuing to browse the site, you are agreeing to our use of cookies.

Weitere Informationen finden Sie in unserer Datenschutzerklärung. // For more information, please refer to our privacy policy.