Maschinelles Lernen und Gesichtserkennung | PXL Vision

12. Mai 2021

header_banner_triangle

Maschinelles Lernen und seine Anwendung auf die Gesichtserkennung

Was ist maschinelles Lernen?

AI, ML, DL auf Deutsch

Maschinelles Lernen (ML) ist ein Teilbereich der künstlichen Intelligenz (KI). Während der Bereich der KI selbst ein weites Feld abdeckt, läuft er im Wesentlichen auf die Simulation menschlicher Intelligenz in Maschinen (Computern) hinaus.

ML beinhaltet die Programmierung von Algorithmen, die von sich selbst lernen und sogar ihre eigenen Vorhersagen treffen können.

ML ermöglicht es Maschinen, aus vergangenen Erfahrungen zu lernen – ähnlich wie Menschen es tun – indem sie ihren Output analysieren und als Input für den nächsten Vorgang verwenden.

ML-Algorithmen lernen aus Daten, um Probleme zu lösen, die zu komplex sind, um sie mit herkömmlicher Programmierung zu lösen.

Deep Learning ist eine Teilmenge des maschinellen Lernens, die sich aus der gleichzeitigen Ausführung mehrerer Schichten von ML-Algorithmen ergibt.

Hinweis: Die Begriffe maschinelles Lernen und Deep Learning werden oft synonym verwendet. Der Großteil des maschinellen Lernens wird heute tatsächlich auf der Ebene des Deep Learning konzipiert.


 

Sind Sie an automatisierten Identitätsprüfungsprozessen für Ihr Unternehmen interessiert? Lassen Sie uns darüber sprechen, wie Gesichtserkennung, passive Liveness Detection und Dokumenten-Scanning in Ihre Geschäftsprozesse integriert werden können: Sicher, schnell und einfach in der Anwendung. Jetzt Demo buchen! 


Eine kurze Geschichte der digitalen Technologie: von Mainframes zum maschinellen Lernen

Um besser zu verstehen, wie künstliche Intelligenz und maschinelles Lernen in die moderne digitale Technologie passen, ist es sinnvoll, die Technologien in einem historischen Kontext zu betrachten.

Die technologische Entwicklung, die uns KI und damit auch maschinelles Lernen beschert hat, lässt sich am besten in einem Diagramm zusammenfassen, das im Bericht „Digital Transformation Initiative“ des Weltwirtschaftsforums und von Accenture veröffentlicht wurde. Das Schaubild (Abbildung 1) skizziert die kombinatorischen Effekte von Technologien: „wo die Fähigkeiten von Technologien, die zusammenarbeiten, weit über das hinausgehen, was sie einzeln erreichen würden“.

tech-waves-auf-Deutsch

Beachten Sie, wie jede neue Technologie wie eine Welle aussieht, die auf der Technologie aufbaut, die vor ihr kam – das ist der kombinatorische Effekt der Technologie.

Die Entstehung von Großrechnern in den 1950er Jahren, angeführt von IBM* und einer Handvoll anderer Unternehmen, machte den Weg frei für den Personal Computer (PC) der 1980er Jahre. Später prägten die Betriebssysteme von Apple und Microsoft den Heim-PC-Markt, der dann die rasante Skalierung des Internets vorantrieb. Das frühe eCommerce-Internet (Web 1.0) war der Vorläufer des heutigen mobilen und Cloud-Computing-Internets (Web 2.0), das Big Data und das Internet der Dinge (Internet of Things, IoT) hervorgebracht hat. Diese Fülle an Daten speist nun die Algorithmen, die in KI und maschinellem Lernen verwendet werden.

Die Kurve, die KI und ML repräsentiert, ist irgendwann um das Jahr 2010 herum abgehoben. Ein Fragezeichen deutet an, dass es nur eine Vermutung ist, wann diese Kurve anfängt zu sinken, aber wenn man von den vorherigen technologischen Sprünge ausgeht, wird die kumulative Fähigkeit der KI- und ML-Technologie immens sein.

* IBM ist nach wie vor ein wichtiger Akteur bei der digitalen Transformation und besonders aktiv im Bereich des maschinellen Lernens (Link zu IBMs Landing Page zum maschinellen Lernen, die eine relativ zugängliche, technische Erklärung des maschinellen Lernens bietet).

Expertensysteme: frühe Vorläufer von KI und ML

Expertensysteme gelten als die direkten Vorfahren von KI und maschinellem Lernen. Während die meisten Darstellungen den Beginn der KI-Forschung auf einen Workshop am Dartmouth College im Jahr 1956 datieren, begann die KI-Forschung ernsthaft in den 1980er Jahren, als sich sogenannte „Expertensysteme“ verbreiteten.

Expertensysteme wurden entwickelt, um komplexe Probleme zu lösen, indem sie durch große Wissensbestände schlussfolgern. Es gab jedoch eine Reihe von Problemen mit diesen Systemen, die verhinderten, dass sie sich zu dieser Zeit durchsetzten.

Erstens benötigten diese Systeme einen menschlichen Experten, um die Wissensbasis bereitzustellen. In vielen Fällen war dies für Unternehmen zu kostspielig, da es ihre Mitarbeiter von ihrer regulären Arbeit abhalten würde. Außerdem fühlten sich einige dieser menschlichen Experten durch die eindringende KI bedroht, da sie glaubten, dass diese den Wert ihrer eigenen Expertise negativ beeinflussen würde.

Zweitens basierten diese Systeme auf der Vorstellung, dass Expertenwissen aus einer Sammlung von Regeln besteht (Wenn-Dann-Anweisungen oder bedingte Berechnungen). Wenn diese Systeme mit einem Problem konfrontiert wurden, für das sie nicht das nötige Wissen hatten, konnten sie das Problem nicht lösen.

Drittens ist Wissen nur ein Teil der Gleichung zur „Intelligenz“. Der andere Teil hängt davon ab, wann und wie man es einsetzt, bzw. wie man es an eine Vielzahl von sich ständig ändernden Situationen anpasst.

Die Dinge sind jetzt eindeutig anders. Die Expertensysteme von gestern haben sich im Wesentlichen in maschinelles Lernen verwandelt, das Daten aus dem Internet nutzen und so programmiert werden kann, dass es aus seinem eigenen Daten-Output lernt.

Maschinelles Lernen in Aktion

Maschinelles Lernen hat bereits zu immensen Veränderungen in unserer Gesellschaft geführt. Wenn Sie jedoch nicht direkt in der Technologiebranche arbeiten oder sich mit dem Thema beschäftigen, ist Ihnen vielleicht nicht klar, in welchem Ausmaß diese Technologie die Gesellschaft verändert hat und weiterhin verändert.

Die Wahrscheinlichkeit, dass Sie derzeit mehrere Produkte oder Dienstleistungen nutzen, die Technologien des maschinellen Lernens einsetzen, ist ziemlich hoch, da eine wachsende Zahl von Unternehmen ML in den unterschiedlichsten Branchen einsetzt.

Netflix

Netflix zum Beispiel nutzt Kundendaten, um vorherzusagen, was das Publikum will. Tatsächlich setzt Netflix die ML-Technologie so effektiv ein, dass sie den Industriestandard der Pilotepisoden nahezu abgeschafft haben. Stattdessen investiert das Unternehmen von Anfang an in mehrere Staffeln neuer Sendungen, von denen es sicher ist, dass sie ein Hit sein werden, weil seine Algorithmen es ihm sagen. Andere Streaming-Medien, von Spotify bis YouTube, verlassen sich ebenfalls stark auf Algorithmen für maschinelles Lernen, um Inhalte zu liefern, die den Vorlieben der Nutzer entsprechen.

Ebenso setzen alle großen Social-Media-Plattformen von Facebook bis Twitter, Instagram und TikTok ML-Algorithmen ein, um mehr von den Inhalten zu liefern, die ihre Nutzer wünschen.

Online-Einkaufsportale wie Amazon nutzen ML-Algorithmen, um andere Dinge zu empfehlen, die Sie vielleicht kaufen möchten, basierend auf Ihren früheren Suchen. Außerdem werden die sich ständig ändernden Preise von Waren auf Amazon und anderen Online-Shops ebenfalls von einem ML-Algorithmus entschieden. Schlaue Käufer werden Artikel in ihren Warenkörben speichern und warten, bis der Preis sinkt. Besonders schlaue Käufer werden Dienste wie camelcamelcamel nutzen, die den Preis von Waren auf Amazon und Co. im Laufe der Zeit anzeigen, und dies zu ihrem Vorteil nutzen.

Die meisten E-Mail-Filterprogramme verwenden ML, um Spam zu stoppen. Chatbots nutzen eine Kombination aus Mustererkennung und natürlicher Sprachverarbeitung, um die Anfrage eines Benutzers zu interpretieren und passende Antworten zu geben. Selbst Hello Barbie verwendete einen ML-Algorithmus, der in der Lage war, seinen Benutzern aus 8.000 verschiedenen Antworten zu antworten. Aufgrund von Datenschutzbedenken wurden die Puppe und der Dienst jedoch eingestellt.

Watson von IBM ist unter Jeopardy-Fans schon lange dafür bekannt, dass er regelmäßig (immer?) gegen die bisherigen Teilnehmer der Show mit den höchsten Punkten gewinnt. Watson wird von einem ML-Algorithmus angetrieben, der es Computern ermöglicht, Text- und Sprachdaten zu verarbeiten und die menschliche Sprache so zu verstehen, wie es Menschen tun. Watson wurde bereits 2010 vorgestellt und dennoch ist den meisten wahrscheinlich noch nicht bewusst, dass im Hintergrund ML-Technologie am Werk war und ist. Heutzutage hat Watson viele weitere Anwendungen außer dem Spielen von Jeopardy.

Ein weiteres großes ML-Projekt sind selbstfahrende Autos, die, wenn sie straßentauglich sind, höchstwahrscheinlich besser fahren werden als Menschen, da KI sich nicht ablenken lässt oder betrinkt. Selbstfahrende Autos nutzen ML, um kontinuierlich Objekte in ihrer Umgebung zu identifizieren, vorherzusagen, wie sich die Objekte bewegen werden, und das Auto um die Objekte herum sowie zum Ziel des Fahrers zu leiten. Wenn wir jetzt nur noch einen Weg finden, die Hacker in Schach zu halten.

Die unzähligen digitalen Assistenten auf dem Markt, wie z. B. Apples Siri, Amazons Alexa und Googles Assistant, nutzen ebenfalls die ML-Verarbeitung natürlicher Sprache.

Die Liste von KI, maschinellem Lernen und ihren Einsatzmöglichkeiten ist unendlich lang und wird täglich erweitert, da immer mehr Anwendungsfälle erdacht und entwickelt werden.

Wie maschinelles Lernen in der Gesichtserkennungstechnologie eingesetzt wird

Die Branche rund um die Gesichtserkennungstechnologie entwickelt sich aufgrund von Fortschritten bei KI-, ML- und Deep-Learning-Technologien schnell weiter. Gesichtserkennung ist eine Technologie, die in der Lage ist, eine Person anhand ihres Gesichts zu erkennen. Sie verwendet maschinelle Lernalgorithmen, die Gesichtsmerkmale finden, erfassen, speichern und analysieren, um sie mit Bildern von Personen in einer bereits vorhandenen Datenbank abzugleichen. Es gibt viele starke Anwendungsfälle für diese Technologie, über die Sie hier in unserem Blog lesen können.

Wie die Technologie der Gesichtserkennung funktioniert, ist ziemlich schwer zu begreifen und eine qualitativ hochwertige Erklärung würde den Rahmen dieses Artikels bei weitem sprengen. Für unsere Zwecke werden wir die vier übergreifenden Probleme betrachten, die eine Maschine lösen muss, um ein Gesicht zu erkennen, nämlich: Erfassung des Gesichts, Ausrichtung des Gesichts, Extrahierung der Gesichtszüge, Erkennung und Verifizierung des Gesichts.

Erfassung des Gesichts – Die Maschine muss zunächst das Gesicht im Bild oder Video lokalisieren. Mittlerweile haben die meisten Kameras eine eingebaute Gesichtserkennungsfunktion. Die Gesichtserkennung wird auch von Snapchat, Facebook und anderen Social-Media-Plattformen verwendet, um den Benutzern die Möglichkeit zu geben, den Fotos und Videos, die sie mit ihren Apps aufnehmen, Effekte hinzuzufügen.

Ausrichtung des Gesichts – Gesichter, die vom Fokuspunkt abgewandt sind, sehen für einen Computer völlig anders aus. Es ist ein Algorithmus erforderlich, um das Gesicht zu normalisieren, damit es mit den Gesichtern in der Datenbank übereinstimmt. Eine Möglichkeit, dies zu erreichen, ist die Verwendung mehrerer allgemeiner Gesichtsmerkmale. Zum Beispiel die Unterseite des Kinns, die Oberseite der Nase, die Außenseiten der Augen, verschiedene Punkte um die Augen und den Mund herum usw. Der nächste Schritt besteht darin, einen ML-Algorithmus zu trainieren, um diese Punkte auf einem beliebigen Gesicht zu finden und das Gesicht in Richtung des Zentrums zu drehen.

Messung von Gesichtszügen und Extrahierung – Dieser Schritt erfordert die Messung und Extrahierung verschiedener Gesichtszüge, die es dem Algorithmus ermöglichen, das Gesicht mit anderen Gesichtern in seiner Datenbank abzugleichen. Es war jedoch zunächst unklar, welche Merkmale gemessen und extrahiert werden sollten, bis die Forscher entdeckten, dass der beste Ansatz darin bestand, den ML-Algorithmus selbst herausfinden zu lassen, welche Messungen zu sammeln sind. Dieser Prozess wird als Einbettung bezeichnet und verwendet tiefe Faltungsneuronale Netze, um sich selbst darauf zu trainieren, mehrere Messungen eines Gesichts zu generieren, die es ihm ermöglichen, das Gesicht von anderen Gesichtern zu unterscheiden.

Erkennung des Gesichts – Unter Verwendung der eindeutigen Messungen jedes Gesichts gleicht ein finaler ML-Algorithmus die Messungen des Gesichts mit bekannten Gesichtern in einer Datenbank ab. Das Gesicht in Ihrer Datenbank, das den Maßen des betreffenden Gesichts am nächsten kommt, wird als Übereinstimmung zurückgegeben.

Verifizierung des Gesichts – Die Verifizierung des Gesichts vergleicht die eindeutigen Eigenschaften eines gegebenen Gesichts mit einem anderen Gesicht. Der ML-Algorithmus gibt einen Vertrauenswert zurück, um zu beurteilen, ob die Gesichter übereinstimmen oder nicht.

Die Gesichtserkennungs- / Verifizierungslösung von PXL Vision

PXL Vision bietet führende Lösungen für die Automatisierung und Verbesserung der digitalen Identitätsprüfung und des Kunden-Onboardings durch maßgeschneiderte Softwarelösungen, die auf den neuesten Entwicklungen im Bereich der künstlichen Intelligenz und maschinellen Lerntechnologien basieren. Das Team verfügt über umfangreiche Erfahrung und Expertise im Aufbau hochkomplexer Machine-Learning-Technologien sowie über die Leidenschaft und das Know-how, diese auf den Markt zu bringen.


Mit einem Experten sprechen

Sind Sie an automatisierten Identitätsprüfungsprozessen für Ihr Unternehmen interessiert? Lassen Sie uns darüber sprechen, wie Gesichtserkennung, passive Liveness Detection und Dokumenten-Scanning in Ihre Geschäftsprozesse integriert werden können: Sicher, schnell und einfach in der Anwendung.


Table of contents

Don’t miss the latest news, trends and insights in digital identity

Related insights

User Experience bei digitaler Identitätprüfung | PXL Vision

Read more

Related posts

Herrausforderungen des digitalen Onboarding Prozess | PXL Vision

Read more

Near-Field Communication in der Praxis | PXL Vision

Read more

User Experience bei digitaler Identitätprüfung | PXL Vision

Read more

Verpassen Sie keine Neuigkeiten, Trends und Einblicke im Bereich digitale Identität