Was Tesla da wahrscheinlich im Wesentlichen macht ist, nach Vorverarbeitung / Segmentierung der Videodaten in einzelne Teilberreiche, das ganze per neuronalem Netz matchen zu lassen, um den Segmenten Bedeutung zuzuweisen. Das wäre das sogenannte Labeling, Also einfach einen oder mehrere Begriffe an die Sachen dranzuschreiben, die das Netz meint erkann zu haben. Gelegentlich (zufällig?), wenn so ein Ding gelabelt wurde, schicken sie das ans Mutterschiff, damit verifiziert werden kann, dass es auch sowas ist. Ob nur zur Kontrolle oder noch zum anlernen, kann ich nicht beurteilen. Das ist so ungefähr das, was ich aus dem Forenpost entnehme.
Ich gehe eigentlich davon aus, das Tesla mehr als das hat, wenn da seit ein paar Jahren etliche Leute dran arbeiten. Das wäre ziemlich dünn und wahrscheinlich auch von einer Handvoll Leute mit OpenCV zu machen (eine freie Computervision-Library) Vielleicht ist euch ja mal aufgefallen, das man bei Google-Captchas seit mehreren Jahren immer öfter Bilder vorgesetzt bekommt. Straßenschilder, Tiere, Häuserfronten usw. Da wird quasi dem Internetnutzer die verbleibende manuelle Arbeit aufgedrückt, die entsprechenden Bilder zu labeln, weil so ein menschlicher visueller Cortex immer noch das beste verfügbare neuronale Netz zum Erkennen von Dingen ist. Das was an Labeling-Fähigkeiten aus dem Forenpost rauszulesen ist, entspricht etwas dem, was ich aus dem Studium noch kenne. Das ist mehr als 10 Jahre her, ging damals aber (auf unseren Rechner) noch nicht wirklich mit Echtzeitvideo.
Das meiste davon ist übrigens auch kein großes Geheimnis. Unten ist ein Beispiel, wo jemand einen neuen kantenbasierten Algorithmus vorstellt, der solches Labeling mit dem Großteil des Bildes macht. In dem Fall ist das besondere wohl, dass sie die Objekte nicht fix zuordnen lassen, sondern die Kategorien sich überlappen können. Denke ich zumindest nach erstem Überfliegen. Im Zweifelsfall detektiert das also einen Straßenschildhund, den man nicht besser nicht überfahren sollte, weil er mit 63%iger Wahrscheinlichkeit hart ist und das Auto kaputt geht. :-D
Da siehst du auch in der Beschreibung, dass sie das als Paper einreichen und auf Konferenzen vorstellen. Die Algorithmen selbst sind fast immer Gemeingut. Die Datenbasis, die Erfahrung, das verfügbare Geld, die Teamgröße, Infrastruktur und so weiter würde ich da als ausschlaggebender einschätzen. Es ist auch schwierig sowas geheimzuhalten, da man eigentlich nur einen vom anderen Team abwerben muss und der das Know-How wie der neue Ansatz arbeitet einfach mitbringt.
CASENet: Deep Category-Aware Semantic Edge Detection
Accepted to IEEE Conf. on Computer Vision & Pattern Recognition (CVPR) 2017
https://www.youtube.com/watch?v=BNE1hAP6Qho
|