"KI, die aus 2D-Bildern Wahrscheinlichkeiten errechnet und dem Fahrcomputer Empfehlungen gibt."
Das trifft auf Teslas FSD schon länger nicht mehr zu, deine Vorstellung ist veraltet.
Bis etwa 2021 arbeitete man tatsächlich noch mit Modulen: Wahrnehmung -> Klassifikation -> Planung -> Ausführung. Seit FSD Beta 12 ist dieser Stack aber durch ein Ende-zu-Ende-Netz ersetzt worden. Die KI schaut sich die Umgebung an, baut intern ein räumliches Weltmodell auf und simuliert die Entwicklung der Szene - und steuert direkt. Da gibt's keinen 'Fahrcomputer', der nur Tipps bekommt - die KI ist die Entscheidungsinstanz.
Der neue Ansatz Tesla FSD 12+
Die vorverarbeiteten Kamerabilder fließen durch ein riesiges neuronales Netz.
Dieses Netz erzeugt einen 3D-Welt-Zwilling durch Occupancy Network (erkläre ich unten weils so wichtig ist)
Die KI versteht den Raum, die Bewegungen, die Intentionen.
Und: sie gibt nicht Empfehlungen, sondern steuert direkt Lenkung, Gas (ich weiss es ist kein BrumBrum) und Bremse.
keine Trennung zwischen Wahrnehmung und Planung.
keine klassische Objektverfolgung mit Bounding Boxes mehr nötig, nicht als primäre Methode
Und hier die Historie & Ursprung des Occupancy Network-Konzepts:
1. Klassischer Ursprung: 3D-Voxel Grids in Robotik
Schon in der Robotik der 1990er und 2000er Jahre wurden sogenannte Occupancy Grids verwendet - meist basierend auf Lidar.
Diese Grids waren 2D oder 3D-Raster, die angaben, ob ein Bereich im Raum frei, besetzt oder unbekannt war.
Verwendet für Navigation autonomer Roboter.
2. Der Durchbruch: Deep Occupancy Networks (2019)
Die eigentliche Idee, tiefe neuronale Netze für die Belegung von 3D-Räumen zu nutzen, stammt aus einem vielzitierten Paper von Mescheder et al. (2019) mit dem Titel:
"Occupancy Networks: Learning 3D Reconstruction in Function Space"
https://arxiv.org/abs/1812.03828Das war ein Wendepunkt: Statt Voxel hart zu quantisieren, wurde kontinuierlich modelliert, ob ein Punkt im Raum belegt ist.
Anwendungen: 3D-Rekonstruktion aus Bildern, z. B. für Objekterkennung, AR/VR, digitale Zwillinge.
3. Anwendung auf autonome Fahrzeuge
Danach kamen Arbeiten wie:
"Monocular Occupancy Networks" (2020-2021): Rekonstruktion von 3D-Räumen nur aus Kameras, ohne Lidar.
"BEV (Bird's Eye View) Encoding": Umwandlung von Kamera-Sicht in Top-Down-Raumverständnis, entscheidend für Navigation.
Forscher von Waymo, NVIDIA, Argo AI und Tesla experimentierten parallel mit diesen Netztypen.
4. Teslas Umsetzung (2022-2023)
Tesla war der erste OEM, der ein echtes, Echtzeit-fähiges Occupancy Network aus Kameras im Fahrzeugeinsatz zeigte (AI Day 2022).
Besondere Merkmale:
Multiview-Eingang (alle Kameras)
3D-Spatial Understanding in Echtzeit (100 Hz)
Verzicht auf Lidar oder Radar
Integration mit Planning-Modul -> direkte Steuerung möglich
Fazit:
Tesla steht hier an vorderster Entwicklungsfront eines sehr aktiven Forschungsgebiets. Sie haben die Idee von "klassischen" Occupancy Grids weiterentwickelt - und mit Deep Learning, Kamera-only-Perception und High-Performance-Hardware zu einem System gemacht, das auch im Alltag funktioniert.