Haker Green (@greentheonly) wraz z Tristanem (@rice_fry) zdołali wyekstrahować z komputera FSD sceny, które widzi sieć neuronowa Tesli w trybie Citystreets, jeszcze niedostępnym w wersji produkcyjnej. To trochę tak, jakbyśmy zajrzeli do naszych mózgów i zdołali wyciągnąć z nich naszą wizję świata na etapie analizy obrazu.
Jak komputer/sieć neuronowa Tesli postrzega świat
Nie przedłużajmy, oto wizualizacja:
A whopping 160×120 grid (so 1/8th of the native camera resolution) but hey those are actual 3D points in space. I don’t know how to make a 3D video, so just visualizing „distance” as „brighter = closer” on the scale of 5 to 62 meters (the actual limit of the output): pic.twitter.com/1XFa5JwOft
— green (@greentheonly) July 7, 2021
Jak informuje Green, sceny analizowane są w trzech wymiarach przestrzennych (3D), a powyżej widzimy tylko płaską (2D) interpretację wyciągniętych z komputera danych. Trzeci wymiar, głębokość sceny, Green przedstawił w postaci jasności obiektów – im coś jest bliżej, tym ma jaśniejszy odcień szarości. Sieć neuronowa komputera FSD Tesli analizuje obiekty na dystansie od 5 do 62 metrów.
Tutaj alternatywna interpretacja głębi. Tamta kojarzy się raczej z wiezioną na dachu latarnią, ta przypomina jazdę we mgle:
And this one is visualizing another axle of points.
The effect is super nice, reminds me of the „Hedgehog in the fog” somewhat: https://t.co/0rCDUbLvQ8 pic.twitter.com/Ivnugy2wby
— green (@greentheonly) July 7, 2021
Rozdzielczość siatki wynosi 160×120 plus głębia. Człowiek bez problemu dostrzeże (zrozumie) na nagraniu jezdnię, inne samochody, drzewa, barierki, znaki. Co interesujące, na wideo pojawia się też poziome echo czegoś, co przypomina przemieszczający się wiadukt. Początkowo są w tym miejscu wiszące nad jezdnią przewody, ale później nie ma już niczego. Green sądzi, że jest to element wprowadzony przez producenta, który ma zapobiegać echu pochodzącemu od przewodu grzejnego stosowanego w starszych Teslach.
Oto powyższe wideo w wersji normalnej, pochodzącej z kamer:
Here’s the corresponding time-synced video to better understand what you are looking at.
Pretty cool actually despite all the limitations. pic.twitter.com/QyQVwQWl07
— green (@greentheonly) July 7, 2021
Obraz 3D to w rzeczywistości wielka chmura punktów wyinterpretowana („wyrozumiana”) z płaskiego obrazu. Przypomina ona mapę świata pochodzącą z lidaru. Nagranie powstało na podstawie jednej tylko kamery, ale komputer mimo tego dostrzega głębię, więc mógł być doszkalany radarem, innymi kamerami czy lidarem.
To tak, jakby człowiek tymczasowo zakrył jedno oko. Nadal będzie potrafił ocenić odległość do obiektów, nie mówiąc już o poprawnej interpretacji tego, co jest jezdnią, samochodem czy słupem elektroenergetycznym:
Warto poczytać i pooglądać: wątek na Twitterze
Nota od redakcji www.elektrowoz.pl: te obrazy i nagrania jasno pokazują, dlaczego Musk od początku wzbraniał się przed lidarami. On sam to powiedział: wytworzenie pewnej chmury punktów to zaledwie część pracy, lidar pozwala na pójście skrótem, ale na tym koniec. Tę chmurę punktów i tak trzeba jeszcze przeanalizować i zrozumieć, żeby odróżnić podwiewaną przez wiatr reklamówkę od betonowej bryły.