FSD musi się nauczyć jeżdżenia samochodem. Dla człowieka: trywialna sprawa. Dla elektroniki i oprogramowania: niezwykle złożone zagadnienie. A mimo tego robi ona gigantyczne postępy z kwartału na kwartał. Żeby dojść do tego poziomu, człowiek korzysta z garnituru systemów i mechanizmów, które zaczęły się kształtować miliardy lat temu. Oto paradoks Moraveca.
Paradoks Moraveca mówi, w dużym uproszczeniu, że to, co człowiekowi wydaje się proste, intuicyjne, załatwiane bez myślenia, będzie bardzo trudne dla komputerów czy elektroniki. To z kolei, co wymaga pewnego umysłowego wysiłku, będzie dość łatwe. Uchwycenie szklanki ze stołu? Trudne. Gra w szachy? Łatwe. Rozpoznanie kota na zdjęciu? Trudne. Walczenie z setką przeciwników w grze komputerowej? Łatwe. I tak dalej. Możecie poczytać o tym w Wikipedii.
FSD uczy się tak, że licznik lat rozgrzewa się do czerwoności
Spis treści
Gdy mówię o „liczniku”, mam na myśli coś w stylu tego, co widać w prawym dolnym rogu na teledysku do utworu Fatboy Slima (abstrahując od poprawności tych liczb):
Człowiek uczy się jeździć samochodem raptem kilka miesięcy. Na początku ciężko mu ogarnąć, że musi równocześnie redukować bieg, włączać kierunkowskaz, przyglądać się znakom i sygnalizacji czy kontrolować szybkość auta. Gdy kursant wolno przyswaja wiedzę, prędzej czy później uczący go instruktor powie mu, że „Kompletnie nie myśli”.
Nas wspomagają miliardy lat ewolucji
Instruktor powie tak, bo nie zna paradoksu Moraveca. On nie dostrzega, że ten kursant prawdopodobnie myśli za dużo, usiłuje pamiętać i świadomie czuwać nad wszystkim – i dlatego mózg mu się przytyka, przestaje nadążać z działaniami. Zupełnie odwrotnie jest u wyćwiczonego kierowcy, co zauważycie przyglądając się komuś z boku: jeśli respektuje on przepisy, na widok znaczącego ograniczenia szybkości zrobi wszystko, żeby auto zwolniło do liczby widocznej na znaku (+VAT 😉 ).
Gdy samochód zwolni, spytajcie go, jakie konkretnie było ograniczenie. On je widział, odczytał, zareagował na nie, bo jego samochód jedzie właśnie tyle, ile on uważa za stosowne. On ten odcinek drogi ma przećwiczony, więc wie, na ile sobie może pozwolić. Ale do przypomnienia sobie tej konkretnej liczy ze znaku będzie potrzebował chwili zastanowienia, pracy umysłowej.
Automatyka zadziałała bez myślenia, werbalizacja wymaga sięgnięcia do różnych źródeł i zgrania kilku mechanizmów: analizy zagadnienia (Pamiętasz, jakie było ostatnie ograniczenie?), zbudowania algorytmu odpowiedzi, przewinięcia pamięci krótkotrwałej, przypomnienia sobie słów na opisanie „50” oraz sposobów na ich werbalizację.
Elektronika bazuje na miliardach operacji obliczeniowych na sekundę
Każdy komputer potrafi miliony razy lepiej, szybciej i precyzyjniej niż człowiek ocenić, czy dwa ciała znajdują się na kursach kolizyjnych. Wystarczy dać mu współrzędne, objętości i wektory, trochę policzyć, gotowe. No, może nie jest to bardzo proste, ale obliczeniowo jest to dość proste. Tak jak z grą w szachy: superkomputer Deep Blue pokonał arcymistrza szachowego Garriego Kasparowa w 1997 roku. Miał kilkukrotnie mniejszą moc obliczeniową niż laptop, który w tej właśnie chwili spoczywa na moim biurku.
Pies jest pogrzebany w tym „wystarczy dać mu współrzędne, …” Gdy problem jest zadany („sprawdź możliwość kolizji rakiety X z Ziemią”), dane liczbowe są na miejscu. Gdy ulicę wygenerujemy sobie na komputerze, tenże komputer bez problemu uniknie zderzeń z innymi uczestnikami ruchu, bo będzie miał wszystkie jego parametry:
Sęk w tym, że przy jeździe samochodem tych współrzędnych, objętości, wektorów, ogólnie: LICZB nie ma. Trzeba wyinterpretować je z rzeczywistego świata i trzeba to zrobić szybko, bo przecież marne 36 km/h to 10 metrów pokonywane w ciągu sekundy! Aż skóra na plecach cierpnie, gdy człowiek pomyśli, że pierwsza wersja Autopilota Tesli na procesorach ogólnego zastosowania była w stanie przeanalizować 1,5 ramki na sekundę. To tak, jakby jechać z zamkniętymi oczami i otwierać je na moment co 2/3 sekundy. Nie róbcie tego na autostradzie, gdy w każdej sekundzie przejeżdżacie 35 metrów!
Nasz mózg w każdej chwili i w trybie ciągłym, bez zamieniania myśli na słowa, analizuje otaczający nas świat i zdarza mu się reagować zanim zdążymy pomyśleć. Obsługują to wytrenowane szlaki nerwowe oraz ośrodki kojarzenia, które nasi przodkowe udoskonalali przez setki milionów lat:
Coś (drapieżnik, przeszkoda, cokolwiek) niespodziewanego pojawia się w polu widzenia z prawej? Spójrz tam albo odskakuj!
Albo:
Bosa stopa nastąpiła na kamień? Ugnij kolano i jak najszybciej podeprzyj się drugą, żeby zminimalizować obrażenia!
Sztuczna inteligencja Tesli nie tylko się uczy. Ona właśnie produkuje wirtualny organ do jeżdżenia samochodem
Te wszystkie prace nad oprogramowaniem i sprzętem FSD, które obserwujemy w Tesli i które rozpoczęły się zaledwie kilka lat temu, to próba nauczenia komputera sztuczek, z którymi my się rodzimy. W naszym oku wstępna obróbka danych wizualnych odbywa się już na siatkówce. Komputer FSD dostaje surowy strumień bitów z kamer – i niech sobie radzi.
Można wesprzeć go radarem – i hop, kilkadziesiąt milionów lat do przodu. Dorzućmy mu testowo lidar, by wyskoczył w przód o 200 milionów lat w dwa tygodnie. Ale to elektronika, komputer, sztuczna inteligencja musi się nauczyć, które ścieżki wzmacniać, a które osłabiać, żeby poprawnie rozumieć świat i bezpiecznie prowadzić samochód. Musi umieć poskładać obrazy z różnych kamer, z których każda inaczej zniekształca obraz:
I robi to. Dziś, teraz, na naszych oczach, nawet gdy jej twórcy śpią. Zużywa megawatogodziny energii, żeby posiąść jakże trywialną sztukę prowadzenia samochodu. A właściwie: żeby wytworzyć elektroniczny organ potrafiący prowadzić samochód.
Mam wrażenie, że my, ludzie, nazwalibyśmy dziś ten organ „mózgiem”, ale dla sztucznej inteligencji za, powiedzmy, 20-30 lat, to będzie coś na kształt… czy ja wiem… wyrostka robaczkowego? Ot, jedna z funkcji znacznie większego i bardziej skomplikowanego układu, który w każdej sekundzie patrzy na świat milionami oczu.
Licznik lat rozgrzał się do czerwoności, tak pędzi. Kiedy patrzę na to, co po kilku latach potrafi FSD beta 9.1, boję się myśleć, czego nauczy się za kolejne 5 lat: