Uno dei maggiori problemi con i sistemi di guida autonoma è che possono vedere perfettamente la strada e tuttavia prendere decisioni incerte a breve termine nel disordinato traffico cittadino. I sistemi avanzati faticano a tenere il passo con situazioni stradali complesse e mutevoli. Ma un nuovo studio sostiene che queste auto non necessitano di una vista migliore, ma di una memoria migliore.
Nel documento sottoposto a revisione paritaria TENUTO (Previsione migliorata delle conoscenze delle traiettorie da fotogrammi di guida consecutivi con modelli di linguaggio visivo)ricercatori dell’Università di Tongji e collaboratori hanno sviluppato un sistema che aiuta i veicoli autonomi a “ricordare” le scene di guida passate prima di scegliere cosa fare dopo.
Come funziona questa nuova tecnologia di guida autonoma?
Il metodo, chiamato KEPT, utilizza il video della telecamera frontale, lo confronta con un’ampia libreria di precedenti clip di guida nel mondo reale e quindi prevede una traiettoria più sicura a breve termine basata sia sulla scena attuale che su esempi recuperati dal passato. L’thought di base è piuttosto intuitiva. Invece di chiedere a un modello di intelligenza artificiale di reagire a ogni situazione come se non avesse mai visto nulla di simile prima, KEPT gli consente di ricordare momenti simili dei viaggi precedenti.
Questi esempi vengono poi inseriti in un modello di linguaggio visivo come parte di un processo di ragionamento strutturato. Ciò è importante poiché i ricercatori affermano che i modelli di linguaggio visivo di grandi dimensioni possono altrimenti creare allucinazioni, ignorare i vincoli fisici o suggerire movimenti che sembrano plausibili sulla carta ma non sono eccezionali per un’auto reale. Quindi KEPT agisce fondamentalmente come un guardrail per mantenere il modello ancorato a come apparivano situazioni di traffico simili nel mondo reale.

È migliore dei sistemi autonomi convenzionali?
I ricercatori hanno testato KEPT sul benchmark nuScenes, ampiamente utilizzato, e hanno affermato che ha sovraperformato sia i sistemi di pianificazione end-to-end convenzionali sia i più recenti pianificatori basati sul linguaggio di visione su parametri a ciclo aperto. È riuscito anche a ridurre gli errori di previsione e advert abbassare i potenziali indicatori di collisione, pur mantenendo il recupero sufficientemente veloce da rimanere pratico per la guida in tempo reale.
Ciò potrebbe farla sembrare una scelta ovvia per le auto a guida autonoma di prossima generazione, ma non è ancora pronta per la strada. Tuttavia, l’thought più ampia è convincente. Se le auto autonome riuscissero a combinare la percezione in tempo reale con un ricordo significativo di come si sono svolte situazioni simili in precedenza, potrebbero finire per prendere decisioni meno fragili e più simili a quelle umane.











