Il settore della tecnologia di sorveglianza oggi è sotto i riflettori, ma non per le migliori ragioni. Con polemiche sull’immigrazione e sulle dogane degli Stati Uniti accedendo alla rete di telecamere di Flock per sorvegliare le persone, e il produttore di telecamere domestiche Ring attira critiche per la creazione di nuove funzionalità che consentirebbero alle forze dell’ordine di chiedere ai proprietari di casa filmati dei loro quartieri, attualmente c’è un ampio dibattito sulla sicurezza, sulla privateness e su chi può guardare chi.
Ma le controversie non cancellano i mercati, e il continuo miglioramento dei modelli di visione e linguaggio non ha fatto altro che soffiare più vento nelle vele delle aziende che stanno costruendo nuovi modi per aiutare le aziende a monitorare ciò che accade nelle loro sedi.
Secondo Matan Goldner, co-fondatore e CEO della startup di videosorveglianza Contornol’etica relativa a questo argomento è abbastanza importante da spingerlo a dire che la sua azienda è piuttosto esigente riguardo ai clienti a cui vendere. Ciò potrebbe non sembrare un buon senso degli affari per una startup avviata da appena due anni, ma Goldner afferma che può permettersi di farlo perché Conntour ha già diversi grandi clienti governativi e quotati in borsa, uno dei quali è il Central Narcotics Bureau di Singapore.
“Il fatto di avere clienti così grandi ci permette di selezionarli e di mantenere il controllo […] Abbiamo davvero il controllo su chi lo utilizza, qual è il caso d’uso e possiamo selezionare ciò che riteniamo sia morale e, ovviamente, legale. Usiamo tutto il nostro giudizio e prendiamo decisioni in base a clienti specifici che ci vanno bene [to work with] perché sappiamo come lo useranno”, ha detto Goldner a TechCrunch in un’intervista esclusiva.
Questa trazione ha aiutato Conntour non solo advert essere selettivo. Gli investitori hanno preso nota: la startup ha recentemente raccolto un spherical di avviamento da 7 milioni di dollari da Common Catalyst, Y Combinator, SV Angel e Liquid 2 Ventures.
Goldner ha detto che il spherical si è concluso entro 72 ore. “Penso di aver programmato circa 90 riunioni in circa otto giorni, e subito dopo tre giorni abbiamo iniziato lunedì e mercoledì pomeriggio avevamo finito”, ha detto.
Indipendentemente da ciò, Conntour potrebbe avere ragione nell’essere pignolo, soprattutto considerando quanto sono diventati potenti gli strumenti di intelligenza artificiale in questo ambito. La piattaforma video dell’azienda utilizza modelli di intelligenza artificiale per consentire al personale di sicurezza di interrogare i feed delle telecamere utilizzando il linguaggio naturale per trovare qualsiasi oggetto, persona o situazione nel filmato, in tempo reale: un motore di ricerca simile a Google creato appositamente per i feed video di sicurezza. Può anche monitorare e rilevare autonomamente le minacce in base a regole preimpostate e generare avvisi automaticamente.
A differenza dei sistemi legacy che dipendono da definizioni o parametri preimpostati per rilevare oggetti, modelli di movimento o comportamenti specifici, Conntour afferma che il suo sistema utilizza modelli di linguaggio naturale e visivo, che gli conferiscono un alto grado di flessibilità e usabilità. Un utente può chiedere: “Trova esempi di qualcuno in scarpe da ginnastica che passa una borsa nell’atrio” e il sistema di Conntour cercherà rapidamente tutti i filmati registrati o i feed video in diretta per restituire risultati pertinenti.
E poiché la piattaforma utilizza modelli di intelligenza artificiale, gli utenti possono semplicemente porre domande sul filmato e ottenere risposte in formato testo, accompagnate dai feed video pertinenti, nonché generare rapporti sugli incidenti.
Il punto di forza dell’azienda, tuttavia, è la sua scalabilità. Goldner ha spiegato che la piattaforma differisce principalmente da altri servizi di ricerca video AI perché è progettata per adattarsi in modo efficiente a sistemi che comprendono migliaia di feed di telecamere. In effetti, ha affermato, il sistema di Conntour può monitorare fino a 50 telecamere alimentate da una singola GPU client come l’RTX 4090 di Nvidia.
L’azienda fa questo utilizzando più modelli e sistemi logici e quindi identificando quali modelli e sistemi l’algoritmo dovrebbe utilizzare per ciascuna question per richiedere la quantità minima di potenza di calcolo e fornire agli utenti i migliori risultati.
Conntour afferma che il suo sistema può essere distribuito completamente in locale, completamente sul cloud o con un combine di entrambi. Può collegarsi alla maggior parte dei sistemi di sicurezza già in uso o fungere autonomamente da piattaforma di sorveglianza completa.
Ma nel settore della videosorveglianza esiste da tempo un problema: la qualità della sorveglianza è tanto buona quanto lo è il filmato catturato. Advert esempio, è difficile distinguere i dettagli dalle riprese di un parcheggio poco illuminato, riprese da una telecamera a bassa risoluzione con una lente sporca.
Goldner afferma che Conntour si tutela da questa inevitabilità fornendo un punteggio di confidenza insieme ai risultati della ricerca. Se la fonte del feed della telecamera non è di qualità sufficientemente buona, il sistema restituirà risultati con livelli di confidenza bassi.
Guardando al futuro, Goldner afferma che il problema tecnico più grande da risolvere è portare l’intero livello di capacità LLM nel suo sistema mantenendone l’efficienza.
“Abbiamo due cose che vogliamo fare contemporaneamente e si contraddicono a vicenda. Da un lato, vogliamo fornire la massima flessibilità del linguaggio naturale, in stile LLM, per consentirti di chiedere qualsiasi cosa. E dall’altro c’è efficienza, quindi vogliamo fare in modo che utilizzi pochissime risorse, perché, ancora una volta, l’elaborazione [thousands] di feed è semplicemente pazzesco. Questa contraddizione è la più grande barriera tecnica e il problema tecnico nel nostro spazio, e ciò su cui stiamo lavorando davvero, davvero duramente per risolverlo.












