VisionClaw, il super agente AI open-source che elabora simultaneamente video e audio

La maggior parte dei progetti AI che finiscono su GitHub con migliaia di stelle sono spesso delle demo ben confezionate, questa volta però si potrebbe parlare di un progetto che darà inizio a qualcosa di molto interessante nei prossimi mesi ed anni, un po’ come la demo di Devin AI che ha dato il là a tutti i vari strumenti come Claude Code e simili.

VisionClaw: il super agente AI open-source che vede e ascolta in tempo reale

Partiamo da una risposta secca a cos’è visionclaw. In base alla repository ed il paper, cioè la repository GitHub del progetto, VisionClaw è presentato come un assistente AI in tempo reale per gli occhiali smart glasses di Meta Ray-Ban.

Il problema che VisionClaw affronta è preciso. Gli assistenti AI che vedono l’ambiente fisico, come Meta AI sui Ray-Ban o Google Lens, si limitano a rispondere a domande limitate, mentre gli agenti AI che sanno agire, come OpenClaw, non hanno la visione del contesto fisico che li circonda.

VisionClaw collega questi due mondi, è un’app open-source per iOS e Android che trasforma gli occhiali Meta Ray-Ban smart glasses in un assistente AI in tempo reale con voce, visione e capacità di esecuzione.

Architettura tecnica e integrazione con l’ecosistema Google

Se guardiamo agli agenti ai multimodali, la parte interessante non è il fatto che “vedano”, ma che debbano elaborare input diversi nello stesso momento e ricavarne una decisione utile. A supporto arriva proprio Gemini Live API che, a differenza delle API tradizionali dove si invia una richiesta e si riceve una risposta, la comunicazione è continua: stream di audio, video e testo fluiscono in tempo reale, e il modello risponde con la stessa immediatezza.

Per chi volesse approfondire le basi, abbiamo scritto una guida su come usare Google Gemini al meglio.

VisionClaw usa questa API per inviare frame dalla camera degli occhiali e audio dal microfono in simultanea mentre Gemini processa entrambi i flussi insieme, producendo comprensione contestuale dell’ambiente.

Il punto è che tutto il processing avviene sui server di Google, quindi ogni frame catturato dagli occhiali e ogni parola pronunciata dall’utente transita nel cloud. Questa scelta progettuale ha conseguenze dirette sulla privacy che vedremo più avanti.

Guida pratica: come installare VisionClaw sul proprio sistema

Per l’installazione di VisionClaw ci sono due percorsi possibili. Il primo richiede i Meta Ray-Ban collegati a un iPhone o Android, più un Mac per OpenClaw, il secondo usa solo la camera del telefono.

Requisiti hardware e configurazione dell’ambiente Python

Per il percorso completo servono i Meta Ray-Ban, un iPhone o Android recente ed un Mac o Linux con Node.js e pnpm per OpenClaw. Per il percorso minimo basta lo smartphone.

Su iOS si clona il repository da GitHub, si apre il progetto Xcode e si abilita la Developer Mode sull’iPhone tramite l’app Meta AI. Su Android la configurazione passa per Gradle con un token GitHub nelle dipendenze DAT SDK.

Qui niente scorciatoie, almeno per adesso: servono Xcode, un account sviluppatore Apple per il deploy su device fisico e familiarità con il terminale. Il target sono sviluppatori e sperimentatori, non utenti finali non tecnici.

Casi d’uso professionali per un assistente AI open source

Il dato più interessante del paper non è tanto la velocità di completamento dei task, quanto la tassonomia d’uso che emerge spontaneamente dall’utilizzo di VisionClaw: Retrieve (30%), Shop (19%), Save (16%), Communicate (14%), Recall (12%), Control (9%). L’uso dominante è chiedere informazioni contestuali all’ambiente, non eseguire azioni complesse.

Ma il pattern che racconta meglio il valore di un agente always-on sono le cosiddette catene. Giusto per citare un esempio, un partecipante dell’esperimento, durante una passeggiata, ha chiesto gli orari del cinema per “Project Hail Mary”, poi ha domandato quando avesse letto il romanzo originale, chiesto raccomandazioni di libri simili, e infine ne ha aggiunto uno alla wishlist Amazon. Quattro categorie d’uso diverse in una sessione naturale, senza mai tirare fuori il telefono. I task emergono opportunisticamente durante le attività quotidiane.

Cosa succede se questo modello entra in contesti professionali? Google Cloud ha già pubblicato un tutorial su un sistema di quality inspection manifatturiera basato sulla Gemini Live API: camera su linea di produzione, lettura barcode in tempo reale, classificazione e misurazione difetti, report strutturati in BigQuery. VisionClaw potrebbe diventare la base per soluzioni simili dove l’operatore ha le mani occupate.

Per chi segue il tema agentico in senso più ampio, Lemon AI offre un confronto utile su come si ragiona sugli agenti quando l’output deve essere operativo e non solo conversazionale.

Supporto all’accessibilità e navigazione assistita per ipovedenti

Oltre 200 milioni di persone nel mondo convivono con disabilità visive. Gli smart glasses AI stanno diventando strumenti reali per questa popolazione: le spedizioni globali di questi strumenti sono cresciute del 110% anno su anno nel primo semestre 2025 secondo Counterpoint Research. Envision e Solos hanno lanciato le Ally Solos Glasses, occhiali AI progettati specificamente per ipovedenti con interpretazione scene, riconoscimento volti e interazione vocale hands-free, in preordine a 49 dollari.

Sviluppo e personalizzazione degli agenti AI multimodali

Un assistente ai open source ha senso se permette audit, modifica e controllo del comportamento. Questo è il vantaggio classico del codice pubblico. Il rovescio della medaglia è altrettanto chiaro sul dibattito aperto: più libertà spesso significa anche meno validazione esterna, meno documentazione e meno garanzie.

Con gli agenti ai multimodali il problema cresce, perché video, audio e contesto ambientale sono dati molto più sensibili di un prompt testuale. Non stai più consegnando solo intenzioni esplicite. Stai consegnando frammenti del luogo in cui ti trovi, di quello che stai guardando, di ciò che dicono altre persone attorno a te. La privacy qui non è un’aggiunta burocratica. È una parte del design.

Nella live su OpenClaw abbiamo discusso di come sono state rilevate oltre 135.000 istanze esposte in 82 paesi, con più di 50.000 direttamente vulnerabili a esecuzione di codice remoto con il 63% delle istanze che girava senza alcuna autenticazione. Un audit di sicurezza condotto a gennaio 2026 ha identificato 512 vulnerabilità, di cui 8 critiche.

Ai rischi di OpenClaw, VisionClaw aggiunge la cattura continua di audio e video dall’ambiente fisico. Frame e audio transitano verso i server Google tramite la Gemini Live API ed il paper stesso avverte esplicitamente dei rischi di privacy legati alla cattura continua accoppiata con l’azione autonoma.

Se invece l’interesse è progettare flussi agentici in modo più strutturato, AI Agentic Application Masterclass è il tipo di risorsa che aiuta a spostare il ragionamento dalle demo all’ingegneria applicata.

Considerazioni di Data Masters: il futuro degli agenti autonomi nel mondo fisico

La domanda vera su cos’è VisionClaw non è cosa promette, ma quanto possiamo verificarne il comportamento. VisionClaw appare come un progetto interessante e concreto abbastanza da meritare attenzione, ma ancora troppo poco documentato per essere trattato come strumento maturo. Lo stesso vale per il rapporto con OpenClaw, che resta uno strumento da maneggiare con prudenza.

Il punto è che il futuro degli agenti AI nel mondo fisico non dipende solo dalla potenza del modello ma dal controllo e dalla gestione dell’errore percettivo. Una risposta sbagliata in chat può essere irritante. Un’interpretazione sbagliata di ciò che una camera vede può diventare un problema operativo o di privacy molto più serio.

Per questo VisionClaw è un test utile, forse persino più utile delle demo perfette delle big tech. Mostra dove gli agenti open source diventano davvero interessanti e dove iniziano a fare paura, nel senso professionale del termine. Se il progetto crescerà e l’installazione diventerà replicabile e se il trattamento dei dati sarà più trasparente, potrà essere valutato meglio. Fino ad allora conviene osservarlo da vicino, con curiosità sì, ma senza troppe illusioni.

AUTORE:Giuseppe Mastrandrea Apri profilo LinkedIn

Giuseppe è un Ingegnere Informatico con una forte specializzazione e pubblicazioni in ambito Computer Vision. Da circa 8 anni si dedica all’insegnamento in ambito informatico e alla formazione sulle tecnologie emergenti tra le quali il Machine Learning.