SOXOJ, la mente dietro Maigret e non solo, mantiene da qualche mese una lista curata di server MCP per l’OSINT: connettori che permettono ad un llm di parlare con Shodan, virustotal e i registri societari di 27 paesi. Cinque anni fa una lista del genere non avrebbe avuto senso. Oggi fotografa un cambio di fase: i tool sono praticamente gli stessi di sempre, è che ora hanno la guida automatica.
Vale la pena capire com’è fatta la cassetta degli attrezzi del 2026 — e cosa resta, per fortuna, sulle spalle dell’analista.
Da strumenti ad agenti
Il salto degli ultimi due anni non è il singolo tool “potenziato”: è il passaggio da strumenti che aggregano manualmente dati a sistemi che gestiscono autonomamente pezzi di indagine. Gli LLM fanno da orchestratori: scelgono il tool, leggono l’output, decidono il passo successivo, scrivono il report. Tre le direttrici concrete:
- processamento (migliaia di documenti riassunti, tradotti e categorizzati in secondi),
- strutturazione (entity extraction e grafi di relazioni automatici),
- orchestrazione (più tool concatenati in un workflow unico, su richiesta in linguaggio naturale).
Il punto metodologico che separa l’automazione dalla fantascienza è uno solo: l’agente esegue tool reali e ne legge l’output. Non lo deve generare a sentimento.
Ricordi? Un whois che estrae un dato da un registro è un’informazione utilizzabile; un whois appreso da un LLM durante il training è un pettegolezzo.
MCP: il connettore che ha cambiato la partita
Il Model Context Protocol è lo standard aperto che collega tool e servizi agli LLM: invece di un’integrazione custom per ogni coppia tool-modello, un server MCP espone lo strumento a qualsiasi client (claude, cursor e compagnia). Per l’OSINT è la svolta infrastrutturale, e la lista di soxoj (affiancata da directory cercabili come Glama) dà un’idea dell’ecosistema:
| Categoria | Server MCP (esempi) | Cosa fanno |
|---|---|---|
| SOCMINT | maigret | account collegati a un username su migliaia di siti |
| Network scanning | shodan, zoomeye, dnstwist | IP recon, CVE, typosquatting, WHOIS/DNS in parallelo |
| Web scraping | bright data, anysite | estrazione strutturata da decine di piattaforme |
| Company intel | openregistry, companyscope | registri societari di 27 paesi, fonti pubbliche aggregate |
| Threat intel | virustotal, voidly | URL/file/IP/domini con relationship mapping; censura internet per paese |
Tradotto: i tool OSINT sono gli stessi di sempre — whois, shodan, maigret, i registri societari — ma ora parlano direttamente con chi li sa concatenare. Il server MCP fa per l’AI quello che il connettore fa per l’analista: accesso controllato, un tool alla volta, con guardrail.
Gli strumenti che hanno imparato a parlare con gli LLM
Sul fronte commerciale il pattern è uno: l’AI opaca con token a pagamento (oh, e quanti ne consuma). Maltego ci sta lavorando da un po’ con la sentiment analysis e l’estrazione automatica di entità di Key Insights (cos’è successo, chi, movente, stato dell’evento). Il tema più ampio, come l’AI sta ridisegnando l’OSINT, lo affronta anche in un suo paper.
Altre piattaforme di threat intelligence stanno incorporando sempre più l’ML per l’entity resolution e l’anomaly detection.
Sul fronte open source i framework storici reggono benissimo: spiderfoot (200+ moduli) e recon-ng restano i cavalli da lavoro dell’automazione. E qualcuno li sta già agganciando al giro agentico: per SpiderFoot esiste spiderfoot-mcp, un MCP server di terze parti che espone avvio scansione, stato e risultati come tool — così a pilotarlo può essere direttamente un LLM (resta un wrapper sopra la sua API, serve l’istanza già in piedi). Le novità della generazione agentica includono progetti come OpenOSINT (agente con REPL interattivo, CLI e server MCP integrato) e piattaforme self-hosted per la threat intelligence sul dark web, che girano in Docker con LLM gratuiti.
Qui la scatola è un po’ più trasparente: vedi cosa viene eseguito e cosa torna indietro. Sono alternative che voglio testare con calma.
Tenersi l’LLM in casa
Chi non si fida delle scatole — nere o di vetro che siano — si costruisce l’agente da sé. Il pattern documentato è un loop tool-use di poche decine di righe: l’LLM riceve la richiesta, fa una chiamata ad un servizio OSINT reale, legge l’output, itera (su freecodecamp c’è un tutorial completo in python). Lo strato più leggero sono le skill per ambienti agentici già esistenti: framework preconfezionati per people lookup, due diligence, domain recon, da installare dentro lo strumento che già usi.
Sul fronte accademico si studia perfino il co-design di indagini collaborative AI-augmented (OSINT Clinic, arXiv).
C’è un altro modo di approcciare la questione: puoi tenerti l’LLM sotto il tuo tetto. Per chi lavora su target sensibili, è prima di tutto una questione di OPSEC e di gestione della privacy dato che in questo modo i prompt e i dati del caso non finiscono nei log di un provider cloud, ma restano sulla tua macchina. L’OWASP Social OSINT Agent è un esempio concreto: un agente autonomo che setaccia X, Reddit, GitHub, Bluesky e Mastodon, gira in Docker, ha una modalità offline sui dati in cache e parla con qualsiasi API compatibile con OpenAI — cioè puoi puntarlo a un modello servito in locale da Ollama o LM Studio, evitando che vengano diffusi dati dell’investigazione.
Quanto costa? Il collo di bottiglia è la VRAM. Un modello da 7-8B quantizzato a 4-bit gira in 6-8 GB, roba da GPU consumer entry-level; per un 70B quantizzato servono i 24-32 GB di una RTX 4090/5090 (sui 1.600-3.800 $) oppure la memoria unificata di un Mac Apple Silicon. La guida hardware 2025 di Introl permette di fare due conti: due RTX 5090 equivalgono a una H100 sul 70B a circa un quarto del costo, e un Mac Studio M3 Ultra (da 3.999 $) regge da solo modelli che altrove richiederebbero più schede. La quantizzazione fa il resto: il formato Q4 taglia la VRAM a un quarto, in cambio di un filo di qualità.
Le prospettive? Il modello locale resta meno brillante del frontier in cloud — su questo non illuderti — ma per il grosso del lavoro di OSINT (riassumere, estrarre entità, fare un primo screening) un 7-30B in casa basta e avanza. E il sentiero è tracciato: modelli sempre più piccoli e capaci, la quantizzazione e l’hardware consumer in calo stanno spostando il self-hosting da vezzo da smanettoni a opzione operativa.
Con una regola che non cambia: anche il modello che gira sul tuo PC deve eseguire il tool e leggerne l’output reale, non andare a memoria.
Il rovescio della medaglia
Tutto molto bello, finché tieni a mente tre cose:
- La stessa cassetta è in mano ad avversari ostili che la sanno usare da dio: la prima campagna di spionaggio orchestrata da un’AI, documentata da Anthropic a fine 2025, concatenava i comuni tool di pentest proprio via MCP.
- Più l’agente concatena, più la catena di custodia dell’informazione va tenuta stretta — ogni claim deve risalire a una fonte, non a un completamento statistico.
- L’automazione, alla lunga, addormenta le facoltà critiche. Su questo il discorso è lungo, tanto lungo che ci abbiamo fatto un articolo a parte.
Vale anche per i modelli stessi: i più recenti montano classificatori che cercano di bloccare l’uso offensivo (in altre parole, una ricognizione finalizzata all’attacco) lasciando passare quello investigativo e difensivo, lasciando che la distinzione tra OSINT-per-difendere e recon-per-attaccare sia codificata nel modello, non solo nei termini di servizio. Anche se sembra che questi controlli non siano così granitici come dovrebbero, è intervenuto il governo USA per cercare di arginare il problema.
Note finali
Questi sono e devono rimanere strumenti e, per ora, decidere cosa cercare, validare ciò che viene raccolto e firmare la conclusione devono restare compiti in capo all’analista umano.
L’IA potrà anche aprire e leggere il contenuto da un milione di fonti al posto tuo; cosa farne, per fortuna, è ancora un mestiere/arte da affidare a un umano. Con tutti i suoi difetti.
E tu che ne pensi? Vuoi segnalarci altri repository di questo tipo? Scrivici nei commenti o facciamoci quattro chiacchiere nel gruppo Telegram.

Lascia un commento