Metodologia delle aggregazioni
Guida operativa per leggere correttamente ranking, score, sentiment, geografia e segnali editoriali di MaxNews.
Principio generale
MaxNews ingerisce articoli in piu lingue. Per questo motivo le aggregazioni semantiche e di sentiment non vanno lette come se il dataset fosse monolingue: la distribuzione per lingua influenza tono, lessico, densita di copertura e disponibilita di classificazione.
Le viste aggregate mostrano quindi sia il risultato sintetico sia la distribuzione linguistica che lo compone. Quando il campione e sbilanciato su una lingua, il lettore dovrebbe interpretare il dato come prevalente in quel sottoinsieme linguistico, non come verita assoluta sull'intero panorama editoriale.
Dove possibile, il conteggio e conservativo: un articolo pesa una volta nell'aggregazione principale, anche se ripete piu volte la stessa entita o lo stesso tema.
Se un'aggregazione esiste nel backend o nel modello analitico, l'obiettivo di MaxNews e renderla esplicita o almeno documentarla qui. In altre parole: niente segnali utili nascosti intenzionalmente solo per alleggerire la UI.
Nella sezione Fonti la gerarchia e esplicita: Owner → Source → Feed. Il gruppo proprietario serve a leggere concentrazione e controllo, la testata e l'unita canonica mostrata all'utente, il feed e il canale tecnico che la porta davvero nel pipeline.
Il matching con il registro europeo e conservativo: MaxNews riconcilia automaticamente solo URL e domini certi. Le nuove sorgenti non matchate vengono create disabilitate, cosi l'analista non si ritrova fusioni sbagliate tra brand editoriali simili ma distinti.
Architettura di questa versione
Home: cabina di regia editoriale, sintesi rapida del corpus e accessi alle lenti principali.
News: desk operativo del corpus, con filtro per formato, lingua, fonte, stato di analisi e lettura.
Cluster: story desk, dove il corpus viene letto per storie aggregate e pluralita della copertura.
Personaggi: coverage intelligence su soggetti monitorati, non semplice scheda biografica.
Intelligence: hub che unifica semantica, geo, multilingual e pattern editoriali.
Fonti: catalogo canonico Owner → Source → Feed con lettura del sistema media e del registry.
Cerca: console trasversale che collega articoli, cluster, persone, fonti e luoghi.
Aggregazioni su Personaggi
9 metricheConteggio conservativo a livello articolo: ogni articolo che cita una persona pesa una volta sola nell'aggregazione, anche se il nome ricorre piu volte nello stesso testo.
Sottoinsieme delle menzioni per cui esiste un risultato di sentiment disponibile. Serve a capire quanto il giudizio tonale sia realmente coperto dal pipeline AI.
Rapporto tra menzioni analizzate e menzioni totali. Valori bassi indicano che il sentiment va letto con prudenza, perche il campione classificato e ancora parziale.
Media dei punteggi di sentiment sugli articoli classificati. Non misura la popolarita della persona, ma il tono medio dei testi che la citano.
Indicatore della tensione tra copertura positiva e negativa. Cresce quando i testi si distribuiscono in modo netto sui poli e cala quando prevale un tono uniforme o neutro.
Indice composito di visibilita editoriale. Combina volume di articoli, ampiezza delle fonti, diversita geografica, pluralita dei blocchi editoriali e robustezza del sentiment disponibile.
Aggregazione delle etichette di orientamento associate alle fonti. Aiuta a leggere da quali ecosistemi editoriali arriva la copertura.
Geografia dei mercati editoriali che stanno parlando del personaggio. Non rappresenta il paese dell'evento, ma il paese delle fonti che pubblicano i pezzi.
Ripartizione per lingua degli articoli che alimentano l'aggregazione. In MaxNews il dataset e multilanguage, quindi i risultati vanno letti anche in base alla distribuzione linguistica.
Cluster
Coesione: similarita media tra gli articoli del cluster.
Copertura sentiment: quota di articoli del cluster con classificazione tonale disponibile.
Keyword e persone: segnali ricorrenti estratti dai testi che aiutano a capire il tema e i soggetti dominanti.
Geografia eventi vs geografia fonti: distinzione tra luoghi citati nell'evento e mercati editoriali che stanno coprendo la storia.
Semantica & Sentiment
AI flagged: percentuale di sommari o articoli che mostrano segnali di rischio o contenuti da rivedere.
Positivi / neutrali / negativi: distribuzione tonale del corpus classificato.
Fonti piu polarizzate: fonti con maggiore tensione tra coverage positiva e negativa sul campione osservato.
Lingua e sentiment: confronto tra comportamenti tonali nei diversi insiemi linguistici del dataset.
GeoIntel
Hotspot: luoghi con maggior densita di menzioni geocodificate.
Cross-border: relazione tra paese della fonte e paese dell'evento citato.
Flussi globali: corridoi editoriali piu frequenti tra origine della fonte e geografia della notizia.
Tipi di luogo: suddivisione tra paesi, citta, regioni e altri oggetti geografici riconosciuti.
Normalizzazione geografica: alias multilingua come 'Stati Uniti' / 'United States' o 'Italia' / 'Italy' vengono collassati in una chiave canonica unica, per evitare doppioni che falsano hotspot e paesi top.
Criterio di selezione delle fonti
Il campione non massimizza il numero totale di feed: massimizza la rappresentativita editoriale utile. L'obiettivo e coprire piu lingue, paesi e orientamenti con il minor numero di feed ridondanti.
La prima regola e evitare duplicazioni strutturali. Se lo stesso publisher compare con piu verticali quasi vuote o con feed sovrapposti, MaxNews tende a mantenerne uno o pochi davvero attivi e a mettere in pausa i duplicati a bassa resa.
La seconda regola e preservare un minimo di pluralismo. Per ogni area rilevante si cerca un mix tra agenzie, broadcaster pubblici, brand mainstream, fonti piu orientate e almeno alcune testate non anglofone.
La terza regola e pesare il costo computazionale. Un feed a zero o quasi zero articoli nelle ultime 24 ore puo restare solo se aggiunge una lingua, un paese o un orientamento che il campione perderebbe del tutto senza di lui.
La quarta regola e privilegiare la resa recente. Tra due feed simili, a parita di valore editoriale, resta attivo quello che mostra maggiore continuita di articoli utili nel campione recente.
Nel desk Fonti la selezione va letta sempre su tre livelli: Owner, Source e Feed. Si possono disattivare feed tecnici senza escludere la testata dal modello editoriale, e si possono riattivare feed mirati quando servono a recuperare copertura su una lingua o un paese.
Operativamente il campione viene riequilibrato tagliando soprattutto feed duplicati o marginali dei grandi gruppi internazionali, e riattivando pochi feed a forte valore di diversificazione, per esempio quando introducono spagnolo, francese, ucraino o mercati altrimenti assenti.
Questo significa che la lista delle fonti non e statica: puo essere alleggerita o ampliata in base a backlog, costo token, throughput del pipeline e squilibri editoriali osservati nel corpus.
Fonti / Sorgenti 2.0
Owner: gruppo editoriale o operatore che controlla una o piu testate. Serve a leggere concentrazione proprietaria e dipendenza del corpus da pochi gruppi.
Source: brand/testata canonica mostrata all'utente. E l'unita analitica principale per ranking, confronto e pluralismo.
Feed: canale tecnico di ingestione. Non coincide con la testata e non va confuso con l'identita editoriale.
Registry coverage: quota dei feed di una fonte gia riconciliati col registro europeo. Valori bassi indicano metadati ancora da consolidare.
Language breadth: ampiezza linguistica dichiarata o riconosciuta per una fonte. Aiuta a capire se la copertura e locale, bilingue o transnazionale.
Feed-channel mix: distribuzione dei canali tecnici usati dalla stessa fonte. Fa emergere dipendenza da RSS, stream web o altri ingressi.
Owner concentration: numero di testate e articoli riconducibili allo stesso gruppo. E una metrica utile per analisi di pluralismo e rischio di concentrazione.
Policy AI e tipologie testuali
News (<= 100 caratteri) e Blob (> 1000 caratteri) sono trattati operativamente come contenuti automatici o di sistema.
Solo gli Articolo (101–1000 caratteri) entrano nel lavoro di AI detection e quindi nelle metriche di review AI.
Questa regola vale sia per il corpus corrente sia per il backlog: l'arretrato da analizzare automaticamente riguarda solo il segmento Articolo.
Le statistiche su AI review, flagged e copertura reviewable vanno quindi lette alla luce di questo perimetro, non sul totale indiscriminato dei testi.
Pipeline, code e token
Token 24h: volume LLM totale consumato dal pipeline. Indica carico e costo operativo, non qualita editoriale.
Budget orari: limiti applicativi su token o richieste esterne. Se il limite e 0, la modalita va letta come unlimited locale, non come throttle.
Queue depth: backlog per job. E il segnale migliore per capire dove il flusso si sta accumulando.
Throughput 1h: quanti job stanno davvero completando con successo nell'ultima ora.
Errori recenti: non solo incidenti tecnici, ma possibili cause di dati mancanti nelle viste analitiche.
Content tiers 24h: distribuzione operativa tra news, articoli e contenuti lunghi o residuali, utile per leggere la pressione sul pipeline.
Aggregazioni trasversali da non nascondere
analyst-firstLegenda badge e struttura di Fonti
knowledge basePosizionamento politico-editoriale sull'asse sinistra-centro-destra. Serve per leggere il blocco ideologico prevalente della copertura.
Postura o taglio dichiarato della fonte, per esempio Independent, Populist, Pro-EU o Pro-Gov. Non coincide sempre con l'asse politico.
Ruolo strutturale della fonte nel sistema media: Public broadcaster, News agency, Publisher, broadcaster tematico, tabloid, magazine.
Unità editoriale principale: il brand/publisher che MaxNews monitora come soggetto complessivo.
Canale tecnico effettivamente ingestito per una testata. Una testata può avere più feed, ciascuno con categoria, frequenza e mix contenuti propri.
Mix di contenuto prevalente nel campione recente del feed o della fonte: aiuta a distinguere flussi brevi, articoli strutturati e contenuti lunghi.
Come leggere correttamente i dati
Un sentiment molto netto su un campione piccolo vale meno di una copertura ampia ma parzialmente classificata. La base campionaria conta quanto il valore finale.
Un paese citato nell'articolo, il paese della fonte editoriale e la lingua del testo sono tre dimensioni diverse. MaxNews prova a mantenerle separate per evitare letture fuorvianti.
Un soggetto molto polarizzato non e necessariamente il piu rilevante: puo essere semplicemente il piu divisivo nel campione analizzato.
Un tema forte in inglese ma debole in italiano, o viceversa, puo muoversi molto nel ranking a seconda della composizione del dataset del momento. Per questo le lingue vengono sempre esposte quando disponibili.