Cos’è la Diarizzazione degli Oratori?
La diarizzazione degli oratori è il processo di rilevamento e etichettatura automatica di diversi oratori in una registrazione audio o video. Il termine “diarizzazione” deriva da “diario” - creare una registrazione di chi ha parlato quando.
Quando trascrivi una conversazione, un podcast, un’intervista o una riunione con più persone, la diarizzazione risponde alla domanda critica: “Chi ha detto cosa?”
Senza diarizzazione:
Benvenuti al podcast di oggi. Grazie per avermi invitato. Iniziamo con
il tuo background. Ho iniziato nel settore tecnologico 15 anni fa lavorando presso...
Con la diarizzazione:
[Oratore 1]: Benvenuti al podcast di oggi.
[Oratore 2]: Grazie per avermi invitato.
[Oratore 1]: Iniziamo con il tuo background.
[Oratore 2]: Ho iniziato nel settore tecnologico 15 anni fa lavorando presso...
Ancora meglio, con gli oratori nominati:
[John Smith]: Benvenuti al podcast di oggi.
[Sarah Johnson]: Grazie per avermi invitato.
[John Smith]: Iniziamo con il tuo background.
[Sarah Johnson]: Ho iniziato nel settore tecnologico 15 anni fa lavorando presso...
Perché la Diarizzazione degli Oratori è Importante
L’identificazione degli oratori trasforma le trascrizioni grezze in documenti organizzati e utilizzabili:
Vantaggi chiave:
- Attribuzione chiara: Sapere esattamente chi ha detto cosa
- Migliore comprensione: Seguire facilmente le conversazioni
- Citazione facile: Estrarre le dichiarazioni di una persona specifica
- Verbale della riunione: Attribuire decisioni e elementi di azione
- Analisi delle interviste: Organizzare le domande e risposte per oratore
- Produzione di podcast: Creare note di programma con etichette di host/ospite
- Ricerca: Analizzare i contributi dei singoli oratori
Casi d’uso:
- Riunioni di lavoro (tenere traccia di chi ha preso quale decisione)
- Interviste (separare l’intervistatore dall’intervistato)
- Podcast (identificazione host vs ospite)
- Focus group (tracciamento dei singoli partecipanti)
- Deposizioni legali (avvocato vs testimone)
- Chiamate dei clienti (agente vs cliente)
- Pannelli di conferenza (più oratori sul palco)
Come Funziona la Diarizzazione degli Oratori (La Scienza)
ScreenApp utilizza l’IA avanzata per rilevare e separare gli oratori:
Passo 1: Estrazione delle Caratteristiche Vocali
L’IA analizza le caratteristiche audio per ogni segmento:
- Tono: Frequenza fondamentale della voce
- Timbro: Qualità e timbro della voce
- Cadenza: Ritmo e velocità del parlato
- Energia: Volume e schemi di enfasi
- Formanti: Frequenze di risonanza del tratto vocale
Queste caratteristiche creano un’impronta vocale unica per ogni oratore.
Passo 2: Clustering degli Oratori
L’IA raggruppa segmenti vocali simili:
- Analizza le caratteristiche vocali nell’intera registrazione
- Identifica cluster distinti di voci simili
- Assegna a ciascun cluster un’etichetta di oratore (Oratore 1, Oratore 2, ecc.)
- I segmenti sono raggruppati per oratore in base alla somiglianza della voce
Come funziona il clustering:
- L’IA rileva i cambiamenti di voce (tono, timbro, ecc. diversi)
- Voci simili in diversi timestamp vengono raggruppate insieme
- Ogni cluster diventa un oratore
- I cluster sono numerati in sequenza (Oratore 1, 2, 3…)
Passaggio 3: Assegnazione del segmento
Ogni segmento parlato viene assegnato a un oratore:
- L’AI determina dove un oratore si ferma e un altro inizia
- Ogni segmento riceve un’etichetta di oratore
- I timestamp indicano quando ogni oratore parla
- La trascrizione viene visualizzata organizzata per oratore
Fattori di accuratezza:
- Voci chiare e distinte: accuratezza del 90-95%
- Oratori con suoni simili: accuratezza del 75-85%
- Discorso sovrapposto: accuratezza del 60-75%
- Rumore di fondo: riduce l’accuratezza del 10-20%
Passaggio 4: Suggerimenti del nome dell’oratore AI (facoltativo)
Per alcuni tipi di contenuto, l’AI può suggerire i nomi degli oratori:
- Analizza il contesto della conversazione
- Cerca le presentazioni degli oratori (“Ciao, sono John…”)
- Rileva i modelli di ruolo (intervistatore vs intervistato)
- Suggerisce nomi basati su indizi contestuali
Puoi accettare i suggerimenti o assegnare manualmente i nomi.
Passo dopo passo: Utilizzo della diarizzazione degli oratori
Passaggio 1: Carica audio/video con più oratori
- Vai a ScreenApp
- Fai clic su “Carica” o trascina e rilascia il file
- In alternativa, usa “Importa da URL” per le registrazioni delle riunioni
- Attendi che il caricamento sia completo
Contenuti migliori per la diarizzazione:
- ✅ Interviste (2 oratori)
- ✅ Podcast (host + ospite)
- ✅ Riunioni (3-10 partecipanti)
- ✅ Tavole rotonde (più oratori)
- ✅ Chiamate con i clienti (2 oratori)
- ⚠️ Grandi conferenze (più di 10 oratori - possono essere complesse)
Requisiti del file:
- Audio chiaro (rumore di fondo minimo)
- Voci distinte (tono/timbro diversi)
- Sovrapposizione minima degli oratori
- Buona qualità del microfono
Passaggio 2: Trascrizione automatica con diarizzazione
Dopo il caricamento:
- ScreenApp trascrive automaticamente l’audio
- Lo stato mostra “Trascrizione…” quindi “Diarizzazione…”
- L’AI rileva diversi oratori durante la trascrizione
- Etichette degli oratori assegnate automaticamente (Oratore 1, Oratore 2, ecc.)
- L’elaborazione viene completata in 1-3 minuti per la maggior parte delle registrazioni
Cosa succede durante la diarizzazione:
- Trascrizione da voce a testo
- Estrazione dell’impronta vocale
- Raggruppamento e segmentazione degli oratori
- Assegnazione del timestamp per oratore
- Suggerimenti opzionali sul nome dell’AI
Tempo di elaborazione:
- Conversazione a 2 oratori: ~1 minuto ogni 10 minuti di audio
- 3-5 oratori: ~1,5 minuti ogni 10 minuti
- 6+ oratori: ~2 minuti ogni 10 minuti
Fase 3: Rivedere la trascrizione con etichette per oratore
Una volta completata l’elaborazione:
- Clicca sul tuo file per aprirlo
- Vai alla scheda Trascrizione
- Ogni segmento mostra l’etichetta dell’oratore (Oratore 1, Oratore 2, ecc.)
- Le etichette dell’oratore appaiono prima di ogni segmento di dialogo
Formato della trascrizione:
Oratore 1: Benvenuti tutti alla riunione di oggi.
Oratore 2: Grazie per averci invitato.
Oratore 1: Cominciamo con l'aggiornamento trimestrale.
Oratore 3: Posso presentare i numeri prima se volete.
Verifica dell’accuratezza:
- Controlla che oratori distinti abbiano etichette diverse
- Verifica che i cambiamenti di oratore avvengano ai timestamp corretti
- Cerca segmenti etichettati in modo errato (oratore sbagliato)
- Prendi nota se più oratori sono stati raggruppati come uno solo
Fase 4: Assegnare nomi reali agli oratori
Sostituisci le etichette generiche con i nomi reali:
- Nella scheda Trascrizione, trova un segmento dell’oratore
- Clicca sull’etichetta dell’oratore (es. “Oratore 1”)
- Appare un menu a tendina che mostra:
- Etichetta dell’oratore attuale
- Nomi suggeriti dall’AI (se disponibili)
- Membri del team (se l’area di lavoro è connessa)
- Opzione per inserire un nome personalizzato
- Seleziona o digita il nome reale della persona
- Clicca per confermare
Tutti i segmenti di quell’oratore si aggiornano automaticamente in tutta la trascrizione.
Assegnazione dei nomi:
Prima:
Oratore 1: Cominciamo con le presentazioni.
Oratore 2: Ciao, sono Sarah del Marketing.
Dopo l'assegnazione del nome:
John Smith: Cominciamo con le presentazioni.
Sarah Johnson: Ciao, sono Sarah del Marketing.
Opzioni di assegnazione del nome:
- Suggerimenti dell’AI: Se l’AI ha rilevato i nomi dal contesto
- Membri del team: Seleziona tra i membri della tua area di lavoro
- Nomi personalizzati: Digita qualsiasi nome manualmente
- Cancella etichetta: Rimuovi il nome personalizzato, torna a Oratore X
Fase 5: Modifica massiva degli oratori (opzionale)
Se devi cambiare più assegnazioni di oratori:
- Alcuni segmenti potrebbero essere etichettati in modo errato (Oratore 1 dovrebbe essere Oratore 2)
- Clicca su un segmento etichettato in modo errato
- Cambia l’assegnazione dell’oratore
- ScreenApp consente di modificare i singoli segmenti
Quando usare la modifica massiva:
- L’AI ha confuso due oratori dal suono simile
- Più oratori sono stati uniti in un’unica etichetta
- Un oratore è stato diviso in più etichette
Flusso di lavoro di modifica:
- Identifica i modelli di etichettatura errata
- Clicca sul segmento con l’oratore sbagliato
- Riassegna all’oratore corretto
- Ripeti per altri segmenti etichettati in modo errato
Migliorare l’accuratezza del rilevamento degli oratori
Prima della registrazione
Ottimizza la configurazione audio:
- Usa microfoni di qualità (esterni preferiti rispetto a quelli integrati)
- Posiziona i microfoni a 15-30 cm da ogni oratore
- Riduci il rumore di fondo (chiudi le finestre, spegni le ventole)
- Usa microfoni separati per ogni oratore, se possibile
- Prova i livelli audio prima della registrazione
Ambiente di registrazione:
- Stanza silenziosa con eco minimo
- Evita superfici dure (usa arredi morbidi per ridurre il riverbero)
- Nessuna musica sovrapposta o audio di sottofondo
- Riduci al minimo fruscii di carta e digitazione sulla tastiera
Linee guida per parlare:
- Evita di parlare sopra gli altri
- Consenti brevi pause tra gli oratori
- Parla a volume e ritmo normali
- Non sussurrare o urlare
- Mantieni una distanza costante dal microfono
Durante la diarizzazione
Se la precisione della diarizzazione è bassa:
-
Controlla la qualità audio: Audio scadente = scarsa rilevazione degli altoparlanti
- Registra di nuovo con un microfono migliore, se possibile
- Utilizza strumenti di riduzione del rumore prima del caricamento
- Assicurati che i livelli del volume siano adeguati
-
Verifica il numero di altoparlanti: Sono stati rilevati troppi o troppo pochi altoparlanti
- Se l’IA rileva meno altoparlanti del previsto: Voci troppo simili
- Se l’IA rileva più altoparlanti del previsto: La voce di una persona è variata troppo
- In questi casi è necessaria la correzione manuale
-
Rivedi i cambi di altoparlante: Le transizioni sono accurate?
- Controlla dove l’IA pensa che sia cambiato l’altoparlante
- Verifica che corrisponda alle transizioni effettive degli altoparlanti
- Correggi manualmente se necessario
Dopo la diarizzazione
Pulizia manuale:
- Rivedi l’intera trascrizione per individuare segmenti etichettati in modo errato
- Concentrati sulle sezioni in cui gli oratori si sovrappongono
- Correggi i segmenti ambigui in cui l’oratore non è chiaro
- Verifica che i nomi siano assegnati correttamente dappertutto
Controllo qualità:
- Campiona segmenti casuali in tutta la trascrizione
- Assicurati che le etichette degli altoparlanti corrispondano all’audio
- Verifica che tutti gli altoparlanti siano stati identificati
- Verifica che nessun altoparlante sia stato diviso in più etichette
Sfide comuni della diarizzazione
Sfida 1: Voci dal suono simile
Problema: Due altoparlanti con tono/timbro simile vengono confusi
Scenari di esempio:
- Due oratori maschi con caratteristiche vocali simili
- Membri della famiglia (genetica simile = voci simili)
- Oratori della stessa regione (accenti simili)
Soluzioni:
- Rivedi attentamente la trascrizione per individuare gli scambi
- Utilizza indizi contestuali (chi direbbe cosa)
- Riassegna manualmente i segmenti etichettati in modo errato
- Nelle registrazioni future, chiedi agli oratori di identificarsi periodicamente
Precisione: Scende dal 90-95% al 75-85% per voci simili
Sfida 2: Discorso sovrapposto
Problema: Più persone che parlano contemporaneamente
Scenari di esempio:
- Crosstalk in discussioni accese
- Accordo simultaneo (“Sì!” da più persone)
- Interruzioni a metà frase
Soluzioni:
- L’IA in genere assegna all’oratore più rumoroso
- Le porzioni sovrapposte potrebbero non essere chiare nella trascrizione
- È necessaria una revisione manuale per le sovrapposizioni critiche
- In futuro: stabilisci un ordine di intervento o usa le mani alzate
Precisione: Scende al 60-75% durante il discorso sovrapposto
Sfida 3: Singolo oratore con voce variabile
Problema: La voce di una persona cambia significativamente
Cause:
- Cambiamenti emotivi (calmo a eccitato)
- Cambiamenti fisici (in piedi vs seduto)
- La distanza dal microfono varia
- Raffreddore o malattia che influisce sulla voce
- Urlare o sussurrare
Soluzione:
- L’IA può dividere una persona in più oratori
- Rivedere e unire le etichette degli oratori se necessario
- Riassegnare manualmente i segmenti all’oratore corretto
Sfida 4: Voci di sottofondo
Problema: Voci ambientali rilevate come oratori
Scenari di esempio:
- Qualcuno parla in sottofondo
- TV o radio accesa
- Conversazione nelle vicinanze
- Voce da una telefonata in vivavoce
Soluzioni:
- L’IA può creare etichette di oratore extra per le voci di sottofondo
- Rimuovere o ignorare manualmente questi segmenti
- In futuro: disattivare l’audio delle sorgenti audio di sfondo durante la registrazione
Sfida 5: Audio di chiamate telefoniche/video
Problema: L’audio compresso delle chiamate riduce la precisione
Cause:
- La compressione delle chiamate degrada la qualità della voce
- I problemi di rete causano artefatti audio
- Eco del telefono vivavoce
- Audio a basso bitrate
Soluzioni:
- Registrare localmente se possibile (non solo l’audio della chiamata)
- Utilizzare strumenti di registrazione delle chiamate di alta qualità
- Evitare il vivavoce quando possibile
- Assicurare una forte connessione di rete
- Accettare che la precisione potrebbe essere inferiore del 10-15% per le registrazioni delle chiamate
Casi d’uso della diarizzazione degli oratori
1. Documentazione delle riunioni
Flusso di lavoro:
- Registrare la riunione (Zoom, Google Meet, Teams)
- Caricare su ScreenApp per la trascrizione + diarizzazione
- Assegnare i nomi a ciascun partecipante
- Esportare la trascrizione con le etichette degli oratori
- Distribuire il verbale della riunione al team
Vantaggi:
- Attribuzione chiara di chi ha detto cosa
- Tracciare le decisioni e le azioni da intraprendere per persona
- Responsabilità per gli impegni presi
- Facile estrarre citazioni per i riassunti
Esempio di output:
[John Smith - CEO]: Rivediamo gli obiettivi del Q4.
[Sarah Johnson - CFO]: Il fatturato è aumentato del 15% questo trimestre.
[Mike Chen - CTO]: Abbiamo lanciato 3 nuove funzionalità.
2. Trascrizione di Interviste
Workflow Giornalista/Ricercatore:
- Registra l’intervista (di persona o da remoto)
- Ottieni la trascrizione con speaker diarizzati
- Assegna le etichette Intervistatore e Soggetto
- Estrai citazioni con attribuzione corretta
- Usa per la scrittura di articoli o l’analisi della ricerca
Benefici:
- Facile trovare le dichiarazioni di una persona specifica
- Attribuzione accurata delle citazioni per la pubblicazione
- Analizza i modelli di intervista
- Crea trascrizioni in formato Q&A
Esempio di formato:
[Intervistatore]: Cosa ti ha ispirato ad avviare l'azienda?
[Soggetto]: Ho visto una lacuna nel mercato per...
[Intervistatore]: Come avete finanziato lo sviluppo iniziale?
[Soggetto]: Ci siamo autofinanziati per i primi due anni...
3. Produzione di Podcast
Workflow Podcaster:
- Registra l’episodio del podcast con gli ospiti
- Ottieni la trascrizione con speaker diarizzati
- Assegna i nomi dell’host e dell’ospite
- Crea le note dello spettacolo dalla trascrizione
- Estrai i momenti salienti per i social media
Benefici:
- Genera automaticamente note sullo spettacolo con attribuzione dell’oratore
- Crea facilmente riepiloghi degli episodi
- Estrai citazioni specifiche degli ospiti
- Costruisci un archivio di podcast ricercabile
- Genera post di blog dagli episodi
Esempio di note dello spettacolo podcast:
[00:00] - John (Host) introduce l'argomento dell'episodio
[02:15] - Sarah (Ospite) condivide il suo background
[15:30] - Discussione dell'argomento principale
[42:00] - Segmento Q&A a fuoco rapido
4. Analisi del Focus Group
Workflow di ricerca di mercato:
- Registra la sessione del focus group
- Diarizza per separare i partecipanti
- Assegna ID partecipante (Partecipante 1, 2, 3 per anonimato)
- Analizza le risposte per partecipante
- Estrai temi e modelli
Benefici:
- Tieni traccia dei contributi individuali dei partecipanti
- Analizza i partecipanti dominanti vs silenziosi
- Estrai feedback specifici per persona
- Quantifica i tassi di partecipazione
- Identifica consenso o disaccordo
5. Analisi delle Chiamate del Servizio Clienti
Workflow del call center:
- Registra le chiamate di supporto clienti
- Diarizza Agente vs Cliente
- Analizza i modelli di chiamata
- Estrai tecniche di risoluzione di successo
- Forma gli agenti in base alle migliori pratiche
Benefici:
- Separa automaticamente l’agente dal discorso del cliente
- Analizza le prestazioni degli agenti
- Identifica i problemi comuni dei clienti
- Estrai citazioni testuali dei clienti
- Monitora la qualità e la conformità delle chiamate
Esportazione di trascrizioni con etichetta dell’oratore
Scarica le trascrizioni diarizzate in più formati:
Formati di Esportazione con Etichette del Parlatore
-
Testo Semplice (.txt) - Formato semplice con i nomi dei parlatori
John Smith: Questo è il primo punto. Sarah Johnson: Sono d'accordo con questa valutazione. -
Documento Word (.docx) - Formattato con i nomi dei parlatori e timestamp
- Ogni cambio di parlante su una nuova riga
- Timestamp inclusi
- Nomi dei parlatori in grassetto
-
Documento PDF (.pdf) - Formato professionale
- Attribuzione pulita del parlante
- Formattato per la condivisione
- Timestamp opzionali
-
Sottotitoli SRT (.srt) - Per video con i nomi dei parlatori nelle didascalie
1 00:00:01,000 --> 00:00:03,500 [John Smith]: Questo è il primo punto.
Come Esportare
- Apri la tua trascrizione di diarizzazione
- Clicca sul bottone “Download”
- Seleziona il formato (TXT, DOCX, PDF, SRT)
- Il file si scarica con i nomi dei parlatori inclusi
Conservazione del nome del parlante:
- Tutti i formati includono i nomi dei parlatori assegnati
- Etichette generiche (Parlatore 1, 2, 3) utilizzate se i nomi non sono assegnati
- Timestamp inclusi nei formati Word, PDF e SRT
Diarizzazione del Parlatore vs Etichettatura Manuale
Capire quando la diarizzazione automatica fa risparmiare tempo:
| Fattore | Diarizzazione Automatica | Etichettatura Manuale |
|---|---|---|
| Velocità | 1-3 minuti di elaborazione | 10x lunghezza della registrazione |
| Precisione | 90-95% (audio buono) | 100% (se attenti) |
| Sforzo | Rivedi + assegnazione del nome | Trascrivi + etichetta manualmente |
| Costo | Elaborazione AI | Costo del tempo |
| Ideale per | La maggior parte delle registrazioni | Legale/medico critico |
Quando utilizzare la diarizzazione automatica:
- Riunioni aziendali generali
- Podcast e interviste
- La maggior parte delle applicazioni di ricerca
- Creazione di contenuti
- Documentazione interna
Quando la revisione manuale è essenziale:
- Deposizioni legali
- Consultazioni mediche
- Trattative commerciali ad alto rischio
- Ricerca pubblicata
- Registrazioni critiche per la conformità
Approccio ibrido (best practice):
- Utilizzare la diarizzazione automatica per il passaggio iniziale
- Rivedere manualmente l’accuratezza
- Correggere eventuali errori
- Verificare i segmenti critici
- Esportare la versione finale
Funzionalità Avanzate di Diarizzazione
Rilevamento del Nome del Parlatore AI
Per alcuni contenuti, l’IA può suggerire i nomi dei parlatori:
Come funziona:
- L’IA analizza il contesto della trascrizione
- Cerca auto-presentazioni (“Ciao, sono John…”)
- Rileva schemi (host vs ospite, intervistatore vs soggetto)
- Suggerisce nomi in base al contesto
Quando disponibile:
- Interviste con introduzioni formali
- Podcast con struttura host/ospite
- Riunioni in cui i partecipanti si presentano
Accettare suggerimenti:
- Rivedi i nomi suggeriti dall’IA
- Verifica che corrispondano ai parlatori corretti
- Accetta o modifica secondo necessità
- L’IA impara dalle tue correzioni
Integrazione dei membri del team
Collega gli oratori al tuo spazio di lavoro:
- Assegna i partecipanti alla riunione ai membri del team
- Le etichette degli oratori rimandano ai profili utente
- Tagga automaticamente i membri del team nelle trascrizioni
- Tieni traccia dei contributi individuali durante le riunioni
Vantaggi:
- Nomi degli oratori coerenti in tutte le riunioni
- Link a e-mail/profilo
- Analisi per membro del team
- Ricercabile per persona
Diarizzazione multilingue
ScreenApp effettua la diarizzazione in oltre 100 lingue:
- Carica l’audio in qualsiasi lingua
- L’intelligenza artificiale rileva automaticamente la lingua
- La diarizzazione funziona indipendentemente dalla lingua
- I nomi degli oratori possono essere in qualsiasi lingua
Lingue supportate: Tutte le lingue supportate per la trascrizione supportano anche la diarizzazione
Privacy e dati degli oratori
ScreenApp gestisce i dati degli oratori in modo sicuro:
Protezione dei dati:
- Impronte vocali generate temporaneamente per la diarizzazione
- Non memorizzate dopo il completamento dell’elaborazione
- Nomi degli oratori controllati da te
- Nessuna condivisione con terzi
- Elimina in qualsiasi momento
Per registrazioni sensibili:
- Utilizza etichette degli oratori anonime (Partecipante 1, 2, 3)
- Non assegnare nomi reali se è richiesta la privacy
- Controlla chi può accedere alle trascrizioni
- Elimina dopo il completamento dell’analisi
Prossimi passi
Ora che hai compreso la diarizzazione degli oratori, esplora questi argomenti correlati:
- Come trascrivere l’audio in testo - Padroneggia le basi della trascrizione
- Best practice per gli appunti delle riunioni - Utilizza la diarizzazione per migliorare i documenti delle riunioni
- Come riassumere i video - Estrai i punti chiave per oratore
Prova subito la diarizzazione degli oratori
ScreenApp semplifica l’identificazione degli oratori grazie alla diarizzazione automatica, ai suggerimenti di nomi basati sull’intelligenza artificiale e alla facile assegnazione degli oratori. Trasforma le registrazioni con più oratori in trascrizioni organizzate e attribuibili.
Pronto a identificare gli oratori nella tua prima registrazione? Prova la diarizzazione degli oratori di ScreenApp gratuitamente e segui questa guida.
