: Il modello Latent Dirichlet Allocation (LDA), introdotto in Blei et al. (2003), è il più importante modello a topic latenti per l’analisi non supervisionata di un corpus di documenti testuali. La probabilità di occorrenza di ciascun termine di un documeno, pur non dipendendo dalla posizione occupata nel documento, è un miscuglio di multinomiali le cui probabilità di occorrenza dipendono dal topic che genera il particolare token che stiamo considerando. In questo modo, token distinti possono essere generati da topic diversi (non esiste un contenuto tematico globale), e l’identificazione del significato dei topic latenti diventa un potente strumento di riduzione della dimensionalità del corpus di documenti che stiamo studiando. Da un punto di vista formale il modello LDA è un modello Bayesiano gerarchico complesso. La non trattabilità della relativa distribuzione a posteriori ha reso necessaria l’introduzione di metodi numerici di calcolo ad hoc, come ad esempio quelli che sono basati sull’inferenza variazionale. Altri metodi più tradizionali, come il campionamento di Gibbs, possono essere opportunamente adattati per ridurre la complessità computazionale derivante dalla mole dei dati trasportata da un corpus di documenti testuali. Questi metodi numerici sono tuttavia caratterizzati da una elevata complessità di esposizione. Pertanto, questo paper raccoglie in un contributo unificato i principali risultati esistenti per il modello LDA e i relativi metodi computazionali.

Inferenza per modelli a topic latenti: una introduzione

Bilancia Massimo
Conceptualization
;
2020-01-01

Abstract

: Il modello Latent Dirichlet Allocation (LDA), introdotto in Blei et al. (2003), è il più importante modello a topic latenti per l’analisi non supervisionata di un corpus di documenti testuali. La probabilità di occorrenza di ciascun termine di un documeno, pur non dipendendo dalla posizione occupata nel documento, è un miscuglio di multinomiali le cui probabilità di occorrenza dipendono dal topic che genera il particolare token che stiamo considerando. In questo modo, token distinti possono essere generati da topic diversi (non esiste un contenuto tematico globale), e l’identificazione del significato dei topic latenti diventa un potente strumento di riduzione della dimensionalità del corpus di documenti che stiamo studiando. Da un punto di vista formale il modello LDA è un modello Bayesiano gerarchico complesso. La non trattabilità della relativa distribuzione a posteriori ha reso necessaria l’introduzione di metodi numerici di calcolo ad hoc, come ad esempio quelli che sono basati sull’inferenza variazionale. Altri metodi più tradizionali, come il campionamento di Gibbs, possono essere opportunamente adattati per ridurre la complessità computazionale derivante dalla mole dei dati trasportata da un corpus di documenti testuali. Questi metodi numerici sono tuttavia caratterizzati da una elevata complessità di esposizione. Pertanto, questo paper raccoglie in un contributo unificato i principali risultati esistenti per il modello LDA e i relativi metodi computazionali.
2020
978-88-6629-023-0
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11586/369675
 Attenzione

Attenzione! I dati visualizzati non sono stati sottoposti a validazione da parte dell'ateneo

Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact