Nell’ambito delle Digital Humanities, la linguistica dei corpora e la linguistica computazionale possono essere viste come due facce della stessa medaglia, il cui valore risiede nel tentativo di integrare aspetti quantitativi e qualitativi dell’analisi linguistica – una sfida resa sempre più affascinante, ma anche impegnativa, dall’aumento esponenziale dei dati linguistici resi disponibili negli ultimi anni. Infatti, nell’era dei big data è inevitabilmente mutata anche la natura delle risorse linguistiche, andando a incidere su approcci, metodi e obiettivi nella ricerca.1 L’aumento e la varietà dei dati disponibili ha determinato la possibilità di esplorare nuove aree di indagine, supportando empiricamente domande di ricerca relative ad ambiti diversi da quello linguistico-letterario. È a questo che pensava un gruppo di studiosi quando, oltre dieci anni fa, nel concludere la conferenza annuale della EADH (European Association for Digital Humanities) proponeva un paper intitolato Culturomics, sostenendo l’uso dell’enorme quantità di dati presenti in Google Books come base per indagini incentrate su fenomeni socio-culturali da esplorare a partire da dati linguistici su base meramente quantitativa. La validità di questo approccio è stata variamente messa in discussione, soprattutto da scuole attente ad un più equilibrato bilanciamento fra aspetti quantitativi e qualitativi, ma l’idea di esplorare i fenomeni culturali a partire dai big data linguistici resta una prospettiva affascinante che merita uno spazio all’interno delle Digital Humanities. È in questo contesto che il presente lavoro intende riportare i risultati preliminari di un’indagine empirica condotta sul processo che nel corso dei secoli ha trasformato il significato materiale, molto specifico, della parola culture, nel concetto liquido ed estremamente sfuggente che conosciamo noi oggi. L’analisi parte dai primi risultati di una ricerca corpus-based sul profilo lessico-grammaticale della parola culture a partire dai dati contenuti in corpora sincronici dell’inglese contemporaneo, per poi avviare un’ulteriore indagine sulla base di risorse linguistiche diacroniche. Per l’inglese contemporaneo i corpora di di riferimento sono stati il British National Corpus, ukWaC e EnTenTen 2020. Quanto alle risorse diacroniche, i dati di Google Books, accessibili sia tramite Ngram Viewer sia attraverso gli strumenti disponibili nel sito di Mark Davies, BYU Corpora, sono stati utilizzati per verificare alcune ipotesi sul comportamento della parola culture nel XIX e XX secolo, mentre i dati del Corpus English Historical Book Collection, consultato mediante Sketch Engine, sono stati utilizzati per esplorare dati relativi al periodo compreso tra il XV e il XVIII secolo. I risultati parziali di questa ricerca suggeriscono che c’è spazio per indagini di ampio respiro sulla storia di questa parola così “complicata”, come l’ha definita Raymond Williams nel suo storico Keywords, e mostrano come i metodi di ricerca e le risorse linguistiche sviluppate nella linguistica dei corpora e nella linguistica computazionale possono integrare studi condotti nell’ambito della storia della lingua, della sociolinguistica e degli studi culturali, se non addiruttra fornire le basi per nuove domande di ricerca e ulteriori indagini, nell’ambito del più ampio alveo delle Digital Humanities.

Culture, big data e Digital Humanities

Maristella Gatto
2024-01-01

Abstract

Nell’ambito delle Digital Humanities, la linguistica dei corpora e la linguistica computazionale possono essere viste come due facce della stessa medaglia, il cui valore risiede nel tentativo di integrare aspetti quantitativi e qualitativi dell’analisi linguistica – una sfida resa sempre più affascinante, ma anche impegnativa, dall’aumento esponenziale dei dati linguistici resi disponibili negli ultimi anni. Infatti, nell’era dei big data è inevitabilmente mutata anche la natura delle risorse linguistiche, andando a incidere su approcci, metodi e obiettivi nella ricerca.1 L’aumento e la varietà dei dati disponibili ha determinato la possibilità di esplorare nuove aree di indagine, supportando empiricamente domande di ricerca relative ad ambiti diversi da quello linguistico-letterario. È a questo che pensava un gruppo di studiosi quando, oltre dieci anni fa, nel concludere la conferenza annuale della EADH (European Association for Digital Humanities) proponeva un paper intitolato Culturomics, sostenendo l’uso dell’enorme quantità di dati presenti in Google Books come base per indagini incentrate su fenomeni socio-culturali da esplorare a partire da dati linguistici su base meramente quantitativa. La validità di questo approccio è stata variamente messa in discussione, soprattutto da scuole attente ad un più equilibrato bilanciamento fra aspetti quantitativi e qualitativi, ma l’idea di esplorare i fenomeni culturali a partire dai big data linguistici resta una prospettiva affascinante che merita uno spazio all’interno delle Digital Humanities. È in questo contesto che il presente lavoro intende riportare i risultati preliminari di un’indagine empirica condotta sul processo che nel corso dei secoli ha trasformato il significato materiale, molto specifico, della parola culture, nel concetto liquido ed estremamente sfuggente che conosciamo noi oggi. L’analisi parte dai primi risultati di una ricerca corpus-based sul profilo lessico-grammaticale della parola culture a partire dai dati contenuti in corpora sincronici dell’inglese contemporaneo, per poi avviare un’ulteriore indagine sulla base di risorse linguistiche diacroniche. Per l’inglese contemporaneo i corpora di di riferimento sono stati il British National Corpus, ukWaC e EnTenTen 2020. Quanto alle risorse diacroniche, i dati di Google Books, accessibili sia tramite Ngram Viewer sia attraverso gli strumenti disponibili nel sito di Mark Davies, BYU Corpora, sono stati utilizzati per verificare alcune ipotesi sul comportamento della parola culture nel XIX e XX secolo, mentre i dati del Corpus English Historical Book Collection, consultato mediante Sketch Engine, sono stati utilizzati per esplorare dati relativi al periodo compreso tra il XV e il XVIII secolo. I risultati parziali di questa ricerca suggeriscono che c’è spazio per indagini di ampio respiro sulla storia di questa parola così “complicata”, come l’ha definita Raymond Williams nel suo storico Keywords, e mostrano come i metodi di ricerca e le risorse linguistiche sviluppate nella linguistica dei corpora e nella linguistica computazionale possono integrare studi condotti nell’ambito della storia della lingua, della sociolinguistica e degli studi culturali, se non addiruttra fornire le basi per nuove domande di ricerca e ulteriori indagini, nell’ambito del più ampio alveo delle Digital Humanities.
2024
9791259653543
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11586/469420
 Attenzione

Attenzione! I dati visualizzati non sono stati sottoposti a validazione da parte dell'ateneo

Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact