È possibile classificare le parole in base alla loro polarità ossia al loro sentimento? Qual è la percezione social che emerge sui temi inerenti all’agricoltura? Scopriamo insieme ai nostri esperti Marco Vassallo e Giuliano Gabrieli (Ufficio di Statistica del CREA Politiche e Bioeconomia) cosa si intende per sentiment analysis e come applicarla ai temi di ricerca del CREA in generale e, nello specifico, al tema della agrobiodiversità.
Cos’è la sentiment analysis?
L’analisi del sentimento, conosciuta come sentiment analysis o opinion mining, viene definita come quella applicazione della linguistica computazionale “…che si occupa di classificare ed analizzare le opinioni soggettive e le emozioni espresse in un frammento di linguaggio naturale” (Basile, 2020; p.160): si tratta di classificare in termini di estrazione del sentimento (o polarità) positivo, negativo, neutrale attraverso tecniche automatiche di elaborazione del linguaggio naturale.
[1] Elenco di parole (forme o lemmi) associate ad uno o più punteggi numerici o categoriali. Attraverso l’utilizzo dei lessici affettivi è possibile quindi avere dei punteggi positivi, negativi o neutrali (intorno allo zero) alle parole che compongono un testo.
[2] Il MAL è stato di recente applicato da ricercatori dell’Università di Pisa e del CNR nella seguente pubblicazione: Pes G., Lo Duca A., Marchetti A. (2021). Towards Sentiment Analysis of Tweets from Online Newspapers Regarding the Coronavirus Pandemic. HighTech and Innovation Journal, 2, 4, pp. 359-372. DOI: 10.28991/HIJ-2021-02-04-08
[3] The R-project for Statistical Computing: https://www.r-project.org
Nello specifico per questo lavoro è stato applicato un metodo basato su un lessico affettivo1 morfosintattico chiamato MAL2 (Morphologically-inflected Affective Lexicon; Vassallo et al., 2019) e la sua recente implementazione specifica per Twitter chiamata Weighted-MAL (W-MAL; Vassallo et al., 2020), sviluppati entrambi dal CREA-Politiche e Bioeconomia e dal Dipartimento di Informatica della Università di Torino. Il W-MAL costituisce una sorta di validazione essendo più sensibile alla tematica oggetto del sentimento, poiché assegna pesi maggiori a parole ricercate, ovvero meno frequentemente utilizzate, tenendo, quindi, in maggiore considerazione il contesto di riferimento. Sia il MAL che il W-MAL sono stati implementati all’interno del software statistico R3.
La ricerca effettuata: il metodo
Obiettivo di questo lavoro è stato quello di polarizzare l’opinione di alcuni media, considerati generalisti, sul tema dell’agro-biodiversità, biodiversità a tavola, e quindi biodiversità nell’agroalimentare, e biodiversità agricola: 79 profili tra cui 50 televisioni, 25 quotidiani, 4 settimanali italiani. Proprio da questi è stato estrapolato e analizzato quanto veniva riportato in merito dai loro profili Twitter nel corso del 2021. Sono state utilizzate, come chiavi di ricerca le parole “agrobiodiversità”, “agro-biodiversità”, “agro_biodiversità”, “biodiversità”, “a tavola”, “filiera”, “agricola”, “agricole”, “alimentare”, “alimentari”, “agroalimentare”, “agroalimentari”.
Ne è emerso che, a fronte di 174.951 tweet pubblicati dai profili selezionati nel 2021, sono stati ottenuti solo 651 tweet (0,004% sul totale) a partire dalle parole chiave selezionate. Si tratta di un primo risultato, che conferma la scarsa presenza mediatica del fenomeno nei contenuti dei media generalisti. In particolare, da segnalare la completa assenza della parola “agrobiodiversità”. Anche il termine “biodiversità”, che rappresenta il fenomeno in maniera più ampia, non risulta molto presente (solo 62 tweet sui 651; 9,5%) rispetto agli altri termini (“a tavola”, “filiera”, “agricola”, “agricole”, “alimentare”, “alimentari”, “agroalimentare”, “agroalimentari”) legati al contesto agro-ambientale e alimentare (589 tweet su 651; 90,5%). Il totale dei tweet di nostro interesse, quindi, è stato suddiviso in due gruppi: il primo, composto dai 62 tweet estrapolati con la chiave “biodiversità” – che chiameremo appunto Biodiversità – e il secondo, composto dai restanti 589 tweet estrapolati con le altre chiavi, considerato come gruppo sull’agroalimentare generico, ma comunque legato al fenomeno della agro-biodiversità, e che chiameremo Agroalimentare.
Risultati preliminari descrittivi
Dalla tabella 1 emerge come il canale prevalente dove vengono trattate queste tematiche sia la televisione, che si conferma ancora oggi il canale maggiormente preferito e più inclusivo per la ricezione di informazioni da parte dell’ampio pubblico e dei consumatori: per la tematica “biodiversità” con il 54,8% dei tweet, e per quella “agroalimentare”con il 61,1% dei tweet.
Tipologia di media | Tematica | |||
Biodiversità | Agroalimentare | |||
n | % | n | % | |
Quotidiano | 13 | 21,0 | 191 | 32,4 |
Settimanale | 15 | 24,2 | 38 | 6,5 |
Televisione | 34 | 54,8 | 360 | 61,1 |
Totale | 62 | 100 | 589 | 100 |
In figura 1 si riporta un’analisi cluster testuale condotta attraverso il metodo ALCESTE, implementato all’interno del software IRaMuTeQ4 version 0.7 alpha 2, dove è possibile visualizzare quale profilo di media ha trattato maggiormente le due tematiche su Twitter sempre nel corso del 2021.
[4] IRaMuTeQ – Interfaccia R per testo multidimensionale e analisi di questionari: http://www.iramuteq.org/
La figura 1 conferma quanto sopra già evidenziato e cioè che il tema “agrobiodiversità” sia completamente ignorato e, quindi, non faccia parte del dibattito pubblico, probabilmente per una difficoltà dell’uso e della conoscenza di questo termine. La figura 1 mostra, inoltre, come i temi affini all’agrobiodiversità risultino maggiormente approfonditi dalle emittenti RAI: è facilmente deducibile che ciò avvenga a causa dello scarso appeal mediatico di questi temi, di cui l’opinione pubblica si ricorda solo in concomitanza di fatti di attualità eclatanti (es. COP26, terra dei fuochi, scandali di carattere alimentare…) e che vengono trattati, invece, doverosamente, in un’ottica informativa ed educativa dal servizio pubblico.
Risultati dell’analisi del sentimento
In figura 2 sono riportati i valori percentuali dei tweet classificati come positivi, negativi e neutrali per tematica, ottenuti con la risorsa MAL e sua implementazione WMAL, che tiene maggiormente conto del contesto di riferimento.
Da notare come la tematica Agroalimentare ottenga punteggi positivi maggiori rispetto alla Biodiversità, che ottiene, invece, punteggi negativi maggiori rispetto alla prima.
Di seguito vengono riportati degli esempi di tweet positivi e negativi per tematica estratti dal W-MAL.
Biodiversità, esempi di tweet positivi:
- siamo andati in un’azienda nel viterbese che produce nocciole biologiche e fa una propria crema spalmabile abbiamo cercato le cimici nocciole su noi contro la cimice non usiamo niente la tecnica è la biodiversità.
- ai diplomatici dalla transizione energetica la sicurezza alimentare la biodiversità dipende il futuro il contributo delle deve essere valorizzato la persona sia punto di riferimento centrale per la non siano algoritmi a scegliere per noi
Biodiversità, esempi di tweet negativi:
- sì che le piante pietre sole semi che vengono da lontano vi siete mai chiesti che flora cresce lungo una ferrovia oggi visitiamo la mostra binario biodiversità in transito del radio
- dobbiamo cominciare a pensare al mare come facciamo con la terra non solo l automotove c è anche il traffico marittimo quindi la nostra pressione costiera di prelievo che comunque mette in difficoltà il mediterraneo che è piccolissimo ma ricco di biodiversità
Agroalimentare, esempi di tweet positivi potenzialmente legati all’agro-biodiversità:
- i nostri più uno buoni propositi gastronomici per il deve valorizzare la semantica originaria di alcuni termini prediligere alimenti locali e di stagione optare per soluzioni plastic free e contribuire a combattere lo spreco alimentare
- quando la rivoluzione dell uva da tavola passa da un sacchetto attraverso la coltivazione sperimentale di grappoli insacchettati op agritalia ha raggiunto una produzione a residuo zero che fa bene all ambiente e al territorio
Agroalimentare, esempi di tweet negativi potenzialmente legati all’agrobiodiversità:
- le impressionanti parole di un grossista di carne che racconta a come funziona questo mercato e come la competizione sui prezzi stia strozzando chi invece lavora ancora su una filiera sostenibile e di qualità reportage su
- filiera corta e rete globale per battere la fame deve unirsi tutto il mondo
- a tavola solo frutta perfetta così si uccide l’agricoltura mentre le coltivazioni agricole sono in affanno per l’emergenza climatica i prodotti ortofrutticoli brutti vengono destinati all industria di trasformazione o finiscono per essere buttati
Una prima considerazione importante ha riguardato la scarsa presenza mediatica della parola e del concetto di agro-biodiversità almeno nel mondo di Twitter, in particolare nei contenuti mediatici trattati dai media “generalisti”, nel corso del 2021. Questo probabilmente è causato da una difficoltà dell’uso e della conoscenza di questo termine. Ciononostante, le molteplici implicazioni sia agricole sia alimentari e ambientali che coinvolgono il concetto di agro-biodiversità hanno direzionato lo studio verso una sua contestualizzazione su tematiche di riferimento ad esso correlato come biodiversità in sé, biodiversità agroalimentare e agricola.
L’analisi del sentimento con il W-MAL su 79 profili mediatici generalisti, dei quali il 50-60% è formato da programmi televisivi, ha mostrato rispettivamente un sentimento positivo in circa il 55% dei tweet e negativo nel restante 45% verso il concetto di biodiversità e tematiche ad essa legate. L’alta percentuale di sentimento negativo è dovuta a una denuncia generalizzata nel non considerare la biodiversità come necessaria nel mondo agricolo e alimentare. La percentuale di positività è incrementata al 69% quando si è parlato di tematiche più strettamente agroalimentari che, in qualche modo, possono essere riconducibili alla agro-biodiversità.
Per saperne di più
- Basile V. (2020). I Computer e il Linguaggio Naturale. Ithaca: Viaggio nella Scienza, 16, 151-165. http://siba-ese.unisalento.it/index.php/ithaca/article/view/23009
- Vassallo M., Gabrieli G., Basile V., Bosco C. (2019). The tenuousness of lemmatization in lexicon-based sentiment analysis. Proceedings of the Sixth Italian Conference on Computational Linguistics (CLiC-it 2019). http://ceur-ws.org/Vol-2481/
- Vassallo M., Gabrieli G., Basile V., Bosco C. (2020). Polarity imbalance in lexicon-based sentiment analysis. Proceedings of the Seventh Italian Conference on Computational Linguistics (CLiC-it 2020). http://ceur-ws.org/Vol-2769/
Ha una lunga esperienza nei metodi statistici multivariati a struttura latente applicati allo studio di modelli decisionali nell’agroalimentare. Recentemente la sua attività di ricerca si è focalizzata nell’analisi automatica del linguaggio naturale in Agricoltura
#lafrase If you change nothing, nothing will change (Tony Robbins)
Statistico di formazione, master in “Data Science”, data analyst con esperienza in big data, tecniche di campionamento, text-mining e sentiment analysis. Membro dell’Ufficio di Statistica dell’Ente
#lafrase Il web ci ha insegnato il potere dell’“effetto di rete”: quando connettete le persone e le idee, esse crescono (Chris Anderson)