Studiare schemi e processi del pensiero umano con il data mining

Ricostruire i pattern del pensiero umano studiando le parole che usiamo. Da uno studio di questo tipo su una vasta mole di parole che utilizziamo, oggigiorno sono moltissime e tracciabilissime anche con l’avvento dei nuovi media, possiamo comprendere come sono strutturati i processi cognitivi che ci caratterizzano. Proprio servendosi delle scoperte scientifiche già elaborate ma andando a riproporle con un approccio di ricerca che si serve dell’innovazione tecnologica e sfrutta l’uso dei dati, possiamo fare grandi passi avanti. Il data mining è proprio quella tecnica che consente di estrarre informazioni da una grossa mole di dati. In questo caso la finalità è scientifica e potremmo dotarci di metodi più o meno automatici.

Ma partiamo dalla teoria: le parole che utilizziamo nel nostro linguaggio quotidiano e la loro distribuzione e frequenza all’interno del discorso, quando scegliamo determinate parole piuttosto che altre, dipendono dai nostri processi cognitivi. Già nel 1935, George Zipf scoprì la relazione tra l’utilizzo di parole più comuni e meno comuni, andando a contare quante volte si riproponevano determinate parole nel linguaggio ordinario e riuscì a classificare queste parole in base alla loro frequenza. La regolarità con cui si riproponevano in termini di frequenza, evidenziò che c’era una relazione inversamente proporzionale in base al ranking di queste. La parola al primo posto si proponeva con una frequenza pari al doppio della seconda, la terza di un-terzo e via dicendo.

Ad esempio da uno studio sulla lingua inglese, la parola più popolare è “the”, che rappresenta circa il 7% di tutte le parole, seguita da “and”, che si verifica il 3,5% delle volte, e così via. Infatti, circa 135 parole rappresentano la metà di tutte le parole apparse in analisi. Quindi poche parole compaiono spesso, mentre molte altre non appaiono quasi mai.

Un’intrigante chiave di lettura è che il cervello elabora le parole comuni in modo diverso da quelle meno comuni e, dunque, lo studio della distribuzione di Zipf andrebbe a rivelare importanti informazioni su questo processo cerebrale. Quella costanza proporzionale scoperta più di 80 annu fa, con il suo carattere statistico, fu importante sul funzionamento dei processi cognitivi umani.

Non tutti i linguisti sono d’accordo con questa teoria, sul fatto che la distribuzione statistica della frequenza delle parole sia il risultato di processi cognitivi. Invece, per contro, affermano che la distribuzione è il risultato di errori statistici associati alle parole a bassa frequenza che possono produrre distribuzioni simili fra loro.

Ed ecco che per superare questa diatriba sarebbe necessario uno studio più ampio in una vasta gamma di lingue, uno studio applicato ai big data e uno studio che faccia leva sul data mining. Un tale studio su larga scala sarebbe statisticamente più potente e quindi in grado di definire maggiormente la costanza di tali teorie.

Oggi, come riporta il MIT Technology Review, abbiamo solo uno studio del genere che grazie al lavoro di Shuiyuan Yu e dei suo colleghi della Communication University of China di Pechino ci da delle interessanti risposte. Questi ragazzi hanno trovato che la legge di Zipf si verifica in 50 lingue prese da una vasta gamma di classi linguistiche, tra cui indoeuropeo, uralico, altaico, caucasico, sino-tibetano, dravidico e afroasiatico.

Yu e soci affermano che le frequenze di distribuzione della terminologia in queste lingue condividono una struttura comune che differisce da quella che produrrebbero gli errori statistici. Inoltre,sostengono, che questa struttura suggerisce che il cervello elabora le parole comuni in modo diverso da quelle non comuni, un’idea che ha importanti conseguenze per tutti coloro che studiano l’elaborazione del linguaggio naturale e la generazione automatica di testo.

Il metodo di Yu e compagni è semplice: hanno iniziato con due grandi raccolte di testi chiamate, rispettivamente, British National Corpus e Leipzig Corpus. Queste includono campioni di 50 lingue diverse, ciascuno contenente almeno 30.000 frasi e fino a 43 milioni di parole.

I ricercatori hanno scoperto che la frequenza delle parole in tutte le lingue analizzate, segue la legge di Zipf, e va a modificarla leggermente, determinando che la distribuzione può essere divisa in tre segmenti: "I risultati statistici mostrano che le leggi di Zipf in 50 lingue condividono un modello strutturale a tre segmenti, con ogni segmento che dimostra proprietà linguistiche distintive", afferma Yu.

Questa struttura è interessante. Yu e co. hanno provato a simularlo usando un certo numero di modelli per creare parole. Un modello è quello della scimmia con la macchina da scrivere “monkey-at-a-typewriter model”, che genera lettere casuali che formano parole ogni volta che si verifica uno spazio. Questo processo genera una distribuzione come la legge di Zipf. Tuttavia, non può generare la struttura a tre segmenti trovata da Yu e soci, né questa struttura può essere generata da errori associati alle parole a bassa frequenza.

Tuttavia, Yu e i suoi colleghi sono stati in grado di riprodurre questa struttura usando un modello del modo in cui il cervello funziona chiamato “teoria del doppio processo”. Questa è l’idea che il cervello funzioni in due modi diversi.

Il primo è un pensiero intuitivo veloce che richiede un ragionamento minimo o nullo. Si pensa che questo tipo di pensiero si sia evoluto per consentire agli esseri umani di reagire rapidamente in situazioni minacciose. Generalmente fornisce buone soluzioni a problemi difficili, come il riconoscimento di modelli, ma può essere facilmente ingannato da situazioni non intuitive.

Oltre a questo processo, gli esseri umani, sono in grado di pensare molto più razionalmente. Questo secondo tipo di pensiero è più lento, più calcolatore e deliberato. È questo tipo di pensiero che ci consente di risolvere problemi complessi come i puzzle matematici e così via.

La teoria del doppio processo suggerisce che parole comuni come “the”, “and”, “if”, siano elaborate da un pensiero veloce e intuitivo e così vengano usate più spesso. Queste parole formano una sorta di spina dorsale per le frasi. Tuttavia, parole e frasi meno comuni come sostiene la legge di Zipf richiedono un pensiero molto più accurato e a causa di questo si verificano meno spesso.

Infatti, quando Yu e i suoi colleghi simulano questo doppio processo, ne diviene che nella distribuzione di frequenza delle parole tutto porta alla stessa struttura a tre segmenti misuarta in 50 lingue differenti.

Il primo segmento riflette la distribuzione di parole comuni, l’ultimo segmento riflette la distribuzione di parole non comuni e il segmento centrale è il risultato del intersecazione di questi due regimi. "Questi risultati mostrano che la legge di Zipf nelle lingue è motivata da meccanismi cognitivi come la doppia elaborazione che governano i comportamenti verbali umani", affermano Yu e co.

Ciò dovrebbe avere conseguenze interessanti per gli informatici che lavorano sull’elaborazione del linguaggio naturale. Questo campo ha beneficiato di enormi progressi negli ultimi anni, questi sono derivati da algoritmi di apprendimento automatico, ma anche da grandi database di testo raccolti da aziende come Google. Ma generare un linguaggio naturale è ancora difficile. Non serve molto nella chat con Siri, Cortana o l’Assistente Google per superare e comprendere i loro limiti di conversazione.

Quindi una migliore comprensione di come gli esseri umani generano frasi potrebbe aiutare in modo significativo. Zipf sicuramente da questa questione ne avrebbe destato certamente molto fascino  e interesse.

Altri articoli dell'autore

Advertisment

Puoi leggere anche...

567FansLike
1,441FollowersFollow

Ultime notizie

Agroalimentare e la sua filiera

I lettori di Sentieri Digitali hanno avuto modo di comprendere l’impegno costante per un settore così strategico del nostro Paese e dell’Europa. Nell’ambito della...

L’acqua

L’acqua vuol dire vita e quindi è un bene primario. Senza fare polemiche è ben rappresentare che la rete idrica del nostro paese a dir...

Comunità Energetica

Il Clean Energy for Europe Package è basato su una proposta della Commissione Europea del Novembre 2016 e definisce gli obiettivi e la strategia...

Vuoi avere le notizie aggiornate ogni mercoledi?

Iscriviti alla newsletter

LinkedIn
LinkedIn
Share