L’analisi della regressione è una tecnica usata per analizzare una serie di dati che costituiscono una variabile dipendente ed una o più variabili indipendenti. Lo scopo è anche quello di stimare una eventuale relazione funzionale esistente tra la variabile dipendente e le variabili indipendenti. Le variabili dipendenti nell’equazione di regressione costituiscono una funzione delle variabili indipendenti più un temine d’errore. Quest’ultimo è una variabile casuale e rappresenta una variazione non controllabile e imprevedibile nella variabile dipendente. I parametri sono stimati in modo da descrivere al meglio i dati. Il metodo più comunemente utilizzato per ottenere le migliori stime è il metodo dei minimi quadrati (OLS), ma sono utilizzati anche altri metodi.
Pacchetti di dati e dati massivi
Il data modeling (modellazione dei dati) può essere usato senza alcuna conoscenza dei processi sottostanti che hanno generato i dati. In questo caso è un modello empirico che ci permette di comprendere il ruolo dei “dati” e del digitale. Secondo l’osservatorio ODAR della SI-IES, ad oggi, con computer, smartphone e connessioni ad internet sempre più veloci, con una moltitudine di oggetti connessi (IoT), televisori, lavatrici, frigoriferi e aspirapolvere, si trasmettono in tempo reale da qualsiasi tipo di dispositivo una mole abnorme di dati. Si calcola in media che già all’inizio dal decennio in corso, ogni persona condivide quotidianamente 1.5 Gb di dati attraverso la rete. Questa immersione di dati va sotto il nome “Megadati”,” Dati massivi”, o più semplicemente “Big Data”. Sono dati con tre caratteristiche fondamentali: grande volume, generazione in tempo reale ed eterogeneità. Questi strumenti specifici non solo si differenziano dagli altri in termini tecnici o matematici, ma comportano anche un nuovo modo di pensare e di agire.
La capacità dei dati
Netflix, Amazon o Spotify funzionano anche per la capacità di gestire i dati di milioni di profili di utenti e tutti in tempo reale. Il cambiamento concettuale generato dai Big Data è quello che riguarda la “casualità”, ossia la capacità dei dati di rilevare il perché dei fenomeni. L’obiettivo è quello delle analisi dei dati con il machine learning ed il deep learning per capire tendenze e comportamenti.
Apprendimento automatico
l Machine Learning o apprendimento automatico è l’insieme degli algoritmi in grado di apprendere a partire dall’esperienza e progettati in modo che l’apprendimento avvenga automaticamente. Per questo ambito vi è interesse nel campo della genetica, ad esempio per il sequenziamento del DNA, la medicina (diagnosi medicale), l’epidemiologia (rilevazioni di pandemie), l’urbanistica (ottimizzazione del traffico), il marketing, la finanza, i videogiochi ecc. In altre parole, si utilizzano un insieme di dati per addestrare un modello-algoritmico in grado di fare predizione (Dati, modello addestramento, input predizione) e cercare di adattare le reti neurali ai dati.