Terzo di una serie di testi, riepiloga prima di tutto la metodologia di lavoro standard CRISP DM utilizzata in questa opera e in progetti di Scienza dei Dati. Poichè questo testo utilizza Orange per gli aspetti applicativi, ne descrive l’installazione ed i widget.
Considera quindi il concetto di modello, il suo ciclo di vita e la relazione con misure e metriche.
Vengono quindi descritte le misure di localizzazione, dispersione, asimmetria, correlazione, similarità, distanza. Vengono considerate le metriche di test and score utilizzate nel machine learning, quelle relative a testi e documenti, le metriche di associazione tra elementi in un carrello degli acquisti, di relazione tra oggetti, somiglianza tra insiemi e tra grafi, somiglianza tra serie temporali.
Come attività preliminare alla fase di modellizzazione viene approfondita l’Analisi Esplorativa dei Dati in termini di domande, processo, tecniche e tipologie di problemi. Per ognuno delle tipologie di problemi vengono considerati i grafici consigliati, le modalità di interpretazione dei risultati e la loro realizzazione in Orange.
Il testo è corredato di materiale di supporto ed è possibile scaricare gli esempi in Orange e i dati di prova.
Laureato in Informatica, ha insegnato Informatica, Linguaggi Formali e Compilatori all'Università di Bari alla Facoltà di Informatica e Fondamenti di Informatica II al Politecnico di Bari nel corso di Laurea in Ingegneria Elettronica
Ha lavorato inoltre per oltre vent'anni in diverse aziende anche nel campo della Data Science