Data Science : Manuale Italiano - Aspetti metodologici, Acquisizione, Gestione e Pulizia dei Dati: con applicazioni nell’ambiente Python-based Orange

· DATA SCIENCE : MANUALE ITALIANO کتاب 1 · Mario Capurso
ای-کتاب
214
صفحه‌ها
واجد شرایط

درباره این ای-کتاب

Questa opera segue il curriculum 2021 della Association for Computing Machinery per specialisti in Scienze dei Dati, con l’obiettivo di costituire un “Bignami” della Scienza ed Ingegneria dei Dati e facilitare il percorso di formazione personale a partire da competenze specialistiche in Informatica o Matematica o Statistica per un lettore di lingua madre italiana.

Per motivi legati alla fruibilità in formato elettronico, il testo è stato suddiviso in parti con un numero non esagerato di pagine, mantenendo costante la parte metodologica introduttiva e la bibliografia e con una numerazione dei paragrafi che rimanda al testo complessivo nella sua forma integrata.

Primo di una serie di testi, copre gli aspetti metodologici della scienza dei dati, l’acquisiziona, la gestione e pulizia dei dati. Descrive la metodologia CRISP DM, le fasi lavorative, i criteri di successo, i linguaggie gli ambienti utilizzabili, le librerie applicative. Poichè questo testo utilizza Orange per gli aspetti applicativi, ne viene descritta l’installazione ed i widget.

Nell’acquisizione vengono descritte le fonti dei dati, le tecniche di accelerazione, i metodi di discretizzazione, gli standard di sicurezza, i tipi e le rappresentazione dei dati, le tecniche per gestire corpus di testi come bag-of-words, word-count, TF-IDF, n-grams, analisi lessicale, analisi sintattica, analisi semantica, filtraggio stop word, stemming, le tecniche per rappresentare ed elaborare le immagini, le tecniche di campionamento, di filtraggio, di web scraping.

Vengono analizzate le dimensioni della qualità dei dati, gli algoritmi per l’identificazione dell’entità, della scoperta della verità, la pulizia basata su regole, la gestione dei valori mancanti e ripetuti, la codifica dei valori categoriali , la pulizia dei valori anomali e degli errori, la gestione delle inconsistenze, lo scaling, l’integrazione dei dati da varie fonti e la classifica delle fonti aperte, gli scenari applicativi e l’uso di databases, datawarehouses, data lakes e mediators, la mappatura degli schemi di dati e il ruolo di RDF, OWL e SPARQL, le trasformazioni.

Il testo è corredato di materiale di supporto ed è possibile scaricare gli esempi in Orange e i dati di prova.

درباره نویسنده

Laureato in Informatica, ha insegnato Informatica, Linguaggi Formali e Compilatori all'Università di Bari alla Facoltà di Informatica e Fondamenti di Informatica II al Politecnico di Bari nel corso di Laurea in Ingegneria Elettronica

Ha lavorato inoltre per oltre vent'anni in diverse aziende anche nel campo della Data Science

رده‌بندی این کتاب الکترونیک

نظرات خود را به ما بگویید.

اطلاعات مطالعه

تلفن هوشمند و رایانه لوحی
برنامه «کتاب‌های Google Play» را برای Android و iPad/iPhone بارگیری کنید. به‌طور خودکار با حسابتان همگام‌سازی می‌شود و به شما امکان می‌دهد هر کجا که هستید به‌صورت آنلاین یا آفلاین بخوانید.
رایانه کیفی و رایانه
با استفاده از مرورگر وب رایانه‌تان می‌توانید به کتاب‌های صوتی خریداری‌شده در Google Play گوش دهید.
eReaderها و دستگاه‌های دیگر
برای خواندن در دستگاه‌های جوهر الکترونیکی مانند کتاب‌خوان‌های الکترونیکی Kobo، باید فایل مدنظرتان را بارگیری و به دستگاه منتقل کنید. برای انتقال فایل به کتاب‌خوان‌های الکترونیکی پشتیبانی‌شده، دستورالعمل‌های کامل مرکز راهنمایی را دنبال کنید.