Σκοπός του μαθήματος είναι η γνωριμία των φοιτητών και των φοιτητριών με έννοιες που αφορούν την εξόρυξη γνώσης από δεδομένα. Πιο συγκεκριμένα, στόχοι του μαθήματος αποτελούν το να βοηθήσει τους φοιτητές και τις φοιτήτριες:
Να γνωρίσουν τις εφαρμογές Εξόρυξης Γνώσης και τα στάδια της Εξόρυξης Γνώσης από Δεδομένα (Knowledge Discovery in Databases)
Να εφαρμόζουν τις κατάλληλες τεχνικές προ-επεξεργασίας δεδομένων με στόχο την προετοιμασία των δεδομένων για Εξόορυξη Γνώσης
Να κατανοήσουν τον τρόπο λειτουργίας διάφορων αλγορίθμων κατηγοριοποίησης, συσταδοποίησης και εξαγωγής κανόνων συσχέτισης
Να εκτιμούν την απόδοση των αλγορίθμων εξόρυξης γνώσης χρησιμοποιώντας τις κατάλληλες τεχνικές επικύρωσης και να αξιολογούν τα παραγόμενα αποτελέσματα με στόχο τη λήψη αποφάσεων
Να σχεδιάζουν και να υλοποιούν Αποθήκες Δεδομένων και εφαρμόζουν αναλυτική επεξεργασία τύπου OLAP και αλγορίθμους εξόρυξης γνώσης σε αυτές
Περιεχόμενο μαθήματος:
- Εισαγωγή στην εξόρυξη γνώσης
- Προετοιμασία δεδομένων (Καθαρισμός δεδομένων, διαχείριση απούσων τιμών, επιλογή χαρακτηριστικών, διακριτοποίηση, διαχείριση ανισοκατανομών σε προβλήματα κατηγοριοποίησης κ.α.)
- Εισαγωγή στην κατηγοριοποίηση, Κατηγορίες αλγορίθμων κατηγοριοποίησης, Αλγόριθμοι που βασίζονται σε πιθανότητες (π.χ. naive bayes), Αλγόριθμοι που βασίζονται στον διαχωρισμό του χώρου (π.χ. Δένδρα αποφάσεων), Αλγόριθμοι που βασίζονται στην ομοιότητα/απόσταση (κ εγγύτεροι γείτονες), αποτελεσματική αναζήτηση εγγύτερων γειτόνων μέσω δεικτοδότησης δεδομένων (π.χ. kdtree), τεχνικές μείωσης δεδομένων εκπαίδευσης. Παραδείγματα σε Python/scikit-learn
- Εισαγωγή στην συσταδοποίηση, Αλγόριθμοι Συσταδοποίησης: Ο αλγόριθμος κ μέσων (k-means) και οι παραλλαγές του, Ιεραρχική συσταδοποίηση, συσταδοποίηση βάσει πυκνότητας (DBSCAN), τεχνικές προσδιορισμού παραμέτρων. Παραδείγματα σε Python/scikit-learn
- Μέτρηση της απόδοσης αλγορίθμων κατηγοριοποίησης και συσταδοποίησης. Παραδείγματα σε Python/scikit-learn
- Κανόνες συσχέτισης, Ο αλγόριθμος Apriori για την ανακάλυψη κανόνων συσχέτισης, μέτρα αξιολόγησης των κανόνων συσχέτισης
- Επεξεργασία τύπου OLTP και OLAP, σχεδίαση και υλοποίηση Αποθήκης Δεδομένων, σχήμα αστέρα και χιονονιφάδας, διαδικασίες Extract-Transform-Load (ETL), πολυδιάστατοι κύβοι δεδομένων, αίτηματα OLAP και αλγόριθμοι εξόρυξης γνώσης σε κύβους δεδομένων.
- Teacher: Στέφανος Ουγιάρογλου