Σχεδιασμός, ανάπτυξη και αξιολόγηση συστήματος αναγνώρισης ομιλητή σε κινητές διαδραστικές συσκευές με μηχανισμούς μηχανικής μάθησης
Σαράτσης, Β. (2024). Σχεδιασμός, ανάπτυξη και αξιολόγηση συστήματος αναγνώρισης ομιλητή σε κινητές διαδραστικές συσκευές με μηχανισμούς μηχανικής μάθησης.
Νημερτής: https://nemertes.library.upatras.gr/items/cae91cf6-393b-4802-9b8f-280cef63d122
Αποθετήριο κώδικα: https://github.com/hcilab-upatras/VoiceVer
Περίληψη
Η παρούσα διπλωματική εργασία πραγματεύεται την ταυτοποίηση ενός χρήστη σε περιβάλλοντα διαδραστικών κινητών συσκευών, βασισμένη στα βιομετρικά χαρακτηριστικά που μπορούμε να εξάγουμε από την φωνή του, με την χρήση μηχανικής μάθησης.
Αναγνώριση Ομιλητή (Speaker Recognition) είναι η διαδικασία αναγνώρισης της ταυτότητας ενός χρήστη μόνο από την φωνή του. Η αναγνώριση ομιλητή μπορεί να γίνει ανεξάρτητα του περιεχομένου της λεκτικής φράσης( Text-Independent) ή εξαρτώμενη από αυτήν(Text-Dependent). Στην συγκεκριμένη διπλωματική εργασία αναπτύχθηκαν Text- Independent μοντέλα αναγνώρισης ομιλητή.
Έγινε μια επιστημονική ανασκόπηση σε έναν μεγάλο αριθμό επιστημονικών άρθρων, προκειμένου να καταγραφούν οι τεχνικές εξαγωγής χαρακτηριστικών από την φωνή ενός χρήστη, καθώς και οι μεθοδολογίες διαχωρισμού των φωνητικών εκφράσεων προερχόμενες από διαφορετικούς χρήστες. Οι μεθοδολογίες που μελετήθηκαν είναι τα πολλαπλά μοντέλα GMM, το μοντέλο GMM και UBM με MAP adaptation, Residual CNN και τέλος ECAPA-TDNN. Αποτελούν τις πιο διαδεδομένες μεθόδους στην αναγνώριση ομιλητή και έχουν δείξει εξαιρετικά αποτελέσματα σε μεγάλο αριθμό βιβλιογραφικών αναφορών.
Για την αρχική εκπαίδευση του μοντέλου συλλέχθηκαν φωνητικά αποκόμματα από το site της OpenSLR που παρέχει φωνητικά αρχεία σε πολλές γλώσσες, καθαρά για ανάπτυξη μοντέλων και δημιουργία αλγορίθμων Αναγνώρισης Ομιλίας.
Η υλοποίηση του συστήματος έγινε με την ανάπτυξη προγράμματος σε γλώσσα Python, και η γραφική διεπαφή χρήστη δημιουργήθηκε με το framework της React Native σε γλώσσα Javascript.
Η αξιολόγηση του συστήματος πραγματοποιήθηκε με 4.344 φωνητικά αποκόμματα στην ελληνική γλώσσα προερχόμενα από την OpenSLR. Σημειώθηκε ποσοστό σφαλμάτων κάτω από 5% για όλες τις μεθόδους, με το καλύτερο ποσοστό να προέρχεται από την ECAPA- TDNN με ποσοστό σφαλμάτων μόλις EER=0.96%. Λέξεις κλειδιά: Αναγνώριση Ομιλητή, MFCC, GMM, UBM, resCNN, ECAPA-TDNN.