Πέμπτη 27 Μαΐου 2021

nn7

 Αναγνώριση συναισθημάτων ομιλίας σε νευρολογικά διαταραχές που χρησιμοποιούν το Convolutional Neural Network

 Ο εντοπισμός συναισθημάτων από την ομιλία είναι ένα από τα αναδυόμεναερευνητικοί τομείς στον τομέα της επεξεργασίας πληροφοριών για τον άνθρωπο. Εκφράζονταςτο συναίσθημα είναι ένα πολύ δύσκολο έργο για ένα άτομο με νευρολογική διαταραχή.Ως εκ τούτου, ένα σύστημα αναγνώρισης συναισθημάτων ομιλίας (SER) μπορεί να το λύσει αυτόεξασφαλίζοντας μια επικοινωνία χωρίς εμπόδια. Έχουν διεξαχθεί διάφορες έρευνεςέξω στην περιοχή του SER. Ως εκ τούτου, ο κύριος στόχος αυτής της έρευναςείναι να αναπτύξουμε ένα σύστημα που να αναγνωρίζει το συναίσθημα από την ομιλία τουένα νευρολογικά διαταραγμένο άτομο. Από το συνελικτικό νευρικό δίκτυο(CNN) είναι μια αποτελεσματική μέθοδος, έχει θεωρηθεί ότι αναπτύσσει τοΣύστημα. Το σύστημα χρησιμοποιεί τονικές ιδιότητες όπως τα MFCC. RAVDESS au-dio βάσεις δεδομένων ομιλίας και τραγουδιών για εκπαίδευση και δοκιμές. Επιπλέον, απροσαρμοσμένο τοπικό σύνολο δεδομένων που αναπτύχθηκε για την υποστήριξη περαιτέρω εκπαίδευσης και δοκιμών.Η απόδοση του προτεινόμενου συστήματος σε σύγκριση με το παραδοσιακόμοντέλα μηχανικής μάθησης, καθώς και με τα προ-εκπαιδευμένα μοντέλα CNNσυμπεριλαμβανομένων των VGG16 και VGG19. Τα αποτελέσματα δείχνουν ότι το CNNμοντέλο που προτάθηκε σε αυτήν την έρευνα είχε καλύτερη απόδοση από τα αναφερόμενατεχνικές μηχανικής μάθησης. Αυτό το σύστημα επιτρέπει την ταξινόμηση ενόςοκτώ συναισθήματα νευρολογικά διαταραγμένου ατόμου συμπεριλαμβανομένης της ηρεμίας, τηςφοβισμένος, αηδία, χαρούμενος, έκπληξη, ουδέτερος και λυπημένος.Λέξεις-κλειδιά: CNN · συγκίνηση ομιλίας · RAVDESS · MFCC · αύξηση δεδομένωνκαθοδήγηση.1. ΕισαγωγήΤο συναίσθημα είναι μια ψυχική κατάσταση που σχετίζεται με το νευρικό σύστημα. Είναι τι αΤο άτομο αισθάνεται μέσα ως τις επιπτώσεις του περιβάλλοντος της γύρω περιοχής του.Τα συναισθήματα ενός ατόμου μπορούν να ανιχνευθούν με πολλούς τρόπους. Μερικά από αυτά μπορεί να είναιαναλύεται με τονικές ιδιότητες, έκφραση του προσώπου και χειρονομία σώματος. Ο υπολογιστήςή η ταξινόμηση του συναισθήματος από την ομιλία ή την έκφραση του προσώπου αποτελεί σημαντικήμέρος της επεξεργασίας πληροφοριών του ανθρώπου. Πρέπει να κατανοήσουμε τα συναισθήματα του

 

να νευρολογικά διαταραγμένο άτομο και αντιδρά ανάλογα. Αυτό το σύστημα μπορεί ναικανό ένα νευρολογικά διαταραγμένο άτομο να εκφράσει τα συναισθήματά του και να αλληλεπιδράσειμαζί μας. Ο σκοπός αυτής της έρευνας συνίσταται στην ανάπτυξη ενός συστήματος ικανούνα αναγνωρίζει αυτόματα οκτώ διαφορετικά συναισθήματα από την ομιλία ενόςάτομο με αναλογική διαταραχή. Αυτός ο σκοπός μπορεί να επιτευχθεί με την εκπαίδευση ανευρωνικό δίκτυο που αναπτύχθηκε με μεθοδολογία βαθιάς μάθησης [1, 7, 14] χρησιμοποιώνταςδύο βάσεις δεδομένων, το σύνολο δεδομένων RAVDESS και ένα προσαρμοσμένο τοπικό σύνολο δεδομένων. Τέλος,αποδεικνύοντας την ακρίβεια επικύρωσης σε σύγκριση με άλλα υπάρχοντα συστήματα και συντήρησηΜια αξιόλογη ακρίβεια για κάθε τάξη είχε επίσης αντιμετωπιστεί. Στο επόμενο δευτερόλεπτοΗ σχετική μελέτη σχετικά με την αναγνώριση συναισθημάτων από την ομιλία είναι σημαντικήπαρουσιάζονται.2 Σχετική εργασίαΤο συναίσθημα από την αναγνώριση ομιλίας έχει γίνει ένας δημοφιλής τομέας έρευνας. ΑρκετάΟι ερευνητές έχουν αναλύσει διάφορους τρόπους για καλύτερη βελτίωση αυτού του τομέα. Ρ.Ο Aloufi [3] εξήγαγε τον μετρητή F0, το φασματικό φάκελο και τις περιοδικές πληροφορίεςστην επεξεργασία ομιλίας. Ταξινόμησαν επτά συναισθήματα όπως ηρεμία, θυμωμένος, λυπημένος,χαρούμενος, φοβισμένος, αηδία και έκπληκτος χρησιμοποιώντας το σύνολο δεδομένων RAVDESS. Ως εκ τούτου,πέτυχαν ποσοστό αναγνώρισης συναισθημάτων 5%, ποσοστό αναγνώρισης ομιλίας65% και ποσοστό αναγνώρισης ηχείου 92%. Ο Μ. Bojanic [4] εφάρμοσε το LinearDiscriminant Classifiers (LDC) και k-Nearest Neighbor (kNN) στο GEES corpus.Η ακρίβεια του θυμού ήταν 88,8%, ο φόβος ήταν 92,5%, η χαρά ήταν 84,2%, η ουδέτερη ήταν97,1% και η θλίψη ήταν 94,8% στο μοντέλο LDC. Στο kNN, ο θυμός έγινε 86,8%, ο φόβοςέγινε 93,7%, η χαρά έγινε 83,6%, η ουδέτερη έγινε 95,9% και η θλίψη έγινε96,3%. Ο M. Ghai [8] επέλεξε τα δείγματα καρέ των ηχητικών σημάτων στα 16000Hzκαι η διάρκεια επιλογής 0,25 δευτερόλεπτα κάθε καρέ για εξαγωγή χαρακτηριστικών. ΕΝΑ.Ο Iqbal [13] εξήγαγε 34 δυνατότητες ήχου από δύο σύνολα δεδομένων (RAVDESS και SAVEE)και επιλεγμένο μέγεθος πλαισίου 0,05s και μέγεθος βήματος 0,025s. Εφαρμόζουν το GradientΜέθοδος ενίσχυσης και ταξινόμηση τεσσάρων εκφράσεων. Πέτυχαν ακρίβεια 33%για θυμό, 66% για ευτυχία, 67% για θλίψη και 50% για ουδέτερο στο RAVDESSγυναικείο σύνολο δεδομένων. Στο αρσενικό σύνολο δεδομένων RAVDESS, η ακρίβεια για θυμό έγινε 87%,η ευτυχία έγινε 87%, η θλίψη έγινε 67% και η ουδέτερη έγινε 66%. Το ac-Η περιέργεια ήταν 56% για τον θυμό, 78% για την ευτυχία, 100% για τη θλίψη και 78% για την οργήουδέτερο μετά τη χρήση του συνόλου δεδομένων SAVEE. Ο S. Rovetta [20] επέλεξε τα τελικά χαρακτηριστικάχρησιμοποιώντας δοκιμή Ανάλυσης διακύμανσης (ANOVA) ή αμοιβαίων πληροφοριών (MI). Αυτοίταξινόμησε επίσης επτά συναισθήματα (θυμός, ουδέτερη, αηδία, θλίψη, πλήξη, φόβος,και χαρά) εφαρμόζοντας το σύνολο δεδομένων EMO-DB στη μέθοδο fuzzy clustering. Αυτοίπέτυχε 35,157% ακρίβεια για ουδέτερο, 60,757% για θυμό, 17,629% για πλήξη,12,751% για αηδία, 35,061% για φόβο, 18,743% για χαρά και 25,485% για θλίψη.Ο Π. Τζιράκης [22] επαναπροσδιορίστηκε το σύνολο δεδομένων RECOLA με ρυθμό καρέ 40ms. Αυτοίπρότεινε ένα νέο μοντέλο Deep Neural Network (DNN) συνδυάζοντας CNN και(Long ShortTerm Memory) δίκτυο LSTM. Η ακρίβεια της διέγερσης ήταν 78,7%και το σθένος ήταν 44%. Ο N. Yang [23] εφάρμοσε το σύνολο δεδομένων EMO-DB σε BPNN, ELM,Μοντέλο PNN και SVM. Πέτυχαν ακρίβεια 77,8% στο BPNN, 78,4%
Σελίδα 3
Αναγνώριση συναισθημάτων από την ομιλία3Racy σε ELM, 81% ακρίβεια σε PNN και 92,4% σε SVM. Z. Zhao [25] χρησιμοποιείταιτη λειτουργία Hamming Window για τη δημιουργία φασματογραφημάτων χρησιμοποιώντας το ShortTimeΜετασχηματισμός Fourier (STFT) με μήκος καρέ 25ms με ρυθμό 10ms. Αυτοίχρησιμοποίησε το σύνολο δεδομένων IEMOCAP και εφάρμοσε το μοντέλο Attention-BLSTM-FCN.Η σταθμισμένη ακρίβεια ήταν 68,1% και η σταθμισμένη ακρίβεια ήταν 67%μοντέλο. Διαφορετικά μεγέθη πλαισίου 10-20 ms [6,8], κ.λπ., επιλέχθηκαν σε διαφορετικάέργα. Εντροπία, φασματική εντροπία, MFCC, ZCR (ρυθμός μηδενικής διέλευσης), βήμα, en-η ενέργεια, κ.λπ., ήταν τα κοινά χαρακτηριστικά για τα δεδομένα ήχου. Οι περισσότεροι από τους ερευνητέςχρησιμοποιημένο βήμα και ενέργεια [6,19,24] για επεξεργασία ήχου. Τα περισσότερα από αυτά υπολογίστηκανστατιστικά χαρακτηριστικά όπως μέση, τυπική απόκλιση, κ.λπ., για τη βελτίωση της απόδοσηςλίπασμα. Προηγούμενοι ερευνητές ανέπτυξαν επίσης διαφορετικές μεθόδους μηχανικής μάθησηςόπως Gradient Boosting, Support Vector Machine (SVM), K-Nearest Neighbor(KNN), Neural Network, Random Forest κ.λπ. για να ταξινομήσετε τα συναισθήματα από την ομιλία.Χρησιμοποίησαν πολλές ομιλίες συναισθηματικές βάσεις δεδομένων, όπως EMO-DB, BHUDES,RAVDESS, SUSAS, AIBO, SAVEE κ.λπ. για την κατασκευή των συστημάτων τους.3 ΜεθοδολογίαΣε αυτήν την έρευνα, το Convolution Neural Network (CNN) με αύξηση δεδομένωνχρησιμοποιήθηκε για την ανάπτυξη του συστήματος. Το Σχ. 1 απεικονίζει το διάγραμμα ροής αυτού του συστήματος.Σύμφωνα με το διάγραμμα ροής, το μοντέλο παίρνει πρώτα δεδομένα ήχου από το σύνολο δεδομένων καιΣύνολο δεδομένωνΠροεπεξεργασίαΕξαγωγή χαρακτηριστικώνΟμαλοποίησηΠροτεινόμενο μοντέλοΤάξηΣχ. 1. Διάγραμμα ροής συστήματοςξεκινά την προεπεξεργασία. Μετά την ολοκλήρωση της προεπεξεργασίας, εξάγει το MFCCχαρακτηριστικό χρησιμοποιώντας τη λειτουργία mfcc που προσφέρεται από το Librosa API. Τότε τα χαρακτηριστικά είναιομαλοποιείται με αλλαγή σχήματος. Ο θόρυβος αυξάνεται από τη λειτουργία NoiseAugαπό τη βιβλιοθήκη Nlpaug. Τέλος, τα επαυξημένα δεδομένα τροφοδοτούνται στη συνέχεια στα προτεινόμεναμοντέλο πρόβλεψης συγκινήσεων. Υπάρχουν τέσσερα επίπεδα συνελεύσεων σε αυτό το μοντέλομε φίλτρα 16, 32, 64 και 128 και το μέγεθος του πυρήνα για κάθε επίπεδο είναι 2 * 2. ΔιορθωμένοΗ Γραμμική Μονάδα (ReLU) χρησιμοποιείται ως λειτουργία ενεργοποίησης σε κάθε επίπεδο συνέλιξης ωςφαίνεται (1).ReLU (y) = μέγ. (0, y)(1)
Σελίδα 4
4Οι Zisad et al.Το μοντέλο διαθέτει δεδομένα ήχου 16000Hz ως είσοδο. Εισαγωγήτο σχήμα του συνόλου δεδομένων RAVDESS είναι (100, 196, 1), όπου το 100 αναφέρεται στον αριθμόαπό τις δυνατότητες MFCC που εξήχθησαν, το 196 είναι ο αριθμός των καρέ που λαμβάνουνλογαριασμού και 1 που σημαίνει ότι ο ήχος είναι μονοφωνικός. Το μοντέλο για το τοπικό σύνολο δεδομένωνχρησιμοποιεί το σχήμα εισόδου (100, 3200, 1). Μετά το επίπεδο της συνέλιξης, υπάρχει έναμέγιστο επίπεδο συγκέντρωσης όπου το μέγεθος της πισίνας είναι 2 * 2. Επιλέγει τη μεγαλύτερη τιμή απόο διορθωμένος χάρτης χαρακτηριστικών και μειώνει το μέγεθος των δεδομένων, οπότε ο αριθμός τωνοι παράμετροι μειώνονται. Όπως το επίπεδο της συνέλιξης, το ReLU έχει εφαρμοστεί ωςμια λειτουργία ενεργοποίησης σε κρυμμένα επίπεδα. Ένα στρώμα εγκατάλειψης εισάγεται επίσης μεη τιμή εγκατάλειψης 0,2 που απενεργοποιεί τυχαία 20% νευρώνες για νατοποθέτηση [21]. Στο τελευταίο κρυφό επίπεδο, ένα επίπεδο Global Average Pooling ήτανπροστέθηκε που παίρνει το μέσο όρο που είναι κατάλληλο για τροφοδοσία της πυκνής παραγωγής μαςστρώμα. Το επίπεδο εξόδου αυτού του μοντέλου αποτελείται από οκτώ κόμβους καθώς έχει οκτώ κλάσεις.Ως λειτουργία ενεργοποίησης, το Softmax έχει εφαρμοστεί όπως φαίνεται (2) σε αυτό το επίπεδο.Softmax (y) =e iΠ jε ι(2)Ως μοντέλο βελτιστοποίησης, το Adam [5] έχει χρησιμοποιηθεί. Η κατηγοριοποιημένη Crossentropy έχειέχει χρησιμοποιηθεί ως λειτουργία απώλειας. Περιλαμβάνονται το ModelCheckpoint και το EarlyStoppingως επιστροφές στο μοντέλο. Το ModelCheckpoint θα αποθηκεύσει το καλύτερο μοντέλο στοτοπική αποθήκευση ενώ το EarlyStopping θα διακόψει τη διαδικασία προπόνησης εάν δεν υπάρχειβελτίωση στην ελαχιστοποίηση της τιμής απώλειας μετά από 5 εποχές. Η επισκόπηση του CNNΗ αρχιτεκτονική που σχεδιάστηκε για αυτό το μοντέλο απεικονίζεται στον Πίνακα 1.4 βάσεις δεδομένων4.1 Βάση δεδομένων RAVDESSΗ οπτικοακουστική βάση δεδομένων Ryerson της συναισθηματικής ομιλίας και τραγουδιού (RAVDESS)είναι μια επικυρωμένη βάση δεδομένων συναισθηματικής ομιλίας και τραγουδιού [18]. Περιέχει 7356 αρχείασυμπεριλαμβανομένων 8 συναισθημάτων όπως θυμός, ευτυχία, ηρεμία, ουδέτερη, έκπληξη, λυπημένος, φόβος,και αηδία. Υπήρχαν 24 επαγγελματίες ηθοποιοί όπου 12 ήταν γυναίκες και 12 ήτανάνδρες ηθοποιοί φωνάζουν δύο δηλώσεις, «Τα παιδιά μιλούν από την πόρτα» και «Τα σκυλιάκάθονται δίπλα στην πόρτα με μια ουδέτερη προφορά της Βόρειας Αμερικής. Έχει ομιλία καιαρχεία τραγουδιών με τρεις μορφές μορφής: Μόνο ήχος (16bit, 48kHz .wav), Ήχος-Βίντεο (720p H.264, AAC 48kHz, .mp4) και μόνο βίντεο (χωρίς ήχο). Υπάρχουνκανένα αρχείο τραγουδιού για τον Ηθοποιό 18. Όλες οι ηχογραφήσεις είναι στα Αμερικανικά Αγγλικά.4.2 Τοπικό σύνολο δεδομένωνΑυτό το σύνολο δεδομένων δημιουργείται καταγράφοντας φωνές από 25 ασθενείς από το Chittagong,Μπαγκλαντές. Δέκα από αυτούς είναι ασθενείς με εγκεφαλικό επεισόδιο, οκτώ από αυτούς πάσχουν απόάνοια, τέσσερις από αυτούς έχουν επιληψία και οι υπόλοιποι έχουν ημικρανία.Κάθε έκφραση παράγεται φωνητικά δύο δηλώσεις «Τα παιδιά μιλούν από τοπόρτα »και« Τα σκυλιά κάθονται δίπλα στην πόρτα »με μπαγκλαντές προφορά. Υπάρχουν 400αρχεία ήχου σε 8 συναισθήματα.
Σελίδα 5
Αναγνώριση συναισθημάτων από την ομιλία5Πίνακας 1. Αρχιτεκτονική συστήματοςΠεριεχόμενοΛεπτομέριεςΠρώτο στρώμα Convolution16 φίλτρα μεγέθους 2x2, ReLU,μέγεθος εισόδου 100 * 196 * 1 για RAVDESS και100 * 3200 * 1 για τοπικό σύνολο δεδομένωνΠρώτο Max Pooling LayerΜέγεθος συγκέντρωσης 2x2Επίπεδο εγκατάλειψηςΕξαιρούνται 20% νευρώνες τυχαίαΔεύτερο στρώμα Convolution32 φίλτρα μεγέθους 2x2, ReLUΔεύτερο Max Pooling LayerΜέγεθος συγκέντρωσης 2x2Επίπεδο εγκατάλειψηςΕξαιρούνται 20% νευρώνες τυχαίαΤρίτο στρώμα Convolution64 φίλτρα μεγέθους 2x2, ReLUΤρίτο Max Pooling LayerΜέγεθος συγκέντρωσης 2x2Επίπεδο εγκατάλειψηςΕξαιρούνται 20% νευρώνες τυχαίαΤέταρτο στρώμα Convolution128 φίλτρα μεγέθους 2x2, ReLUΤέταρτο Max Pooling LayerΜέγεθος συγκέντρωσης 2x2Επίπεδο εγκατάλειψηςΕξαιρούνται 20% νευρώνες τυχαίαΠαγκόσμιος μέσος όρος συγκεντρωτικού επιπέδου N / AΕπίπεδο εξόδου8 κόμβοι για 8 τάξεις, SoftMaxΛειτουργία βελτιστοποίησηςΑδάμΕπιστροφή κλήσηςΜοντέλο Checkpoint4.3 ΠροεπεξεργασίαΥπάρχουν μόνο 2452 αρχεία ήχου στο σύνολο δεδομένων ήχου και τραγουδιού RAVDESS.Ως εκ τούτου, για να αυξήσουμε τα σύνολα δεδομένων μας και να βελτιώσουμε την απόδοση του μοντέλου, χρησιμοποιήσαμε επίσηςΔείγματα τραγουδιών ήχου. Όλα τα αρχεία χρησιμοποιούνται με ρυθμό δειγματοληψίας 16KHz χρησιμοποιώντας τοπαράμετρος 'sr = 16000' στη λειτουργία φόρτωσης της βιβλιοθήκης Librosa. Για χαρακτηριστικόΕξαγωγή, χρησιμοποιείται η συνάρτηση Mfcc της βιβλιοθήκης Librosa. Το ποσοστό δείγματος είναι16KHz για κάθε αρχείο ήχου. Ο αριθμός των MFCC που εξάγονται είναι 100. Το σχήμα τουτα εξαγόμενα χαρακτηριστικά δεν θα ήταν τα ίδια και το εύρος δεν θα ήταν συγκεκριμένοχωρίς κανονικοποίηση. Το μη δομημένο χαρακτηριστικό μπορεί να μειώσει την ακρίβεια καιποσοστό αναγνώρισης. Σε αυτήν την έρευνα, μετά την εξαγωγή χαρακτηριστικών από κάθε αρχείο, εμείςομαλοποιήθηκαν αφαιρώντας κάθε χαρακτηριστικό από το μέγιστο που θα κάνειτο ίδιο σχήμα. Μετά την ομαλοποίηση, αυτά τα δεδομένα χρησιμοποιούνται για την εκπαίδευση και τον έλεγχοτο σύστημα. Η επαύξηση στη βάση δεδομένων ήχου δημιουργεί συνήθως επιπλέοναρχεία ήχου εφαρμόζοντας κάποια ειδική λειτουργία στην αρχική βάση δεδομένων, όπωςόπως η έγχυση θορύβου, η ρύθμιση του βήματος, η αλλαγή της φωνητικής οδού, η ρύθμιση της ταχύτητας κ.λπ.Σε αυτήν την εργασία, όλα τα αρχεία αυξάνονται με την έγχυση θορύβου χρησιμοποιώντας τοΛειτουργία NoiseAug από τη βιβλιοθήκη nlpaug.
Σελίδα 6
6Οι Zisad et al.5 ΠείραμαΥπάρχουν 1440 αρχεία ομιλίας ήχου και 1012 αρχεία τραγουδιών στη βάση δεδομένων RAVDESS.Κάθε τάξη έχει 192 αρχεία εκτός από ουδέτερα σε αρχεία ομιλίας ήχου και την ουδέτερη τάξηπεριέχει 96 αρχεία. Από την άλλη πλευρά, θυμωμένος, ήρεμος, φοβισμένος, χαρούμενος, λυπημένος περιέχει184 αρχεία σε κάθε τάξη σε αρχεία τραγουδιού ήχου και η κατηγορία Neutral περιέχει 96 αρχεία.Δεν υπάρχουν αρχεία τραγουδιών για την αηδία και την έκπληξη της τάξης. Για να επιτύχετε το καλύτεροαπόδοση από το μοντέλο, είναι απαραίτητο να εμπλουτιστεί η βάση δεδομένων με σχετικήαρχεία ήχου. Για το σκοπό αυτό, εισάγεται θόρυβος στην υπάρχουσα βάση δεδομένων. ΜετάΑύξηση, η βάση δεδομένων γίνεται διπλάσιο από το προηγούμενο. Εκείείναι 4904 αρχεία ήχου και τραγουδιού μετά την αύξηση. Ομοίως, υπάρχουν μόνο400 αρχεία στο τοπικό σύνολο δεδομένων όπου κάθε τάξη περιέχει μόνο 50 αρχεία. Έτσι κάθε τάξημπορεί να έχει 100 αρχεία μετά την αύξηση. Το σύνολο δεδομένων χωρίστηκε σε εκπαιδευτικό σύνολο,σύνολο επικύρωσης και σύνολο δοκιμών. Το εκπαιδευτικό σετ και το σετ επικύρωσης χρησιμοποιήθηκαν για την προπόνησητο μοντέλο. Το σετ δοκιμής χρησιμοποιήθηκε για τη δοκιμή της απόδοσης του μοντέλου. Αυτό το μοντέλοεκπαιδεύτηκε χρησιμοποιώντας πολλαπλές αναλογίες διαίρεσης (70:20:10, 75:15:10, 80:10:10), ενεργοποίησηλειτουργίες (relu, sigmoid, softmax, softplus) και βελτιστοποιητές (adadelta, adagrad,adamax, adam, nadam, sgd). Κατά τη διάρκεια της μαθησιακής διαδικασίας, η απόδοση τουαυτό το μοντέλο ήταν το καλύτερο όταν η αναλογία διαχωρισμού 75:15:10, η λειτουργία ενεργοποίησης softmax καιΤο adam optimizer χρησιμοποιήθηκε με πέντε φορές πολλαπλή επικύρωση.6 ΥλοποίησηΤο σύστημα έχει αναπτυχθεί στο Spyder IDE χρησιμοποιώντας το Python ως πρόγραμμα-γλωσσική γλώσσα. Το μοντέλο εκπαιδεύτηκε χρησιμοποιώντας το google συνεργατικό. Τα απαιτούμεναβιβλιοθήκες για αυτό το πείραμα ήταν: Keras, Tensorflow, NumPy, Librosa, sklearn,nlpaug, matplotlib, κ.λπ. Το Keras χρησιμοποιήθηκε για την ανάπτυξη του μοντέλου με την εφαρμογή-με ορισμένες ενσωματωμένες λειτουργίες όπως επίπεδα, βελτιστοποιητές, λειτουργίες ενεργοποίησης κ.λπ.Το Tensorflow υποστηρίζεται στο πίσω μέρος του συστήματος. Η βιβλιοθήκη Numpy χρησιμοποιήθηκε γιααριθμητική ανάλυση. Η φόρτωση αρχείων ήχου χρησιμοποιώντας συγκεκριμένο ρυθμό δειγματοληψίας ήτανσχηματίστηκε από τη βιβλιοθήκη librosa, όπου η βιβλιοθήκη sklearn δημιούργησε πίνακα σύγχυσης,διαχωρισμός δεδομένων αμαξοστοιχίας και δοκιμών, λειτουργία επιστροφής σημείου ελέγχου μοντέλου, κ.λπ. Τα δεδομένα ήταναυξήθηκε χρησιμοποιώντας το API nlpaug όπου χρησιμοποιήθηκε η βιβλιοθήκη matplotlib για γραφικάυπολογιστική αναπαράσταση, όπως πίνακας σύγχυσης, γράφημα ακρίβειας έναντι εποχών, απώλεια έναντιγράφημα εποχών κ.λπ.7 Αποτέλεσμα και συζήτησηΣτο σύνολο δεδομένων RAVDESS, υπήρχαν 2452 αρχεία (ηχητική ομιλία και τραγούδι) πρινΑύξηση όπου χρησιμοποιήθηκαν 1839 αρχεία για εκπαίδευση, 368 αρχεία χρησιμοποιήθηκαν γιαεπικύρωση, και 245 αρχεία χρησιμοποιήθηκαν για τη δοκιμή του συστήματος. Η καλύτερη ακρίβεια γιαεκπαίδευση, δοκιμές και επικύρωση ήταν 0,857, 0,743 και 0,756 αντίστοιχα. οΟ μέσος όρος εκπαίδευσης, δοκιμών και ακρίβειας επικύρωσης ήταν 0,841, 0,740 και 0,744αντίστοιχα. Μετά τη χρήση της αύξησης δεδομένων, το σύνολο δεδομένων γίνεται διπλάσιο από τομεγάλο μέγεθος με συνολικά 4904 αρχεία στο σύνολο δεδομένων όπου χρησιμοποιήθηκαν 3679 αρχεία
Σελίδα 7
Αναγνώριση συναισθημάτων από την ομιλία7εκπαίδευση, 736 αρχεία χρησιμοποιήθηκαν για επικύρωση και 491 αρχεία χρησιμοποιήθηκαν για δοκιμήτο σύστημα. Το αποτέλεσμα της πενταπλής διασταυρούμενης επικύρωσης για αυτό το αυξημένο σύνολο δεδομένων είναιφαίνεται στον Πίνακα 2. Σύμφωνα με τον Πίνακα 2, επιτεύχθηκε η καλύτερη ακρίβεια δοκιμώνΠίνακας 2. Αποτελέσματα πολλαπλής επικύρωσης του αυξημένου συνόλου δεδομένων RAVDESS.Εκπαίδευση Ακρίβεια Επικύρωσης ΑκρίβειαΔοκιμή ακρίβειαςΔιπλώστε-10,9150,8070,787Διπλώστε-20,9370,8220,823Διπλώστε-30,9210,8200,807Διπλώστε-40.8930,8250,825Διπλώστε-50,8980,8110,821Μέση τιμή0,9130,8170,813Καλύτερος0,9370,8250,825στην τέταρτη πτυχή και ήταν 0,825. Η καλύτερη ακρίβεια για εκπαίδευση και επικύρωσηήταν 0,937 και 0,825. Η μέση ακρίβεια δοκιμών έγινε 0,813 όπου ο μέσος όροςη ακρίβεια εκπαίδευσης και επικύρωσης έγινε 0,913 και 0,817. Πίνακας σύγχυσης τουΤο αυξημένο σύνολο δεδομένων RAVDESS με αυτό το καλύτερο αποτέλεσμα παρουσιάζεται στον Πίνακα 3. ΜερικάΠίνακας 3. Πίνακας σύγχυσης του αυξημένου συνόλου δεδομένων RAVDESS.Angry Calm DisgustFearful Happy Neutral Sad Sad ΈκπληκτοςΘυμωμένος650201321Ηρεμία367021022Αηδία103410202Φοβερός322603424Χαρούμενος423252242Ουδέτερος010104001Λυπημένος242310581Εκπληκτος112010129υπάρχοντες αλγόριθμοι μηχανικής εκμάθησης όπως το Support Vector Machine (SVM)Random Forest, Gradient Boosting, K Nearest Neighbor (KNN), ΑπόφασηClassifier κ.λπ. και κάποιο προ-εκπαιδευμένο μοντέλο CNN όπως VGG16, VGG19 κ.λπ.εκπαιδεύτηκαν επίσης χρησιμοποιώντας RAVDESS αυξημένο σύνολο δεδομένων Μια σύγκριση μεταξύΑυτά τα μοντέλα και το προτεινόμενο μοντέλο μας παρουσιάζονται στον Πίνακα 4. Από αυτόν τον πίνακα, μπορείνα παρατηρηθεί εύκολα ότι η απόδοση του προτεινόμενου μοντέλου μας είναι καλύτερη απόάλλα μοντέλα επειδή πέτυχε μεγαλύτερη ακρίβεια, ακρίβεια, ανάκληση και βαθμολογία f1από άλλους. Και πάλι στο τοπικό σύνολο δεδομένων, υπάρχουν 400 αρχεία πριν από την αύξησηόπου 300 αρχεία χρησιμοποιήθηκαν για εκπαίδευση, 60 αρχεία χρησιμοποιήθηκαν για επικύρωση και 40αρχεία χρησιμοποιήθηκαν για τη δοκιμή του συστήματος. Επιτεύχθηκε η καλύτερη ακρίβεια δοκιμώνστην τρίτη πτυχή και ήταν 0,375. Η καλύτερη ακρίβεια για εκπαίδευση και επικύρωσηήταν 0,477 και 0,375. Η μέση ακρίβεια των δοκιμών έγινε 0,372 όπου ο μέσος όρος
Σελίδα 8
8Οι Zisad et al.Πίνακας 4. Σύγκριση μοντέλων χρησιμοποιώντας σύνολο δεδομένων RAVDESSΜοντέλοΑκρίβειαΑκρίβειαΑνάκλησηF1-ΒαθμολογίαSVM0,77910,7960,77910,792Τυχαίο δάσος0,6340.6560,6340,630Ενίσχυση κλίσης0,6160,6230,6160,617ΚΝΝ0,4430,4600,4430,445Δέντρο απόφασης0,3420.3460,3420,342VGG160,7470,7470,7470,747VGG190,7630,7680,7630,768Προτεινόμενο μοντέλο0,8250,8310,8250,828η ακρίβεια εκπαίδευσης και επικύρωσης έγινε 0,470 και 0,371. Μετά από δεδομέναο αριθμός των αρχείων ήταν 800 στο σύνολο δεδομένων όπου χρησιμοποιήθηκαν 600 αρχείαεκπαίδευση, 120 αρχεία χρησιμοποιήθηκαν για επικύρωση, και 80 αρχεία χρησιμοποιήθηκαν για τη δοκιμή τουΣύστημα. Το αποτέλεσμα της πενταπλής διασταυρούμενης επικύρωσης για αυτό το σύνολο δεδομένων εμφανίζεται στο Ta-5. Σύμφωνα με τον πίνακα, η καλύτερη ακρίβεια δοκιμών επιτεύχθηκε στο τρίτοΠίνακας 5. Αποτελέσματα πολλαπλής επικύρωσης τοπικού επαυξημένου συνόλου δεδομένων.Εκπαίδευση Ακρίβεια Επικύρωσης ΑκρίβειαΔοκιμή ακρίβειαςΔιπλώστε-10,6850,6220,611Διπλώστε-20.6790,6180,610Διπλώστε-30,6830,6070,612Διπλώστε-40,6710,6210,611Διπλώστε-50.6820,6250,605Μέση τιμή0,6800,6190,610Καλύτερος0,6850,6250,612φορές και ήταν 0,612. Η καλύτερη ακρίβεια για εκπαίδευση και επικύρωση ήταν 0,685και 0,625. Η μέση ακρίβεια των δοκιμών έγινε 0,610 όπου η μέση προπόνησηκαι η ακρίβεια επικύρωσης έγινε 0,680 και 0,619. Η μήτρα σύγχυσης τουΤο τοπικό επαυξημένο σύνολο δεδομένων με αυτό το καλύτερο αποτέλεσμα παρουσιάζεται στον Πίνακα 6.8 ΣυμπέρασμαΟ στόχος αυτής της έρευνας ήταν να βρει το εύρος βελτίωσης των υπαρχόντωνσύστημα αναγνώρισης συγκίνησης ομιλίας. Το προτεινόμενο μοντέλο μας, CNN με τα δεδομέναΗ μέθοδος αύξησης έχει αποδειχθεί πιο αποτελεσματική σε σύγκριση με άλλεςμοντέλα σε αυτόν τον τομέα. Αν και αυτό το μοντέλο είχε καλύτερη απόδοση, χρειάζεται μερικάβελτιώσεις σε ορισμένους τομείς, όπως: Το σύνολο δεδομένων πρέπει να αυξηθεί. Περισσότερα δεδομέναθα πρέπει να προστεθεί σε κάθε τάξη για καλύτερη απόδοση. Μείωση θορύβουΓορίθος μπορεί να εφαρμοστεί για βελτίωση μοντέλου. Επικύρωση σε πραγματικό χρόνο χρησιμοποιώντας αυτότο μοντέλο πρέπει να βελτιωθεί. Τέλος, αυτό το σύστημα μπορεί να επεκταθεί σε ένα ολοκληρωμένο
Σελίδα 9
Αναγνώριση συναισθημάτων από την ομιλία9Πίνακας 6. Πίνακας σύγχυσης τοπικού επαυξημένου συνόλου δεδομένων.Angry Calm DisgustFearful Happy Neutral Sad Sad ΈκπληκτοςΘυμωμένος81100210Ηρεμία17012101Αηδία11601011Φοβερός01040011Χαρούμενος01105100Ουδέτερος10110710Λυπημένος01001030Εκπληκτος10100119πλαίσιο με οποιαδήποτε εξελιγμένη μεθοδολογία όπως το BRB [2, 9–12, 15–17]. Περισσότερο-οι ερευνητές μπορούν να προσπαθήσουν να βελτιώσουν αυτό το μοντέλο πιο αποτελεσματικά στο μέλλονέτσι ώστε ένα πιο τυπικό σύστημα αναγνώρισης συναισθημάτων ομιλίας για νευρολογικάάτομα με διαταραχές μπορούν να παραδοθούν.βιβλιογραφικές αναφορές1. Ahmed, TU, Hossain, MS, Alam, MJ, Andersson, Κ .: Ένα ολοκληρωμένο cnn-rnnπλαίσιο για την αξιολόγηση των οδικών ρωγμών. Το: 22ο Διεθνές Συνέδριο 2019 για τιςτεχνολογίας πληροφοριών και πληροφοριών (ICCIT). σελ. 1-6. IEEE (2019)2. Alharbi, ST, Hossain, MS, Monrat, AA: Ένα σύστημα εμπειρογνωμόνων βασισμένο σε κανόνες πεποίθησηςνα αξιολογήσει τον αυτισμό υπό αβεβαιότητα. Σε: Πρακτικά του Παγκόσμιου Συνεδρίου στιςΜηχανική και Επιστήμη Υπολογιστών. τομ. 1 (2015)3. Aloufi, R., Haddadi, H., Boyle, D .: Emotionless: Ανάλυση ομιλίας που διατηρεί το απόρρητογια βοηθούς φωνής. arXiv preprint arXiv: 1908.03632 (2019)4. Bojanic, M., Delic, V., Karpov, Α .: Αναδιανομή κλήσεων για ένα τηλεφωνικό κέντρο με βάσηαναγνώριση συναισθημάτων ομιλίας. Εφαρμοσμένες Επιστήμες 10 (13), 4653 (2020)5. Bottou, L .: Μηχανική εκμάθηση μεγάλης κλίμακας με στοχαστική κλίση. Σε: Pro-πρακτικά της COMPSTAT'2010, σελ. 177–186. Springer (2010)6. Chernykh, V., Prikhodko, P .: Αναγνώριση συναισθημάτων από την ομιλία με επαναλαμβανόμεναδίκτυα. arXiv preprint arXiv: 1701.08071 (2017)7. Chowdhury, RR, Hossain, MS, ul Islam, R., Andersson, K., Hossain, S .: Banglaαναγνώριση χειρόγραφου χαρακτήρα χρησιμοποιώντας συνελικτικό νευρωνικό δίκτυο με δεδομένααύξηση. Σε: 2019 Κοινό 8ο Διεθνές Συνέδριο Πληροφορικής, Elec-τρονικά και όραμα (ICIEV). σελ. 318–323. IEEE (2019)8. Ghai, M., Lal, S., Duggal, S., Manik, S .: Αναγνώριση συναισθημάτων στα σήματα ομιλίαςχρησιμοποιώντας μηχανική μάθηση. Σε: Διεθνές συνέδριο 2017 για τα μεγάλα αναλυτικά δεδομένακαι υπολογιστική νοημοσύνη (ICBDAC). σελ. 34–39. IEEE (2017)9. Hossain, MS, Habib, IB, Andersson, Κ .: Ένα σύστημα εμπειρογνωμόνων βασισμένο σε κανόνες πεποίθησηςδιάγνωση του δάγκειου πυρετού υπό αβεβαιότητα. Σε: Διάσκεψη υπολογιστών 2017. σελ. 179–186. IEEE (2017)10. Hossain, MS, Hossain, E., Khalid, S., Haque, MA: Ένας κανόνας πεποίθησης βασισμένος (brb)σύστημα υποστήριξης αποφάσεων για την αξιολόγηση της υποψίας κλινικού άσθματος. Σε: Σκανδιναβική Con-έμφαση στην Πληροφορική για την Υγεία · 22 Αυγούστου 2014; Γκρίμσταντ; Νορβηγία. σελ. 83–89.102, Πανεπιστήμιο Linköping Electronic Press (2014)
Σελίδα 10
10Οι Zisad et al.11. Hossain, MS, Rahaman, S., Kor, AL, Andersson, K., Pattinson, C .: Μια πεποίθησηΣύστημα εμπειρογνωμόνων βάσει κανόνα για πρόβλεψη pue στο κέντρο δεδομένων υπό αβεβαιότητα. ΙΕΕΕΣυναλλαγές στον Αειφόρο Υπολογισμό 2 (2), 140–153 (2017)12. Hossain, MS, Sultana, Z., Nahar, L., Andersson, Κ .: Ένα έξυπνο σύστημα γιαδιάγνωση chikungunya υπό αβεβαιότητα. Περιοδικό ασύρματων κινητών δικτύων,Ubiquitous Computing, and Dependable Applications 10 (2), 37–54 (2019)13. Iqbal, A., Barua, Κ .: Μια αναγνώριση συναισθήματος σε πραγματικό χρόνο από την ομιλία με κλίσηενίσχυση. Σε: Διεθνές Συνέδριο 2019 για Ηλεκτρικά, Ηλεκτρονικούς Υπολογιστές καιΜηχανική Πληροφοριών (ECCE). σελ. 1-5. IEEE (2019)14. Ισλάμ, MZ, Hossain, MS, ul Islam, R., Andersson, Κ .: Αναγνώριση στατικής χειρονομίαςχρησιμοποιώντας συνελικτικό νευρωνικό δίκτυο με αύξηση δεδομένων. Σε: 2019 Joint8ο Διεθνές Συνέδριο Πληροφορικής, Ηλεκτρονικής & Οράματος (ICIEV). σελ.324–329. IEEE (2019)15. Ισλάμ, RU, Ruci, X., Hossain, MS, Andersson, K., Kor, AL: Διαχείριση ικανοτήτων-χρήση κέντρων δεδομένων υψηλής κλίμακας χρησιμοποιώντας προγνωστικά μοντέλα. Ενέργειες 12 (18), 3438(2019)16. Kabir, S., Islam, RU, Hossain, MS, Andersson, Κ .: Μια ολοκληρωμένη προσέγγιση τουβάση κανόνα πεποίθησης και βαθιά μάθηση για την πρόβλεψη της ατμοσφαιρικής ρύπανσης. Αισθητήρες 20 (7), 1956(2020)17. Karim, R., Andersson, K., Hossain, MS, Uddin, MJ, Meah, MP: Ένας κανόνας πίστηςβασισμένο σε ειδικό σύστημα για την αξιολόγηση της υποψίας κλινικής βρογχοπνευμονίας. Σε: 2016 FutureΔιάσκεψη τεχνολογιών (FTC). σελ. 655–660. IEEE (2016)18. Livingstone, SR, Russo, FA: Η οπτικοακουστική βάση δεδομένων του συναισθηματικού ryersonομιλία και τραγούδι (ravdess): Ένα δυναμικό, πολυτροπικό σύνολο προσώπων και φωνητικώνsions στα αγγλικά της Βόρειας Αμερικής. PloS one 13 (5) (2018)19. Martınez, BE, Jacobo, JC: Μια βελτιωμένη μεθοδολογία χαρακτηρισμούαντιμετωπίστε με προσοχή το πρόβλημα αναγνώρισης συναισθημάτων ομιλίας. Σε: 2017 IEEE Interna-Φθινοπωρινή συνάντηση για τη δύναμη, την ηλεκτρονική και τον υπολογιστή (ROPEC). σελ. 1-6.IEEE (2017)20. Rovetta, S., Mnasri, Z., Masulli, F., Cabri, Α .: Αναγνώριση συναισθήματος από την ομιλία sig-χρησιμοποιώντας ασαφή ομαδοποίηση. Σε: 2019 Συνέδριο των Διεθνών Ασαφών ΣυστημάτωνΈνωση και Ευρωπαϊκή Εταιρεία Ασαφούς Λογικής και Τεχνολογίας (EUSFLAT2019). Atlantis Press (2019)21. Srivastava, Ν., Hinton, G., Krizhevsky, A., Sutskever, I., Salakhutdinov, R.:Εγκατάλειψη: ένας απλός τρόπος για να αποφευχθεί η υπερβολική τοποθέτηση των νευρικών δικτύων. Το περιοδικό τουέρευνα μηχανικής μάθησης 15 (1), 1929–1958 (2014)22. Tzirakis, P., Zhang, J., Schuller, BW: Αναγνώριση συγκίνησης από άκρο σε άκροχρησιμοποιώντας βαθιά νευρωνικά δίκτυα. Σε: 2018 Διεθνές Συνέδριο Ακουστικής IEEE,Επεξεργασία Ομιλίας και Σήματος (ICASSP). σελ. 5089–5093. IEEE (2018)23. Yang, N., Dey, N., Sherratt, RS, Shi, F.: Αναγνώριση βασικών συναισθηματικών καταστάσεων στην ομιλίαμε τεχνικές μηχανικής εκμάθησης με τη χρήση χαρακτηριστικών συντελεστών με συχνότητα mel.Journal of Intelligent & Fuzzy Systems (Preprint), 1–12 (2020)24. Zhang, M., Liang, Y., Ma, H .: Συναισθηματική λογική γραφή με βάση το συναίσθημα για emo-αναγνώριση. Σε: 2019 Διεθνές Συνέδριο IEEE για Πολυμέσα και Έκθεση(ICME). σελ. 151–156. IEEE (2019)25. Zhao, Z., Bao, Z., Zhao, Y., Zhang, Z., Cummins, N., Ren, Z., Schuller, Β .: Ex-διερεύνηση αναπαραστάσεων βαθύ φάσματος μέσω επαναλαμβανόμενων και συνομιλιών με βάση 

Δεν υπάρχουν σχόλια:

Δημοσίευση σχολίου