Voice

=Φωνητικές Διεπαφές Χρήστη (Voice User Interfaces)=

Η φωνητική διεπαφή χρήστη (VUI) είναι ένα σενάριο για τη διεξαγωγή μιας συζήτησης ανάμεσα σε ένα αυτοματοποιημένο σύστημα και ένα χρήστη. Αυτό το σενάριο περιέχει όλες τις δηλώσεις, τις οποίες το αυτοματοποιημένο σύστημα θα χρησιμοποιήσει για το διάλογό του με το χρήστη καθώς και τη λογική για το ποιες δηλώσεις θα χρησιμοποιήσει για να απαντήσει σε κάποια είσοδο του χρήστη. Η διεπαφή φωνής βασίζεται στη τεχνολογία αναγνώρισης ομιλίας (ASR: Automatic Speech Recognition) που έχει την ικανότητα να συλλαμβάνει και να αποκωδικοποιεί την ηχητική είσοδο του χρήστη (ομιλία) έτσι ώστε να γίνει κατανοητό το τι έχει “πει” ο χρήστης στο σύστημα. Όλο και περισσότερο οι διεπαφές φωνής προστίθενται στις συσκευές χειρός και τηλεφωνίας, σε συστήματα πλοήγησης στα οχήματα καθώς και σε εφαρμογές υπολογιστών. Οι χρήστες περιμένουν από ένα αυτοματοποιημένο σύστημα δηλώσεις υψηλής ποιότητας (αληθινές και ειλικρινείς), οι οποίες προσφέρουν τη κατάλληλη ποιότητα πληροφοριών, να είναι σχετικές με τη συζήτηση, σαφείς και αδιαμφισβήτητες. Ο σημαντικότερος λόγος για τις υψηλές αυτές προσδοκίες των χρηστών είναι η τεράστια εμπειρία που έχουν από τη καθημερινή τους συνομιλία με άλλα άτομα. Επιπλέον αυτά τα συστήματα συχνά είναι έξυπνα, φιλικά και ανθρώπινα – καταλαβαίνουν και ανταποκρίνονται με τέτοιο τρόπο που ένα άτομο θα ανταποκρινόταν. Αυτό έχει σαν αποτέλεσμα οι χρήστες να νομίζουν ότι συνομιλούν με ένα άλλο άτομο το οποίο διαθέτει νοημοσύνη και ευαισθησία, π.χ όταν ένα τέτοιο σύστημα λέει παρακαλώ και ευχαριστώ νομίζουν ότι το σύστημα είναι ευγενικό και φιλικό.


 * ΑΥΤΟΜΑΤΟΠΟΙΗΜΕΝΗ ΣΥΝΟΜΙΛΙΑ: ΑΝΘΡΩΠΟΣ ΕΝΑΝΤΙ ΤΗΣ ΜΗΧΑΝΗΣ**

Οι εμπορικές εφαρμογές της αναγνώρισης ομιλίας είναι συστήματα τα οποία επιτυγχάνουν τη κατανόηση της φωνητικής εισόδου του χρήστη συγκρίνοντας και ταιριάζοντας την με αποθηκευμένα μοντέλα ήχων ομιλίας λέξεων και προφορών. Τα ανθρώπινα όντα αντίθετα, δε προσπαθούν να αντιστοιχίσουν το εισερχόμενο σήμα ομιλίας με κάποια ενδεχόμενη λέξη στη γλώσσα αλλά αυτόματα και ασυναίσθητα περιμένουν να ακούσουν λέξεις που ταιριάζουν στο γενικότερο πλαίσιο συζήτησης. Το πλαίσιο αυτό περιλαμβάνει επιτρεπτούς συνδυασμούς φωνημάτων, κανόνες σχετικά με τη δομή μιας πρότασης οι οποίοι καθορίζουν το είδος της λέξης που ακολουθεί. Τα αυτοματοποιημένα συστήματα αναγνώρισης ομιλίας δεν έχουν επίγνωση του πραγματικού κόσμου και στηρίζουν τη λειτουργία τους αποκλειστικά στο ακουστικό σήμα και στα bits που χρησιμοποιούν για την υλοποίηση της διεπαφής οι σχεδιαστές της.

Οι χρήστες περιμένουν από ένα αυτοματοποιημένο σύστημα δηλώσεις υψηλής ποιότητας (αληθινές και ειλικρινείς), οι οποίες προσφέρουν τη κατάλληλη ποιότητα πληροφοριών, να είναι σχετικές με τη συζήτηση, σαφείς και αδιαμφισβήτητες. Ο σημαντικότερος λόγος για τις υψηλές αυτές προσδοκίες των χρηστών είναι η τεράστια εμπειρία που έχουν από τη καθημερινή τους συνομιλία με άλλα άτομα. Επιπλέον αυτά τα συστήματα συχνά είναι έξυπνα, φιλικά και ανθρώπινα – καταλαβαίνουν και ανταποκρίνονται με τέτοιο τρόπο που ένα άτομο θα ανταποκρινόταν. Αυτό έχει σαν αποτέλεσμα οι χρήστες να νομίζουν ότι συνομιλούν με ένα άλλο άτομο το οποίο διαθέτει νοημοσύνη και ευαισθησία, π.χ όταν ένα τέτοιο σύστημα λέει παρακαλώ και ευχαριστώ νομίζουν ότι το σύστημα είναι ευγενικό και φιλικό.


 * VUI Persona**

Στο κόσμο της τεχνολογίας της ομιλίας ο όρος persona αναφέρεται στη προσωπικότητα της φωνητικής διεπαφής την οποία αντιλαμβάνονται οι χρήστες από τη συμπεριφορά της διεπαφής. Οι παράγοντες που συμβάλλουν στην αντίληψη της προσωπικότητας αυτής είναι το ύφος και ο τόνος της υπαγόρευσης, η ροή του διαλόγου και η ανταπόκριση του συστήματος. Η έννοια του όρου persona είναι πηγή συνεχούς αντιπαράθεσης στη κοινότητα των φωνητικών διεπαφών καθώς πολλοί σχεδιαστές υποστηρίζουν ότι δεν υφίσταται ενώ άλλοι πιστεύουν ότι αποτελεί το πιο σημαντικό χαρακτηριστικό μιας εφαρμογής. Υπάρχουν επίσης αποδείξεις ότι η προσωπικότητα και η χρηστικότητα μιας φωνητικής διεπαφής είναι στενά συνδεδεμένες. Τυχόν αποτυχίες στην αναγνώριση ομιλίας καθώς και απροσδόκητες απαντήσεις μπορεί να διαβρώσουν την εμπιστοσύνη προς το σύστημα.


 * Η τεχνολογία της διεπαφής**

Η τεχνολογία που υποστηρίζει την φωνητική διεπαφή χρήστη είναι η αυτόματη αναγνώριση ομιλίας (ASR). Αυτό το σύστημα έχει συνήθως δυνατότητα ομιλίας IVR αλλά μπορεί να είναι επίσης και ένας προσωπικός υπολογιστής, ένα σύστημα πλοήγησης αυτοκινήτου ή οποιαδήποτε άλλη φορητή συσκευή με δυνατότητα ομιλίας. Όλα αυτά τα συστήματα εξαρτώνται από την ίδια βασική τεχνολογία αναγνώρισης φωνητικής εισόδου. Το φωνητικό σήμα εισόδου συλλαμβάνεται, ψηφιοποιείται, κατακερματίζεται και στη συνέχεια συγκρίνεται με ένα σύνολο αποθηκευμένων ηχητικών μοντέλων από ήχους ομιλίας. Οι ήχοι τότε δημιουργούν πιθανές λέξεις οι οποίες συγκρίνονται με τη γραμματική των λέξεων που θα πρέπει να έχουν αναγνωριστεί μέχρι εκείνο το σημείο του διαλόγου. Η διαδικασία αναγνώρισης καθοδηγείται ακουστικά δεν υπάρχει λογική ανάλυση για να βοηθήσει το σύστημα να αποκωδικοποιήσει την είσοδο του χρήστη. Έτσι ο τρόπος με τον οποίο τα συστήματα πληροφορικής αναγνωρίζουν την ομιλία διαφέρει από τον τρόπο με τον οποίο την αναγνωρίζουν οι άνθρωποι. Στη δεκαετία του 1980 και του 1990, μεγάλη έρευνα επικεντρώθηκε στη δημιουργία συστημάτων με πιο ανθρώπινο τρόπο αναγνώρισης ομιλίας (π.χ., McClelland & Elman, 1986). Τέτοια συστήματα περιέχουν τεράστια ποσότητα γλωσσικών πληροφοριών σχετικά με τη δομή των λέξεων και των προτάσεων, καθώς και σημασιολογική πληροφορία. Ακόμα και αυτά ήταν όμως ανεπαρκή για να μοντελοποιήσουν την ανθρώπινη συμπεριφορά για την αναγνώριση ομιλίας, έτσι ενσωματώθηκαν μοντέλα της δομής του διαλόγου και αντίληψης του κόσμου. Η πολυπλοκότητα και υπολογιστικές απαιτήσεις των εν λόγω συστημάτων περιορίζουν τη χρήση τους στα εργαστήρια.

Υπάρχουν τρεις παράγοντες που πρέπει να εξεταστούν κατά την επιλογή συστημάτων αναγνώρισης φωνής και IVR: • Η ακρίβεια, • Η προστασία της ιδιωτικότητας και • Η φύση των περιεχομένων του μενού

Με βάση την ακρίβεια η προεπιλεγμένη επιλογή πρέπει να είναι ένα IVR σύστημα. Λαμβάνοντας υπόψη ένα θεωρητικό σύστημα αναγνώρισης με 99% ακρίβεια η αθροιστική πιθανότητα να αναγνωριστεί χωρίς κάποιο λάθος ένας 10-ψήφιος αριθμός είναι 90%. Αν η εφαρμογή χρειάζεται ένα 16-ψήφιο αριθμό πιστωτικής κάρτας και ένα 9-ψήφιο αριθμό Κοινωνικής Ασφάλισης για επιβεβαίωση η πιθανότητα λάθους πέφτει στο 82%. Η ανάκτηση από σφάλματα είναι σημαντική, δύσκολη και χρονοβόρα διαδικασία στο σχεδιασμό ενός IVR συστήματος και ενός συστήματος ομιλίας, αλλά σε μια κατάσταση με υψηλή πιθανότητα των λαθών σε ένα σύστημα ομιλίας απαιτείται περισσότερη προσοχήΌταν ο χρήστης της διεπαφής θα πρέπει να δώσει τα προσωπικά του στοιχεία δυνατά, τα συστήματα IVR είναι πιο ασφαλή καθώς είναι δύσκολο να καταλάβει κάποιος αν τα πλήκτρα που πατήθηκαν αντιπροσωπεύουν τηλεφωνικό αριθμό ή κάποιο άλλο προσωπικό αριθμό. Ως προς τη φύση των περιεχομένων τα συστήματα IVR λειτουργούν καλύτερα με αριθμημένες λίστες μέχρι 10 στοιχεία. Τα IVR αποτυγχάνουν όταν έχουν να κάνουν με μεγάλες κατηγορίες, τότε υπάρχει ανάγκη για διάσπαση σε πολλά μενού.


 * Η διαδικασία αναγνώρισης**

Η είσοδος του χρήστη γίνεται μέσω μικροφώνου. Σε αυτό το αρχικό στάδιο της διαδικασίας πρέπει να αποφασιστεί το τι θα θεωρηθεί ως είσοδος καθώς το μικρόφωνο θα ηχογραφήσει εκτός από τις δηλώσεις του χρήστη, ήχους του περιβάλλοντος καθώς και θόρυβο. Το σημείο της διαδικασίας όπου πρέπει να ληφθεί αυτή η απόφαση ονομάζεται **end pointing**. Τα συστήματα αναγνώρισης ομιλίας δεν μπορούν να διακρίνουν την ομιλία του χρήστη από το θόρυβο. Μια λύση ώστε να βελτιωθεί αυτό το ζήτημα είναι να θέσουμε το όριο για την αναγνώριση του κάθε ήχου υψηλότερα, έτσι ώστε οι χαμηλού επιπέδου ήχοι όπως ο θόρυβος να μην εντοπίζονται. Αυτή η λύση περιέχει μια συμβιβαστική μέθοδο καθώς οι χρήστες που μιλούν σιγά δεν θα ακούγονται από το σύστημα λόγω του υψηλού ορίου που έχει τεθεί.



**Εικόνα 1.** Διαδικασία αναγνώρισης ομιλίας. Η σειρά των βημάτων στη αυτόματη αναγνώριση φωνής (Cohen, Giangola, and Balogh (2004)
Μετά την είσοδο το σήμα ψηφιοποιείται και διαιρείται σε ένα σύνολο από μικρά τμήματα για ανάλυση. Κάθε τμήμα μετατρέπεται σε ένα χαρακτηριστικό διάνυσμα – μια αριθμητική αναπαράσταση του σήματος ομιλίας που περιέχει πληροφορίες σχετικές με την αναγνώριση. Η αλληλουχία των διανυσμάτων αποτελεί τη βάση για την αναγνώριση σε επίπεδο λέξεων. Τα στοιχεία που συμβάλουν στην αναγνώριση του μοντέλου είναι ακουστικά μοντέλα, λεξικά, γραμματικές και ένας αλγόριθμος αναζήτησης. Τα ακουστικά μοντέλα προσδιορίζουν τη προφορά των φωνημάτων με μια απεικόνιση ακολουθιακών διανυσμάτων. Το λεξικό είναι ένα σύνολο λέξεων και συναφών προφορών, των οποίων η αναπαράσταση γίνεται με τη χρήση του φωνητικού αλφάβητου. Για μια λέξη είναι πιθανό να υπάρχουν πολλαπλές προφορές οι οποίες εξαρτώνται από παράγοντες όπως η διάλεκτος ο ρυθμός του λόγου και το στυλ ομιλίας. Για να αναγνωριστεί μια προφορά θα πρέπει να έχει προστεθεί πρώτα στο λεξικό. Η γραμματική είναι μια λίστα με δηλώσεις τις οποίες το σύστημα αναμένεται να λάβει ως είσοδο σε κάθε κατάσταση αναγνώρισης. Όσο περισσότερες είναι οι λέξεις που υπάρχουν στη γραμματική και όσο περισσότερο όμοιες είναι ακουστικά, τόσο πιο δύσκολη γίνεται η αναγνώριση. Ένα είδος γραμματικής ονομάζεται SLMs (Statistical Language Models) τα οποία επιτρέπουν στους χρήστες να δίνουν μια πιο ελεύθερη μορφή απάντησης στις ερωτήσεις αντί να επαναλαμβάνουν απλώς τις επιλογές των μενού που προσφέρονται από το σύστημα. Για να είναι αποτελεσματικά τα συστήματα SLM απαιτούν μεγάλες ποσότητες δεδομένων κάτι το οποίο τα καθιστά πιο δαπανηρά και χρονοβόρα από τη γραμματική βασισμένη σε κανόνες. Ένα τρίτο είδος γραμματικής ονομάζεται slotted grammars στα οποία ο χρήστης μπορεί να δίνει ξεχωριστά κομμάτια πληροφορίας σε μια ενιαία έκφραση. Μοιάζει αρκετά με τη γραμματική των SLM αλλά έχει πολύ περιορισμένο φάσμα ευελιξίας της πληροφορίας εισόδου. Ο περιορισμός αυτός τη καθιστά κατάλληλη για εργασίες όπου οι απαντήσεις του χρήστη είναι στερεότυπες ή ακολουθούν κάποιο πρότυπο, όπως στη μεταφορά χρηματικών ποσών μεταξύ λογαριασμών ή για τη κράτηση εισιτηρίου. Με τη χρήση όλων των παραπάνω τα συστήματα αναγνώρισης ομιλίας προσπαθούν να αντιστοιχίσουν τις ακολουθίες των διανυσμάτων οι οποίες αναπαριστούν την ομιλία του χρήστη με πιθανές λέξεις και προφορές στη γραμματική.


 * Εφαρμογές της διεπαφής**


 * **Εμπορικά Προγράμματα**


 * **Τηλεφωνία**

Οι φωνητικές διεπαφές ανέκυψαν κατά συντριπτική πλειοψηφία από τη τηλεφωνία. Η αναγνώριση ομιλίας διαδέχτηκε τα συστήματα touch-tone IVR ((Interactive Voice Response) και διευκόλυνε εργασίες και αλληλεπιδράσεις στις οποίες τα μάτια και τα χέρια είναι απασχολημένα. Επέτρεψε λειτουργίες που είναι δύσκολες με τη χρήση συστημάτων touch tone όπως την εισαγωγή συμβολοσειρών που περιέχουν γράμματα και ψηφία και την επιλογή από μακροσκελείς λίστες επιλογών. Η αναγνώριση ομιλίας διευκόλυνε εργασίες όπως τη συλλογή ονομάτων και διευθύνσεων, τη μεταφορά ποσών μεταξύ τραπεζικών λογαριασμών και τη διεξαγωγή ταξιδιωτικών κρατήσεων. Επιπλέον δε περιορίζεται η αλληλεπίδραση στο 12-ψήφιο τηλεφωνικό πληκτρολόγιο.


 * **Στα ηλεκτρονικά παιχνίδια**

Αν θέλουμε ο χρήστης να αισθάνεται βολικά με τους πράκτορες, να τους εμπιστεύεται και να πείθεται από αυτούς, τότε είναι σημαντικό να σχεδιάσουμε ένα συνδιαλεκτικό ευφυή πράκτορα με την ικανότητα να δημιουργήσει και να διατηρήσει μια κοινωνική σχέση με τον χρήστη. Αυτή η ικανότητα δεν είναι μόνο σημαντική για τις εφαρμογές στα βιντεοπαιχνίδια, αλλά παίζει σημαντικό ρόλο σε κάθε εφαρμογή, η οποία μελετά την διάδραση ενός χρήστη με έναν ευφυή πράκτορα.


 * **Συστήματα Φωνητικού Ταχυδρομείου (Voicemail)**


 * **Στο αυτοκίνητο**

Οι φωνητικές διεπαφές χρήστη συναντώνται και σε άλλες εφαρμογές όπως στα συστήματα πλοήγησης επικοινωνίας και διασκέδασης μέσα στο αυτοκίνητο. Τα συστήματα αυτά επιτρέπουν στον οδηγό να ελέγξει μέσω φωνητικών εντολών το σύστημα πλοήγησης και διάφορες άλλες λειτουργίες του αυτοκινήτου όπως το ηχοσύστημα και ο κλιματισμός. Να κάνει κλήση σε επαφές που περιέχονται στο κινητό του τηλέφωνο, να πάρει πληροφορίες για τη κίνηση, τον καιρό, να επιλέξει μουσικά κομμάτια με κριτήριο τον καλλιτέχνη, το είδος μουσικής. Επιπλέον να μετατρέψει τα γραπτά μηνύματα που λαμβάνει στο κινητό κατά την ώρα της οδήγησης σε ακουστικό κείμενο ώστε να μην απασχολεί τα χέρια του.


 * **Στα μαχητικά αεροσκάφη**

Σημαντικές προσπάθειες αφιερώθηκαν την τελευταία δεκαετία για τη δοκιμή και την αξιολόγηση της αναγνώρισης ομιλίας στα μαχητικά αεροσκάφη. Ιδιαίτερης σημασίας είναι το πρόγραμμα φωνητικής αναγνώρισης των ΗΠΑ Advanced Fighter Technology Integration (AFTI)/F-16 aircraft (F-16 VISTA), το πρόγραμμα φωνητικής αναγνώρισης για τα γαλλικά αεροσκάφη Mirage. Σε αυτά τα προγράμματα αναγνώρισης φωνής έχουν λειτουργήσει με επιτυχία οι εξής λειτουργίες: καθορισμό ραδιοσυχνοτήτων, χειρισμό του αυτόματου πιλότου, καθορισμό συντεταγμένων και παραμέτρων απελευθέρωσης οπλισμού. Για τη επιτυχία των προγραμμάτων αυτών σημαντικό ρόλο έπαιξε η επιτυχημένη χρήση του περιορισμένου λεξιλογίου.
 * **Στις προσομοιώσεις**

Στην εκπαίδευση ελεγκτών εναέριας κυκλοφορίας. Σε πολλά τέτοια συστήματα γίνεται προσομοίωση του διαλόγου μεταξύ των ελεγκτών και των πιλότων ελαττώνοντας έτσι το προσωπικό που απαιτείται για την εκπαίδευση. Ο διάλογος αυτός είναι σε μεγάλο βαθμό δομημένος κάτι το οποίο ενισχύει την επιτυχία των συστημάτων αναγνώρισης φωνής.
 * **Στους προσωπικούς υπολογιστές**


 * **Αυτοματισμοί Σπιτιού (Home Automation)**


 * Εικόνα 2.** Τηλεχειριστήριο του οποίου οι εντολές ενεργοποιούνται από απόσταση

Οι χρήστες δίνουν φωνητικές εντολές για να ενεργοποιήσουν και να απενεργοποιήσουν οικιακές συσκευές, όπως τηλεόραση, κλιματιστικά, DVD, και στερεοφωνικά


 * Σε ανθρώπους με αναπηρίες

> Η πρώτη σκέψη για ένα εύχρηστο μενού μιας φωνητικής διεπαφής είναι να μην επιβαρύνει τη βραχυπρόθεσμη μνήμη του χρήστη με πολλές ακουστικές πληροφορίες. Ο κανόνας 7 συν πλην 2 δεν φαίνεται να ισχύει στα μενού των φωνητικών διεπαφών (Hura, 2007b). Η χρήση ενός τέτοιου μενού δεν είναι έργο ανάκλησης της μνήμης αλλά μια διαδικασία επιλογής. Ο χρήστης δε χρειάζεται να απομνημονεύσει το μενού που ακούει, αλλά να το αξιολογήσει και να συγκρατήσει τις πιθανές επιλογές του. > Οι επιλογές ενός μενού θα πρέπει να είναι περιγραφικές και διακριτές. Τα περιγραφικά μενού παρέχουν στους χρήστες την αίσθηση “Ξέρω τι είναι αυτό…..”, έτσι ώστε να αξιολογήσουν καλύτερα τις επιλογές τους χωρίς να επιβαρύνουν τη μνήμη τους. Άλλοι παράγοντες που επηρεάζουν την ακουστική βραχυπρόθεσμη μνήμη είναι το μήκος λέξης, η συχνότητα και οικειότητα. > Πάντα οι χρήστες θα αποδίδουν ένα persona σε μια φωνητική διεπαφή. Ορισμένοι σχεδιαστές υποστηρίζουν ότι οι διεπαφές θα πρέπει να λένε ότι ακριβώς και ένας άνθρωπος. Αυτός ο κανόνας δεν πρέπει να ακολουθείται πιστά καθώς οι χρήστες δε θα πρέπει να υπερεκτιμήσουν τις ικανότητες του συστήματος παρασυρόμενοι από τις προτροπές του. > Τα σφάλματα που συμβαίνουν στη λειτουργία της διεπαφής θα πρέπει να αντιμετωπίζονται ανάλογα με τη φύση τους. Για χρήστες που ξέρουν τι θέλουν θα πρέπει να τους δίνεται η δυνατότητα να το επαναλάβουν. Σε χρήστες που δεν ήταν σε θέση να δώσουν μια καλή απάντηση να τους δίνονται επιπλέον πληροφορίες > Μια από τις δυσκολίες που αντιμετωπίζουν οι χρήστες σε μια φωνητική διεπαφή είναι να μείνουν προσανατολισμένοι. Οι υποδείξεις θα πρέπει να αναγνωρίζουν τις επιλογές του χρήστη και να ενισχύουν την αίσθηση του τόπου. > ΣΥΣΤΗΜΑ : Μπορείτε να πείτε: υπόλοιπο λογαριασμού, μεταφορά, κατάθεση…… > ΧΡΗΣΤΗΣ : Μεταφορά. > ΣΥΣΤΗΜΑ : Μεταφορά. Μπορείτε να πείτε: …………….. > Η παροχή οδηγιών προς τους χρήστες θα πρέπει να γίνονται σε μικρά κομμάτια και σε σημεία όπου είναι πιθανό να χρειαστεί. > Έκδοση 1: Παρακαλώ εισάγετε την ημερομηνία γέννησής σας ως ένα οκταψήφιο αριθμό, με δύο ψηφίαγια την ημέρα που ακολουθείται από δύο ψηφία για το μήνα και τέσσερα ψηφία για το έτος.Έκδοση 2: Παρακαλώ εισάγετε την ημερομηνία γέννησής σας ως οκταψήφιο αριθμό. Έτσι, για τις 14 Μαρτίου1986, θα είναι 14031986. > SYSTEM : Main menu. You can say: balances, transfers, transaction history, or loans. > USER : Balances. > SYSTEM : All right, balances. To get you that information, we need to get you logged in. First, please enter your account number. > USER : 123–45–678. > SYSTEM : Next, enter your password. > USER : 54321. > SYSTEM : Thanks. The balance on account 123-45-678 as of May 23, 2007 is. . > SYSTEM : To confirm, you’re looking for flights from Los Angeles to Boston on May 23rd. > USER : No, to Austin. > Αποτελεί βασική κατευθυντήρια γραμμή για οποιοδήποτε αυτοματοποιημένο σύστημα. Εάν οι χρήστες δεν καταλαβαίνουμε έναν όρο θα σπαταλήσουν το χρόνο τους για να ακούσουν ολόκληρη τη λίστα των επιλογών πάλι > Όταν αποτύχει ο αυτοματοποιημένος διάλογος ο χρήστης αναζητά αμέσως ένα πραγματικό πρόσωπο. Η προώθηση αυτή θα πρέπει να γίνεται τη σωστή στιγμή ώστε ο χρήστης να μην είναι εκνευρισμένος και απογοητευμένος όταν θα μιλήσει με τον αληθινό αντιπρόσωπο > > > >
 * Γενικές σχεδιαστικές οδηγίες**
 * 1) **Δε πρέπει να ανησυχούμε τόσο για τον αριθμό των επιλογών σε ένα μενού**
 * 1) **Θα πρέπει να παρουσιάζουμε τις επιλογές του μενού της διεπαφής με τρόπο κατανοητό και εύκολο**
 * 1) **Η persona δε θα πρέπει να εμποδίζει την αποτελεσματικότητα της διεπαφής**
 * 1) **Σωστή αντιμετώπιση των σφαλμάτων**
 * 1) **Να υπάρχουν ορόσημα**
 * 1) **Να χρησιμοποιούνται συμβουλές και υπενθυμίσεις**
 * 1) **Είναι προτιμότερο ένα παράδειγμα από μια μακροσκελή επεξήγηση**
 * 1) **Χρήση λέξεων για τη σύνδεση των δηλώσεων μέσα σε ένα διάλογο**
 * 1) **Να επιτρέπεται η διόρθωση σφαλμάτων κατά το διάλογο**
 * 1) **Να γίνεται χρήση ορολογίας που είναι οικεία στους χρήστες**
 * 1) **Ο χρήστης να έχει την επιλογή να απευθυνθεί σε ένα πραγματικό πράκτορα όταν διαπιστώνεται ότι αντιμετωπίζει πρόβλημα**
 * Μελλοντικά Σχέδια**


 * Το ΜΙΤ της Βοστόνης αναπτύσσει ένα λογισμικό το οποίο θα ενσωματωθεί σε ένα smart phone και θα μετατρέπει τα ηχητικά κύματα σε δόνηση που θα γίνεται αισθητή από τον κωφό και φυσικά κάθε μία θα διαφοροποιείται ώστε να γίνεται διακριτή η λέξη, η έννοια.


 * Το YouTube Ανακοίνωσε ότι τα εκατομμύρια βίντεο που φιλοξενεί, θα αποκτήσουν αυτόματους υπότιτλους, κάτι που θα τα καταστήσει πιο προσβάσιμα σε κωφούς και άτομα με προβλήματα ακοής. Η πρωτοβουλία της βασίζεται στις τελευταίες εξελίξεις στην τεχνολογία αναγνώρισης φωνής. Αποτελεί του μεγαλύτερο online πείραμα του είδους του στον κόσμο.

=Παρουσίαση=



=**Βίντεο**=

media type="youtube" key="aUgEWwSFcFs" height="385" width="480"

media type="youtube" key="YAOhiTsbCbY" height="385" width="480"

media type="youtube" key="IkeC7HpsHxo" height="385" width="480"

media type="youtube" key="p2qlHoxPioM" height="385" width="640"

media type="youtube" key="YXJEGAJgSeU" height="385" width="640"

media type="youtube" key="_uMibJqqn8s" height="385" width="480"

media type="youtube" key="Ua9Q5frlQ2M" height="385" width="640"

media type="youtube" key="9renvWel9cY" height="385" width="640"

media type="youtube" key="TMTndIz7szc" height="385" width="640"

media type="youtube" key="r7YjfpcoMSs" height="385" width="480"

media type="youtube" key="D_R2oiYoZ1I" height="385" width="640"

media type="youtube" key="thjQLNFTARI" height="385" width="640"

media type="youtube" key="rNYUfwdiFRw" height="385" width="480"

media type="youtube" key="ceYsQnHuiGo" height="385" width="480"

media type="youtube" key="ErnEB-xFswo" height="385" width="480"

media type="youtube" key="KyLqUf4cdwc" height="385" width="480"

media type="youtube" key="ZZ0N3WpmZho" height="385" width="480"

media type="youtube" key="8n9diXGdWUs" height="385" width="640"

media type="youtube" key="cN0q8SvlQAk" height="385" width="640"

=**Βιβλιογραφικές Πηγές**=


 * 1) Philip Kortum (2008). HCI Beyond the GUI, Elsevier. @http://www.hcibeyondthegui.com
 * 2) C# Text-to-speech & Voice Recognition, http://www.studentguru.gr/
 * 3) acapela.tv @http://www.acapela.tv/index.html
 * 4) Enet, Ελευθεροτυπία http://archive.enet.gr http://www.enet.gr