Η Adobe έχει βεβαίως συνδέσει άρρηκτα όλα αυτά τα χρόνια το όνομά της με την επεξεργασία εικόνας μέσω του δημοφιλέστερου, ικανότερου σχετικού προγράμματος, του Photoshop - όμως αν η πρόθεση και φιλοδοξία της στην επεξεργασία και σύνθεση ομιλίας υλοποιηθεί με τον ίδιο επιτυχημένο τρόπο, σύντομα ενδέχεται όλοι να μιλούν για μία νέα της δημιουργία και όχι τις παλαιότερες. Ο λόγος για την τεχνολογία που η αμερικανική εταιρεία ονομάζει VoCo (Voice Conversion), την οποία επέδειξε στην εκδήλωση Adobe Max 2016 πριν από λίγες μέρες, εντυπωσιάζοντας έως... τρομάζοντας σε έναν βαθμό το κοινό με τις ενδεχόμενες χρήσεις της! Η τεχνολογία αυτή έχει αναπτυχθεί με σκοπό όχι μόνο την επεξεργασία εγγεγραμμένης ομιλίας, αλλά και την σύνθεση ομιλίας από το μηδέν βάσει... απλού κειμένου που εισάγει ο χρήστης (!). Το πρόγραμμα που επέδειξε η Adobe χρειάζεται αρχικά περίπου 20 λεπτά ηχογραφημένου υλικού από έναν ομιλητή (στην τελική έκδοση θα χρειάζεται μικρότερης διάρκειας δείγμα). Βάσει αυτού του υλικού αναλύει τον ήχο και παράγει ένα "φωνητικό προφίλ" ψηφιακού ομιλητή, το οποίο δεν επιτρέπει μόνο την "απομαγνητοφώνηση" του αρχικού υλικού απευθείας σε κείμενο, αλλά και δύο άλλα πράγματα. Ένα: την αλλαγή της σειράς των λέξεων με τρόπο τόσο πειστικό ώστε η προκύπτουσα ομιλία να ακούγεται φυσικότατη (ο χρήστης μπορεί να την ορίσει από ένα απλό πεδίο εισαγωγής κειμένο). Δύο: την δημιουργία... νέων λέξεων και προτάσεων βάσει του φωνητικού προφίλ που δημιουργήθηκε, λαμβάνοντας στα υπ' όψιν όλες τις ιδιαιτερότητες του ομιλητή σε αναπνοή, στίξη, παύσεις, προφορά κλπ.!
Η έκφραση... "μην βάζεις λόγια στο στόμα μου", κοινώς, θα αποκτήσει άλλη διάσταση όταν η Adobe κάνει διαθέσιμη την τεχνολογία VoCo σε εμπορική μορφή κάποια στιγμή μελλοντικά. Τυπικά χρειάζονται 12-18 μήνες ανάπτυξης και δοκιμών πριν η Adobe ενσωματώσει μία εντελώς νέα τεχνολογία σε πρόγραμμά της, όμως οι πιθανές... χρήσεις και καταχρήσεις της VoCo είναι ήδη αντικείμενο συζήτησης: από την "κατασκευή" ψεύτικων καταθέσεων και την παραποίηση αληθινών ομιλιών μέχρι την παραβίαση τραπεζικών δεδομένων μέσα από φωνητικές πύλες που δεν θα είναι σε θέση να ξεχωρίσουν διά τηλεφώνου το γνήσιο της φωνής του ομιλητή, τα περιθώρια για φάρσες, δημιουργική σάτιρα ή για ενέργειες με σοβαρές ποινικές κυρώσεις είναι μεγάλα. Θα έχει ενδιαφέρον να διαπιστώσουμε αν ο... κόσμος είναι έτοιμος για το Photoshop ανθρώπινης ομιλίας, υποθέτοντας πως η Adobe θα το υλοποιήσει ποιοτικά, σε λίγο καιρό. Έως τότε...