Adobe: και επεξεργασία... εγγεγραμμένης ομιλίας στον ορίζοντα

Από μερικές απόψεις "Photoshop για ήχο" το νέο της λογισμικό, ακόμη όμως όχι έτοιμο εμπορικά

Adobe: και επεξεργασία... εγγεγραμμένης ομιλίας στον ορίζοντα

Η Adobe έχει βεβαίως συνδέσει άρρηκτα όλα αυτά τα χρόνια το όνομά της με την επεξεργασία εικόνας μέσω του δημοφιλέστερου, ικανότερου σχετικού προγράμματος, του Photoshop - όμως αν η πρόθεση και φιλοδοξία της στην επεξεργασία και σύνθεση ομιλίας υλοποιηθεί με τον ίδιο επιτυχημένο τρόπο, σύντομα ενδέχεται όλοι να μιλούν για μία νέα της δημιουργία και όχι τις παλαιότερες. Ο λόγος για την τεχνολογία που η αμερικανική εταιρεία ονομάζει VoCo (Voice Conversion), την οποία επέδειξε στην εκδήλωση Adobe Max 2016 πριν από λίγες μέρες, εντυπωσιάζοντας έως... τρομάζοντας σε έναν βαθμό το κοινό με τις ενδεχόμενες χρήσεις της! Η τεχνολογία αυτή έχει αναπτυχθεί με σκοπό όχι μόνο την επεξεργασία εγγεγραμμένης ομιλίας, αλλά και την σύνθεση ομιλίας από το μηδέν βάσει... απλού κειμένου που εισάγει ο χρήστης (!). Το πρόγραμμα που επέδειξε η Adobe χρειάζεται αρχικά περίπου 20 λεπτά ηχογραφημένου υλικού από έναν ομιλητή (στην τελική έκδοση θα χρειάζεται μικρότερης διάρκειας δείγμα). Βάσει αυτού του υλικού αναλύει τον ήχο και παράγει ένα "φωνητικό προφίλ" ψηφιακού ομιλητή, το οποίο δεν επιτρέπει μόνο την "απομαγνητοφώνηση" του αρχικού υλικού απευθείας σε κείμενο, αλλά και δύο άλλα πράγματα. Ένα: την αλλαγή της σειράς των λέξεων με τρόπο τόσο πειστικό ώστε η προκύπτουσα ομιλία να ακούγεται φυσικότατη (ο χρήστης μπορεί να την ορίσει από ένα απλό πεδίο εισαγωγής κειμένο). Δύο: την δημιουργία... νέων λέξεων και προτάσεων βάσει του φωνητικού προφίλ που δημιουργήθηκε, λαμβάνοντας στα υπ' όψιν όλες τις ιδιαιτερότητες του ομιλητή σε αναπνοή, στίξη, παύσεις, προφορά κλπ.!

Adobe: και επεξεργασία... εγγεγραμμένης ομιλίας στον ορίζοντα - εικόνα 1

Η έκφραση... "μην βάζεις λόγια στο στόμα μου", κοινώς, θα αποκτήσει άλλη διάσταση όταν η Adobe κάνει διαθέσιμη την τεχνολογία VoCo σε εμπορική μορφή κάποια στιγμή μελλοντικά. Τυπικά χρειάζονται 12-18 μήνες ανάπτυξης και δοκιμών πριν η Adobe ενσωματώσει μία εντελώς νέα τεχνολογία σε πρόγραμμά της, όμως οι πιθανές... χρήσεις και καταχρήσεις της VoCo είναι ήδη αντικείμενο συζήτησης: από την "κατασκευή" ψεύτικων καταθέσεων και την παραποίηση αληθινών ομιλιών μέχρι την παραβίαση τραπεζικών δεδομένων μέσα από φωνητικές πύλες που δεν θα είναι σε θέση να ξεχωρίσουν διά τηλεφώνου το γνήσιο της φωνής του ομιλητή, τα περιθώρια για φάρσες, δημιουργική σάτιρα ή για ενέργειες με σοβαρές ποινικές κυρώσεις είναι μεγάλα. Θα έχει ενδιαφέρον να διαπιστώσουμε αν ο... κόσμος είναι έτοιμος για το Photoshop ανθρώπινης ομιλίας, υποθέτοντας πως η Adobe θα το υλοποιήσει ποιοτικά, σε λίγο καιρό. Έως τότε...

Διαβάστε ακόμα

Τελευταία άρθρα Tech

Honor 50 5G

Επανεκκίνηση με στυλ, επιστροφή με αξιώσεις

ΓΡΑΦΕΙ: ΚΩΣΤΑς ΦΑΡΚΩΝΑς
15/11/2021

Forza Horizon 5

Το καλύτερο μέχρι σήμερα, το καλύτερο της κατηγορίας του για το 2021

Nintendo Switch OLED Edition

Βελτιωμένο στα σημεία, ως πρώτη αγορά όμως προτιμητέο

Kena: Bridge of Spirits

Ταξίδι μαγικό, στο PS5 αποκλειστικό

Death Stranding Director's Cut

Ξεχωριστή παραγωγή στην καλύτερή της εκδοχή

PLG Disrupt: συνέδριο για Product-Led Growth τον Οκτώβριο

Πλούσιο πρόγραμμα, σημαντικοί ομιλητές και διαδραστικές επιλογές για τους συμμετέχοντες

Captain Tsubasa: Rise of New Champions

Ιαπωνικό κινούμενο σχέδιο ποδοσφαίρου σε video game...; Ω, ναι!