Μια ομάδα ερευνητών της NVIDIA, που ασχολείται με το generative AI, δημιούργησε ένα ιδιαίτερο εργαλείο για ήχο (Fugatto), το οποίο επιτρέπει στους χρήστες να ελέγχουν το audio output και να δημιουργούν καινούριες φωνές, ήχους και μουσική.
Υπάρχουν ήδη ορισμένα μοντέλα τεχνητής νοημοσύνης που μπορούν να συνθέσουν ένα τραγούδι ή να τροποποιήσουν μια φωνή, κανένα όμως δεν μπορεί να προσφέρει κάτι εντελώς νέο, σύμφωνα με την εταιρεία.
Το Fugatto (συντομογραφία του Foundational Generative Audio Transformer Opus 1), δημιουργεί ή μετασχηματίζει οποιαδήποτε μείξη μουσικής, φωνών και ήχων που περιγράφονται με prompts, χρησιμοποιώντας οποιονδήποτε συνδυασμό αρχείων κειμένου και ήχου.
Δείτε επίσης: Microsoft: Λανσάρει το Recall και προσθέτει νέες AI δυνατότητες
Καταιγίδες μεγαλύτερες από τη Γη εντοπίστηκαν στον Δία
Black Basta ransomware: Όλες οι νέες τακτικές
Αποκαλύψεις για τον Μεγαλύτερο Κρατήρα του Φεγγαριού
«Για παράδειγμα, μπορεί να δημιουργήσει ένα μουσικό απόσπασμα με βάση ένα text prompt, να αφαιρέσει ή να προσθέσει όργανα από ένα υπάρχον τραγούδι, να αλλάξει την προφορά ή το συναίσθημα σε μια φωνή — ακόμη και να αφήσει τους ανθρώπους να παράγουν ήχους που δεν έχουν ακουστεί ποτέ πριν», αναφέρει η εταιρεία στο blog post της.
“Ηχητική σύλληψη” του ήχου
«Θέλαμε να δημιουργήσουμε ένα μοντέλο που καταλαβαίνει και παράγει ήχο όπως οι άνθρωποι», δήλωσε ο Rafael Valle, διευθυντής εφαρμοσμένης έρευνας ήχου στη NVIDIA, καθώς και διευθυντής ορχήστρας και συνθέτης.
Υποστηρίζοντας πολυάριθμες εργασίες παραγωγής και μετασχηματισμού ήχου, το AI εργαλείο της NVIDIA, Fugatto, φαίνεται να είναι το πρώτο θεμελιώδες generative AI μοντέλο που παρουσιάζει δυνατότητες που προκύπτουν από την αλληλεπίδραση των ικανοτήτων που έχει μάθει μέσω εκπαίδευσης και των ικανοτήτων να συνδυάζει οδηγίες free-form.
Παραδείγματα χρήσης του Fugatto
Οι μουσικοί παραγωγοί θα μπορούσαν να χρησιμοποιήσουν το Fugatto της NVIDIA για να δημιουργήσουν γρήγορα πρωτότυπα κομμάτια ή να επεξεργαστούν μια ιδέα για ένα τραγούδι, δοκιμάζοντας διαφορετικά στυλ, φωνές και όργανα. Θα μπορούσαν επίσης να προσθέσουν εφέ και να βελτιώσουν τη συνολική ποιότητα ήχου ενός υπάρχοντος κομματιού.
Δείτε επίσης: Microsoft: Νέες AI δυνατότητες για βελτίωση της αναζήτησης στα Windows
Μια διαφημιστική εταιρεία θα μπορούσε να χρησιμοποιήσει το Fugatto για να κάνει μια υπάρχουσα καμπάνια να ταιριάζει καλύτερα σε πολλές περιοχές ή καταστάσεις, εφαρμόζοντας διαφορετικές προφορές και συναισθήματα στις φωνές.
Τα εργαλεία εκμάθησης γλωσσών θα μπορούσαν, επίσης, να αξιοποιήσουν το AI εργαλείο για να χρησιμοποιούν οποιαδήποτε φωνή επιλέγει ο ομιλητής.
Οι προγραμματιστές βιντεοπαιχνιδιών θα μπορούσαν να χρησιμοποιήσουν το μοντέλο για να τροποποιήσουν τα προηχογραφημένα στοιχεία στο παιχνίδι τους, ώστε να ταιριάζουν με την ενέργεια, καθώς οι χρήστες παίζουν το παιχνίδι.
Η NVIDIA εξηγεί ότι για να βγάλει το αποτέλεσμα, το μοντέλο χρησιμοποιεί μια τεχνική που ονομάζεται ComposableART και συνδυάζει εντολές, μελετώντας τις ξεχωριστά. Για παράδειγμα ένας συνδυασμός θα μπορούσε να είναι: ένα κείμενο που εκφωνείται με ένα θλιβερό συναίσθημα με γαλλική προφορά.
Η ικανότητα του μοντέλου να ξεχωρίζει τις εντολές δίνει στους χρήστες λεπτομερή έλεγχο των εντολών κειμένου, σε αυτήν την περίπτωση τη βαρύτητα της προφοράς ή το βαθμό της θλίψης.
«Ήθελα να επιτρέψω στους χρήστες να συνδυάζουν χαρακτηριστικά με υποκειμενικό ή καλλιτεχνικό τρόπο, επιλέγοντας πόση έμφαση δίνουν στο καθένα», δήλωσε ο Rohan Badlani, ερευνητής AI που σχεδίασε αυτές τις πτυχές του μοντέλου.
«Στις δοκιμές μου, τα αποτελέσματα ήταν συχνά εκπληκτικά και με έκαναν να νιώθω λίγο σαν καλλιτέχνης, παρόλο που είμαι επιστήμονας υπολογιστών», δήλωσε ο Badlani.
Το μοντέλο παράγει, επίσης, ήχους που αλλάζουν με την πάροδο του χρόνου, ένα χαρακτηριστικό που ονομάζει temporal interpolation. Μπορεί, για παράδειγμα, να δημιουργήσει τους ήχους μιας καταιγίδας σε μια περιοχή με πιο δυνατούς ήχους βροντής που αργά εξαφανίζονται. Παρέχει επίσης στους χρήστες λεπτομερή έλεγχο για το πώς εξελίσσεται το ηχητικό τοπίο.
Δείτε επίσης: Adobe: Νέες Generative AI δυνατότητες σε Illustrator και Photoshop
Επιπλέον, σε αντίθεση με τα περισσότερα υπάρχοντα AI μοντέλα, τα οποία μπορούν να αναδημιουργήσουν μόνο τα δεδομένα εκπαίδευσης στα οποία έχουν εκτεθεί, «το Fugatto επιτρέπει στους χρήστες να δημιουργήσουν ηχητικά τοπία που δεν έχει δει ποτέ πριν, όπως μια καταιγίδα που υποχωρεί την αυγή με τον ήχο των πουλιών που τραγουδούν».
Fugatto: Ένα ιδιαίτερο AI εργαλείο
Αυτή η καινοτόμος τεχνολογία προσφέρει συναρπαστικές δυνατότητες για καλλιτέχνες, δημιουργούς περιεχομένου, αλλά και επαγγελματίες σε άλλους τομείς, επιτρέποντάς τους να ξεπεράσουν τα όρια της δημιουργικότητας με πρωτοφανείς τρόπους. Αξιοποιώντας προηγμένες τεχνικές μηχανικής μάθησης, οι χρήστες μπορούν να συνδυάζουν απρόσκοπτα διαφορετικά στοιχεία ήχου για να παράγουν μοναδικές συνθέσεις. Αυτό θα μπορούσε να φέρει επανάσταση σε κλάδους που κυμαίνονται από την παραγωγή μουσικής μέχρι τα παιχνίδια και τον κινηματογράφο, όπου ο σχεδιασμός του ήχου παίζει καθοριστικό ρόλο στη βελτίωση της καθηλωτικής εμπειρίας.
Πηγή: blogs.nvidia.com