Fugatto 1 firmy Nvidia może syntetyzować dźwięk, aby tworzyć nowe dźwięki
Nvidia zaprezentowała nowy model generatywnej sztucznej inteligencji, który może syntetyzować dźwięk za pomocą prostych instrukcji tekstowych i kontekstowych danych wejściowych audio w celu tworzenia unikalnych dźwięków. Nvidia przewiduje Fugatto 1 "jako narzędzie dla twórców, umożliwiające im szybkie ożywienie ich dźwiękowych fantazji i niesłyszanych dźwięków - instrument dla wyobraźni, a nie zastępujący kreatywność"
W swoim artykule badawczym https://fugatto.github.io/FUGATTO_ICLR_2025.pdfzespół twierdzi, że duże modele językowe (LLM) przeszkolone w zakresie tekstu mogą nauczyć się wnioskować o instrukcjach z danych wejściowych, ale LLM przeszkolone wyłącznie w zakresie dźwięku nie mogą tego zrobić. Dźwięk nie ma danych, które pokazują, w jaki sposób został utworzony.
Fugatto 1 firmy Nvidia wykorzystuje wyspecjalizowany zestaw danych, który czerpie z szerokiej gamy dźwięków oraz metodę rozumienia i kontrolowania instrukcji o nazwie ComposeableART. Pozwala to modelowi na tworzenie wyłaniającego się zbioru danych, który może pomóc modelowi łączyć różne dźwięki, nawet te, do obsługi których nie został przeszkolony.
Nvidia zaprezentowała kilka przykładów modelu w akcji na stronie Github Fugatto, takich jak zdolność do syntezy dźwięku psa szczekającego w rytm elektronicznej muzyki tanecznej, maszyny do pisania, która szepcze każdą wpisywaną literę, a nawet saksofonu, który miauczy lub szczeka.
Jak dotąd Nvidia nie planuje publicznego udostępnienia tego modelu.