Nvidia prezentuje Fugatto. To innowacyjny generator AI do audio

Fugatto to narzędzie AI, którym pochwaliła się firma Nvidia. Jest to wysoce profesjonalny generator audio. Czym charakteryzuje się ten model sztucznej inteligencji?

Fugatto to skrócona nazwa od Foundational Generative Audio Transformer Opus 1, a sam człon słowa – „fuga” – odnosi się do muzyki. To najbardziej skomplikowana forma polifoniczna podlegająca ścisłym zasadom konstrukcyjnym.

I w tej definicji należy szukać tropów odnośnie działania Fugatto. Sama firma nazwała swoje narzędzie szwajcarskim scyzorykiem dla dźwięku. Upraszczając – kreatywni twórcy muzyczni mają otrzymać profesjonalny model AI, który będzie dokładny, niezawodny i bardzo szybki.

Fugatto od Nvidia to potężny model AI

fot. Nvidia

Fugatto generuje lub przekształca dowolną mieszankę muzyki, głosów i dźwięków opisaną za pomocą promptu przy użyciu dowolnej kombinacji plików tekstowych i audio. Stworzy utwór muzyczny na podstawie informacji tekstowej, ale może pracować również na gotowych już plikach audio. Pozwoli to na dowolną modyfikację, jak i wygenerowanie zupełnie nowych dźwięków. Poza ścieżką muzyczną z użyciem instrumentów, narzędzie AI pozwoli na dodanie ludzkiego głosu lub śpiewu.

Twórcom zależało na tym, aby stworzyć potężne narzędzie AI, które będzie rozumiało dźwięki podobne jak ludzie. Ma pomagać człowiekowi w szybkim generowaniu audio. Nvidia piszę o paru przykładach, w jakich będzie można wykorzystać Fugatto.

Przykładów wygenerowania audio przez Fugatto jest bez liku

Oczywiście na pierwszym miejscu widzą producentów muzycznych, którzy mogą wykorzystać program do inspiracji, ale również do stworzenia podkładu do istniejącego już kawałka muzycznego. Zmishlany, producent i autor tekstów nie krył swojej fascynacji nowymi możliwościami

Historia muzyki to także historia technologii. Gitara elektryczna dała światu rock and roll. Kiedy pojawił się sampler, narodził się hip-hop. Dzięki AI piszemy następny rozdział muzyki. Mamy nowy instrument, nowe narzędzie do tworzenia muzyki — i to jest bardzo ekscytujące.

Ponadto Fugatto mogłaby użyć agencja reklamowa do szybkiego stworzenia muzycznego tła w powstającej kampanii. Podczas nauki języków obcych możemy tak zbudować prompta, aby lektor mówił głosem naszego znajomego. To faktycznie interesująca alternatywa, ale również budząca wątpliwości, czy narzędzie AI nie stanie się zbyt niebezpieczne. Oszuści mogą wygenerować fikcyjne audio i wykorzystać w niecnym celu.

Kolejnym scenariuszem może być wykorzystanie programu przez twórców gier i filmów. Model generuje również dźwięki, które zmieniają się w czasie. Ma funkcję o nazwie interpolacja czasowa. Daje to użytkownikom precyzyjną kontrolę nad ewolucją krajobrazu dźwiękowego. To nie pojedynczy dźwięk, a stopniowane audio o wysokiej jakości. Przykładowo – możemy szybko stworzyć dźwięk uderzenia pioruna podczas burzy, którego dźwięk sukcesywnie będzie głuchł w otomanach deszczu.

Czy Fugatto nie zwiększy liczby cyberprzestępstw?

Pełna wersja Fugatto Pełna wykorzystuje 2,5 miliarda parametrów i została przeszkolona na banku Systemy NVIDIA DGX i chipsecie 32 NVIDIA H100 GPU Tensor Core. Nie wiadomo, kiedy narzędzie zostanie publicznie udostępnione, ale widać, że rynek narzędzi AI nie zatrzymuje się nawet na chwilę. Kiedy wszyscy czekają na Sorę, to międzyczasie powstaje mnóstwo profesjonalnych modeli AI.

NVIDIA z rekordowymi wynikami – AI przynosi firmie fortunę

Fugatto to zdecydowanie jeden z ciekawszych generatorów AI, ale czy nie zbyt potężny? Oczywiście okaże się, czy faktycznie będzie działać tak dobrze, jak opisującą ją twórcy, ale próbne audio brzmią świetnie. Tylko czy Fugatto nie jest zbyt niebezpieczne? Stworzenia ludzkiego głosu to dużo możliwości, które mogą wykorzystać cyberprzestępcy.