![model generowania muzyki](https://gnn.pl/wp-content/uploads/2024/10/studio-2224493_1920.jpg)
Nowy model generowania muzyki z wykorzystaniem metadanych
Nowy model do generowania muzyki pozwala każdemu z wiedzą na temat powstawania dźwięków, tworzyć muzykę za pomocą prostego interfejsu.
Sztuczna inteligencja otworzyła przed przemysłem muzycznym nowe, fascynujące możliwości. Dzięki niej powstają narzędzia, które potrafią automatycznie tworzyć kompozycje muzyczne lub generować ścieżki dla konkretnych instrumentów. Jednak większość dostępnych rozwiązań jest skierowana do profesjonalnych muzyków, kompozytorów i producentów, a nie do osób bez specjalistycznej wiedzy.
Badacze z LG AI Research opracowali nowy interaktywny system, który pozwala każdemu użytkownikowi łatwo przekształcić swoje pomysły w muzykę.
Model oparty na transformatorze, stanowiący podstawę systemu, został wytrenowany na dwóch zbiorach danych muzycznych: Lakh MIDI oraz MetaMIDI. Łącznie te zbiory zawierają ponad 400 tysięcy plików MIDI. Pliki MIDI to dane zawierające różne informacje o utworach muzycznych, takie jak zagrane nuty, ich długość czy tempo odtwarzania.
Aby przygotować model do treningu, zespół badawczy przekształcił każdy plik MIDI w reprezentację zdarzeń muzycznych (REMI). Ten format koduje dane MIDI w postaci tokenów reprezentujących różne cechy muzyki, na przykład wysokość dźwięku czy dynamikę. Pliki REMI uchwytują dynamikę utworu w sposób szczególnie korzystny dla trenowania modeli sztucznej inteligencji do generowania muzyki.
„Podczas treningu losowo usuwamy tokeny z metadanych muzycznych, aby zapewnić elastyczną kontrolę” – wyjaśnili badacze. „Daje to użytkownikom swobodę wyboru typów danych wejściowych przy jednoczesnym utrzymaniu jakości generowanej muzyki, co pozwala na większą elastyczność w komponowaniu.”
Oprócz opracowania modelu opartego na transformatorze, zespół stworzył prosty interfejs, który sprawia, że system jest dostępny zarówno dla ekspertów, jak i osób bez doświadczenia muzycznego. Interfejs składa się z paska bocznego oraz centralnego panelu interaktywnego.
W pasku bocznym użytkownicy mogą określić elementy muzyki, którą chcą wygenerować, takie jak wybór instrumentów czy tempo utworu. Po wygenerowaniu muzyki przez model, mogą edytować ścieżkę w centralnym panelu, na przykład dodając lub usuwając instrumenty czy zmieniając moment, w którym zaczynają grać.
„Potwierdzamy skuteczność naszej strategii poprzez eksperymenty pod kątem pojemności modelu, jakości muzycznej, różnorodności i kontroli” – napisali badacze. „Dodatkowo skalujemy model i porównujemy go z innymi modelami generowania muzyki poprzez test subiektywny. Nasze wyniki wskazują na jego przewagę zarówno w kontroli, jak i jakości muzyki.”
Naukowcy odkryli, że ich model działa bardzo dobrze i może niezawodnie generować maksymalnie cztery takty muzyki zgodnie ze specyfikacjami użytkownika. W przyszłych badaniach planują jeszcze bardziej udoskonalić swój system, wydłużając czas trwania generowanych utworów, poszerzając zakres dostępnych dla użytkownika ustawień oraz ulepszając interfejs.
„Nasz model, wytrenowany do generowania czterotaktowych fragmentów muzyki z globalną kontrolą, ma ograniczenia w przedłużaniu długości utworu i kontrolowaniu lokalnych elementów na poziomie taktów” – zauważyli badacze. „Jednak nasze próby są istotne w kontekście generowania wysokiej jakości motywów muzycznych, które mogą być używane jako loop.”
System stworzony przez LG AI Research może zrewolucjonizować sposób, w jaki ludzie tworzą muzykę. Dzięki niemu nawet osoby bez wiedzy muzycznej mogą eksperymentować z kompozycją, co może prowadzić do powstania nowych, unikatowych utworów. Ułatwienie dostępu do narzędzi generujących muzykę może również inspirować więcej osób do zainteresowania się tą dziedziną.
Rozwój takiego narzędzia jest krokiem naprzód w kierunku demokratyzacji tworzenia muzyki. Umożliwienie szerokiemu gronu użytkowników tworzenia własnych kompozycji może przyczynić się do większej różnorodności w świecie muzyki i odkrycia nowych talentów. W miarę doskonalenia technologii możemy spodziewać się jeszcze bardziej zaawansowanych narzędzi, które będą w stanie generować dłuższe i bardziej skomplikowane utwory.
Nowy model generowania muzyki symbolicznej z wykorzystaniem metadanych muzycznych jest obiecującym narzędziem, które może mieć znaczący wpływ na przemysł muzyczny. Dzięki niemu tworzenie muzyki staje się bardziej dostępne dla wszystkich, niezależnie od poziomu doświadczenia czy wiedzy muzycznej. Zespół LG AI Research pokazuje, że połączenie sztucznej inteligencji z intuicyjnym interfejsem może otworzyć drzwi do nieograniczonych możliwości w dziedzinie kompozycji muzycznej.
Szymon Ślubowski