FEVRIER 2020 I Data Science
NaoSynth : concept
N
Comment faire découvrir au plus grand nombre ce que peut apporter la data science ? Après plusieurs idées et échanges entre les membres, la musique nous a semblé être un vecteur idéal avec une dimension ludique et participative. Le projet de synthétiseur embarquant une dose d’intelligence artificielle est donc né à la suite de ces discussions.
le concept
Le concept initial a été de faire des enregistrements dans la ville de Nantes et d’y ajouter la génération de mélodie à partir d’une IA. Nous avons voulu que ce projet soit évolutif, avec une interface simple, devant donner envie de la manipuler. Les oreilles grandes ouvertes, nous avons effectué des prises de son avec nos smartphones mais aussi avec une tête binaurale (deux micros dont l’écart reproduisent la distance entre les oreilles) prêtée par SUN radio.
La fontaine de la place royale, les musiciens de rue quartier Bouffay, le tram à Commerce… Ces samples urbains donnent une texture unique au projet et permettent à l’utilisateur de faire son mixage.
Un réseau de neurones pour générer de la musique
La version actuelle de Naoned Synth utilise des mélodies générées par une IA, Music Transformer. Ces fichiers sonores sont mis à disposition sous licence libre. Originellement joué au piano, nous les avons retravaillés pour ajouter un peu de variété dans les instruments de musique.
L’IA Music Transformer est un réseau de neurones conçu, entraîné et validé par Google. Comme la majorité des réseaux de neurones proposés pour générer de la musique, Music Transformer n’utilise pas et ne produit pas directement des flux sonores : les musiques apprises et construites par le réseau sont représentées sous un format très similaire aux rouleaux de piano pneumatique. Chaque mélodie est représentée par une matrice indiquant les notes qu’on commence à jouer, les notes qu’on arrête de jouer, les effets de décalage dans le temps et de vélocité.
Représentation d’une courte mélodie, comme un rouleau de piano pneumatique (figure de gauche) et dans le format compris par Music Transformer. Ce graphique est issu du papier de recherche décrivant Music Transformer.
Ce format de données s’obtient aisément à partir de fichiers MIDI et inversement : les mélodies générées peuvent facilement être converties dans ce format audio, ce qui offre la possibilité de les jouer avec n’importe quel instrument de musique. Il présente cependant des limitations : tous les effets sonores (vibration, diminution / augmentation du volume, etc.) ne sont pas représentables. Il n’est donc pas question de générer des musiques d’une grande complexité, avec plusieurs instruments. Vous pourrez cependant constater que de nombreux morceaux produits par l’IA passent le test de turing : impossible à l’oreille de détecter qu’ils ont été produits par une machine.
Côté architecture, Music Transformer appartient à la catégorie des réseaux de neurones auto-régressif, avec des mécanismes d’attention. Concrètement, il est entraîné à prédire la N+1 opération sur la partition (arrêter une note, modifier la vitesse, etc.) à partir de N opérations précédentes. Ainsi la mélodie se construit au fur et à mesure, autorisant les répétitions de suite d’accord, des variations d’un même thème, etc.
Pour que la construction reste harmonieuse, une nouvelle opération musicale est construite en pondérant l’importance de chaque événement précédent. Ainsi l’ensemble de la mélodie ne contribue pas de manière égale aux différents moments du morceau créé. Les mécanismes d’attention sont des couches qui vont permettre au réseau de neurones de se focaliser sur les informations importantes. Les réseaux de neurones de type transformer ont pour particularité de ne reposer pratiquement que sur des couches d’attention, alors que d’autres réseaux utiliserons des couches de convolutions ou des couches récurrentes. Ce type de réseaux de neurones est notamment connu pour faire partie des approches les plus pertinentes en traitement de la langue naturelle. Dans la génération de musique, il se retrouve aussi parmi les méthodes les plus performantes.
Évolutions possibles
Ce projet est ouvert à plusieurs types d’évolution : génération de mélodie à la volée, implémentation de moteur d’échantillonnage, géolocalisation des sons pour une visite immersive de la ville…
Cette expérimentation est ouverte, le code est disponible sur GitHub
#Collectif nantais
#IA
#Société
#Impact des données
#Algorithmes Ethiques
#Data Science
#Algorithmes
#Deep Tech