On le dit souvent, les réseaux de neurones sont des boîtes noires qu'on n'arrive pas à interpréter... Alors, surement que des modèles comme ChatGPT ou Claude 3, avec des centaines de milliards de paramètres, sont loin d'être interprétables ? Et bien non.
Dans cette vidéo, on voit une technique qui permet d'interpréter "ce qui passe dans un réseau de neurones", ou plus précisément, identifier les concepts réels (par exemple, la Tour Eiffel pour un réseau de neurones qui manipule du texte) dans les calculs faits par ce réseau. Cette technique nous permet de faire des choses assez intéressantes par la suite, comme contrôler de façon prévisible le réseau.
Ressources pour aller plus loin :
- évidemment, cette vidéo se base sur les deux récents papiers de recherche d'Antropic AI : Towards Monosemanticity (transformer-circuits.pub/2023...) d'octobre 2023, et Scaling Monosemanticity (transformer-circuits.pub/2024.... Ces deux papiers sont des bijoux si vous voulez rentrer plus dans les détails (même si la vidéo aborde déjà pas mal des détails des papiers!)
- plus récemment, OpenAI a publié les mêmes travaux sur GPT-2 et GPT-4 : openai.com/index/extracting-c.... Il y a aussi une démo pour voir les concepts trouvés, même si beaucoup moins fourni qu'Anthropic (pas de manipulation de concepts, pas d'analyse des concepts influents etc). Comme mentionné dans la vidéo, une analyse précédente avait été faite il y a 1 an, qui se basait sur les neurones seulement : openaipublic.blob.core.window...
- dans cette vidéo, pour passer les détails, on a expliqué le fait que les neurones soient polysémiques par l'hypothèse de la superposition de concepts clairsemés. En fait, oui, mais attention ce n'est pas une CN : il peut y avoir polysémie via d'autres phénomènes que la superposition. Pour en savoir plus, voir ce lien : www.lesswrong.com/posts/8EyCQ...
- tout récemment, deux initiatives ont vu le jour pour interpréter Llama 3 8B. Une première qui analyse seulement les neurones : www.lesswrong.com/posts/TA9eE.... Une seconde initiative a aussi été lancée pour rechercher des concepts dans Llama 3 8B via un SAE : x.com/i/bookmarks?post_id=180...
- qu'est-ce que l'interprétabilité mécanistique ? C'est le domaine de l'IA dans lequel s'inscrit cette vidéo. Zoom sur le modèle InceptionV1, un modèle de vision : • What Do Neural Network...
- le SAE et la place qu'il prend en ce moment dans la recherche en IA : x.com/i/bookmarks?post_id=180...
- le code du projet de la génération des noms de commune + l'analyse des neurones et des concepts : github.com/alxndrTL/villes
0:00 : Introduction
1:48 : Partie 1 : Neurones et concepts
12:06 : Partie 2 : Analyse Claude 3 et ChatGPT
23:38 : Partie 3 : Expérience à petite échelle
27:45 : Partie 4 : Le SAE
33:45 : Conclusion
Rejoindre la communauté Machine Learning FR : / discord
Me suivre :
Github : github.com/alxndrTL
Twitter : / alexandretl2
27 июл 2024