2 expériences (a priori) contradictoires sur les LLMs

Alexandre TL

Подписаться 5 тыс.

Просмотров 3,1 тыс.

50% 1

Видео Поделиться Скачать Добавить в

Опубликовано:

15 сен 2024

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист

Посмотреть позже

Комментарии : 29

@alexandretl 15 дней назад

J’espère que la vidéo vous a plu ! Quelques notes et ressources dont je n’ai pas parlé dans la vidéo : -ma reproduction de l’expérience A=B/B=A : ça marche bien ! x.com/AlexandreTL2/status/1725966137161056515 -une interprétation plus « concrète » de la non généralisation de B=A à partir A=B existe aussi. Elle se base sur l’étude de « circuits » dans les Transformers (domaine de la mechanistic interpretability). On se rend compte en fait que les faits stockés dans les Transformers le sont seulement « dans un sens ». C’est un autre point de vue. -dans la vidéo, on a parlé de deux « modèles mentaux » qu’on peut avoir sur les LLMs. Vous pouvez en découvrir un troisième ici : substack.com/@fchollet/p-137628402. Ce modèle permet de comprendre pourquoi le « prompting » est nécessaire lorsqu’on utilise des LLMs (ie, formuler correctement la demande pour faire effectuer une tâche précise). L’idée globale est de dire que les LLMs sont des base de données de « programmes », et le prompting permet de retrouver le bon programme. Par « programme », on peut par exemple retrouver : « traduction anglais -> français » ou « réécrire un poème dans le style de Victor Hugo ». -récemment, une étude sur le « grokking » a permis de mettre en avant une méthode d’entraînement qui permet aux Transformer de « raisonner implicitement », le même phénomème qu’observé dans les expériences « Connecting the dots » : combiner des exemples d’entraînement pour en tirer des conclusions. Le grokking désigne le moment de l’entraînement où les performances du modèle passent de « très bon sur les données d’entraînement, mauvais sur les données de test » à « très bon sur les données d’entraînement, très bon sur les données de test ». Autrement dit, le moment où le modèle arrive à généraliser ce qu’il a appris à de nouvelles données jamais vues. Le lien : x.com/BoshiWang2/status/1795294846212567089

@ced1401 14 дней назад

Le mot le plus probable n'est effectivement pas forcément une simple affaire de bête répétition stochastique: imaginons un roman policier qui se termine par "et donc l'assassin est...". Pour donner le mot le plus probable (le nom de l'assassin), il faudrait avoir compris l'intrigue aussi bien que le détective qui révèle le coupable. Ce n'est pas toujours aussi simple que "le chat mange la...". Sinon, j'anticipe avec grand plaisir une vidéo sur la compression et l'entropie, j'espère qu'elle verra le jour, le sujet est passionnant

@alexandretl 14 дней назад

Yes finalement ce sera surement une mini série, ça s'annonce pas mal!

@delec9665 4 дня назад

Un vidéo sur la compression et l’entropie serait super en effet !

@alexandretl 3 дня назад

@@delec9665 c'est dans la boîte :) ça sortira surement la semaine prochaine

@jean-micheltorres6925 12 дней назад

Excellente vidéo, comme d'habitude ! MERCI !

@bause6182 15 дней назад

Le constat que je fais c'est que tous les grands acteurs de l'ia rencontrent les mêmes problèmes/erreurs lors de l'élaboration de leurs models. Si seulement ils partageaint tous leurs decouvertes et expertises on avancerait plus vite dans la recherche en ia , mais tout le monde veut faire son propre llm...

@alexandretl 14 дней назад

Oui c'est vrai, surtout que les bases des technologiques des LLMs viennent de l'académie. Par exemple il y a quelques jours l'entreprise Magic a annoncé qu'ils avaient mis au point une architecture capable de traiter des séquences très très longues, mais aucune information technique, c'est rageant!

@bacrima6382 8 дней назад

C'est une bonne chose du coups si ça ralentit la recherche.

@valerykyungu 14 дней назад

6:57 Kinshasa ✨ je m'y attendais pas du tout ❤

@jgcb0071 14 дней назад

toujours très intéressant bravo !

@alexandretl 14 дней назад

Merci bien!

@yayasy1362 12 дней назад

Il faudrait voir si des modèles comme BERT ou BART (s’ils sont mis à l’échelle des LLMs modernes en termes de taille et de données d’entraînement) passent le test du reversal curse. Ces modèles ont un mécanisme d’attention bi-directionnel, et n’ont pas ce biais de prediction du mot suivant de droite à gauche uniquement. Peut-être que le problème est juste un artéfact technique dû au causal attention. Parce que ça m’a l’air d’être un problème de modélisation linguistique. Le LLM a des lacunes en inférence linguistique: fr.m.wikipedia.org/wiki/Modèle_d%27inférence.

@alexandretl 11 дней назад

Oui c'est une bonne remarque on soupçonne aussi le côté auto-regressif en effet

@Sabrarch 13 дней назад

Super vidéo bravo

@alexandretl 13 дней назад

Merci!

@Algneo 15 дней назад

Il n'y a pas vraiment de contradiction entre prédire le mot le plus probable et créer une représentation interne : la meilleure façon de prédire le mot le plus probable est justement de développer une représentation interne. C'est l'opposition qu'on fait entre un perroquet stochastique et un agent qui comprend qui me semble fallacieuse, un bon perroquet stochastique doit avoir un certains degré de compréhension. Et si les LLM ne connectent pas tous les points c'est peut-être que la taille des données ou la durée de l'entraînement n'est pas encore suffisante pour qu'ils capturent toute la structure d'un agent qui produit du langage.

@alexandretl 15 дней назад

Oui je suis d'accord avec toi mais je ne crois pas avoir dit* qu'il y avait une contradiction entre "prédire le mot le plus probable" et "créer une représentation interne". Ce que je voulais dire, c'est qu'avoir en tête le modèle de "générateur du mot le plus probable" (au sens de : parmi les phrases des données d'entraînement qui ressemblent au prompt, quel est le prochain mot le plus courant?) nous permet difficilement d'expliquer les expériences connecting the dots. J'axe donc plus mon discours sur la façon dont on se représente ces modèles. Je suis d'accord qu'au final, ça revient à décrire différents visage d'une même chose (cf 11:42), mais pour quelqu'un de novice qui regarde la vidéo, penser "générateur du mot le plus probable" n'implique pas tout de suite "représentation interne". C'est au final le but de la vidéo. Je dis d'ailleurs bien à la fin que les deux "modèles mentaux" sont valables et qu'on peut en choisir un ou autre en fonction du contexte.

@lesfreresdelaquote1176 15 дней назад

@@alexandretl M. Phi avait fait une très bonne analogie. Comment considèrerait-on un modèle entrainé à prédire le prochain coup de Magnus Carlsen? Un très bon joueur d'échec ou un perroquet stochastique??? En effet, un transformer peut être facilement entrainé à prédire le coup suivant si on l'entraine avec les millions de partie encodées en PGN. Autre chose, la plupart des LLM sont entrainés sur un nombre ridicule d'époque, 1 ou 2... Ce qui signifie qu'il ne voit les données d'entrainement le plus souvent qu'une fois...

@krimod 15 дней назад

Très bonne vidéo, merci à toi ! Pour ce qui est du soucis généralisation de B=A à partir A=B, est ce que tu penses que si on avait le moyen de doubler la taille du dataset d'entrainement et de construire les inférences inverses (en utilisant un LLM par exemple) réglerais le problème ou bien en créera d'autres ?

@alexandretl 15 дней назад

Merci! Ca pourrait en effet régler le problème "superficiellement" (il saurait qui est l'enfant de Mary Lee Pfieffer) mais de là à lui permettre d'automatiquement généraliser de A=B à B=A pas sur. En fait ce qui serait intéressant c'est d'entraîner un LLM sur des données synthétiques du type A=B et B=A et voir si il arrive à apprendre à généraliser de A=B à B=A. (dans la vidéo, c'est seulement du sur-entraînement, sur très peu de données).

@bossgd100 15 дней назад

Tu penses que les futures LLM qui seront plus gros seront faire que cela ou auront des nouvelles propriétés (émergentes) ?

@alexandretl 14 дней назад

Difficile de prévoir mais je dirais que non dans le cas où on ne fait "que" agrandir la taille du modèle et des données. Si on introduit des données synthétiques, ou que l'on change l'objectif d'entraînement, là oui pourquoi pas

@bossgd100 14 дней назад

@@alexandretl dac je vois, j'espère que tu te trompe ^^

@bacrima6382 8 дней назад

Je dirais que oui. On voit que la plupart des capacités n'ont pas une courbe d'apprentissage linéaire mais plutôt sigmoide. Autrement dit, avant une certaine taille/quantité de données ils sont nuls, et une fois dépassé cette taille/qté de données ils maîtrisent. Une expérience a été faite avec un llm qui apprend l'addition modulaire et on voit bien cette courbe.

@alexandretl 8 дней назад

@@bacrima6382 concernant l'addition modulaire, tu parles de l'expérience du grokking ?

@bacrima6382 8 дней назад

@@alexandretl je crois que c'est ça oui