Alexandre TL

62
241 891

S'informer et comprendre les dernières recherches du monde de l'IA

34:25

Comment interpréter ce qui se passe dans un réseau de neurones ?

Месяц назад

12:28

Qu'est-ce que le Mixture of Experts (MoE) ?

3 месяца назад

11:44

SARSA vs Q-learning | Intro RL 7

5 месяцев назад

19:39

Mamba, le remplaçant du Transformer ?

5 месяцев назад

12:44

Guide PyTorch : la représentation des tenseurs en mémoire

5 месяцев назад

10:31

IA 2023 : Ce qu'il faut retenir

7 месяцев назад

12:38

Q-learning | Intro RL II - 6

7 месяцев назад

6:10

Algorithme n-step TD | Intro RL II - 5

8 месяцев назад

13:08

Ces IA qui s'entraînent dans leur imagination

9 месяцев назад

3:21

J'ai testé DALLE 3 : quelles nouveautés ?

9 месяцев назад

8:55

Pourquoi ChatGPT connait vos attentes et préférences

10 месяцев назад

15:18

Architecture encodeur-décodeur du Transformer

10 месяцев назад

9:52

Les champions du monde de drones battus par une IA

10 месяцев назад

4:00

Comment accéder à Llama 2, Code Llama et autres (en ligne et localement)

10 месяцев назад

9:57

Visualiser la fonction coût d'un réseau de neurones

11 месяцев назад

9:56

Biais, variance et sur-apprentissage

Год назад

20:18

Algorithme d'apprentissage SARSA | Intro RL II - 4

Год назад

11:40

Qu'est-ce qui se passe dans un réseau de neurones ?

Год назад

9:27

Transformers : têtes d'attention et couches

Год назад

10:23

Comprendre les Transformers en 10 minutes

Год назад

6:43

Les réseaux de neurones récurrents illustrés

Год назад

16:00

Régression linéaire en Python

Год назад

5:44

Se former au ML : quelle stratégie ? quelles ressources ?

Год назад

1:30

Conclusion de la série

Год назад

7:46

Classification multi-classes avec un réseau de neurones

Год назад

12:11

Les maths des réseaux de neurones

Год назад

13:10

Comprendre les réseaux de neurones

Год назад

8:46

Régression logistique : les bases | Réseaux de neurones 9

Год назад

10:04

Introduction à PyTorch

Год назад

Комментарии

@samueldeom 4 дня назад

Merci pour cette vidéo

@GalthUbu 8 дней назад

merci pour cette vidéo très intéressante :)

@Clement_Samp 9 дней назад

Super vidéo. Enfin du détail en français

@alexandretl 9 дней назад

Merci! Oui c'est assez pauvre en français sur YT et internet (à part les tutos classiques genre MNIST ou désuets comme tensorflow)

@crocodil.13 9 дней назад

Quand j'y penses... un gros modele du genre doublé d'un ssm qui fonctionne bien, pourrait vraiment etre une techno de rupture...j'espere que ca sera pour bientot

@clementp772 9 дней назад

Merci c'est tellement plus clair. Je ne trouve pas la vidéo annoncée à la fin sur le positional encoding ? (en passant : un gros +1 sur la demande sur les ViT !)

@alexandretl 9 дней назад

Merci! Oui je ne l'ai pas encore sortie, mais c'est dans la liste des prochaines vidéos! Aussi ViT ahah (celle-là sortira surement un peu plus tard)

@Yukiche368 10 дней назад

Vraiment super vidéo! Très intéressant, très bien tourné et très clair! J'attends les prochaines vidéos avec impatience!

@alexandretl 10 дней назад

Ca fait super plaisir merci !

@PierreCizer 11 дней назад

Super interessant !

@alexandretl 10 дней назад

Merci Pierre-C !

@redone7696 12 дней назад

Super vidéo, très intéressante. Est-ce que tu as prévu de faire un jour, une vidéo explicative sur la méthode PEFT LoRa j’ai remarqué qu’il n’y avait aucune vidéo francophone qui parlait de ça alors que c’est pourtant une avancée majeure est très utilisée actuellement.

@alexandretl 12 дней назад

Merci! Oui j'avais commencé à travailler dessus, c'est prévu

@FredEric-w2k 13 дней назад

Je n'ai jamais laissé un commentaire sous une vidéo mais la je le fais car c'est un p***** de travail de vulgarisation!!! J'espère que tu vas continuer encore longtemps car tu réussi AVEC BRIO à bien expliquer les concepts pour des novices comme moi; Gros pouce bleu et j'ai vraiment hâte d'en apprendre encore et encore.

@alexandretl 13 дней назад

Merci beaucoup pour ton commentaire ça fait plaisir et c'est très encourageant!

@arkazix4304 15 дней назад

Excellente vulgarisation ! Et juste par curiosité, avec quoi sont faites les animations/éléments présents dans la vidéo ?

@alexandretl 14 дней назад

Merci! Tout a été fait avec Keynote

@alexandretl 15 дней назад

Alors, arrivez-vous à discerner en vrai et faux nom de commune ? >> alxndrtl.github.io/communes/

@jgcb0071 15 дней назад

Merci pour cette vidéo très bonne vulgarisation ! Petit 7/10 pour ma part, difficile d'expliquer pourquoi certains nom nous semble pas possible mais il semblerait qu'on en soit capable quand même

@alexandretl 15 дней назад

Merci! Oui c'est assez subtil

@armel1674 26 дней назад

Très cool

@alexandretl 26 дней назад

Merci!

@armel1674 26 дней назад

Super cool 😊

@aymenmarzak9713 27 дней назад

je suis tombé sur la vidéo au hasard mdrrrrrr, bravo Alex

@alexandretl 27 дней назад

Ahah merci

@MD-zd3du Месяц назад

Merci pour ton travail, tes explications sont toujours très claires!

@alexandretl 29 дней назад

Merci pour ce retour!

@louislang3011 Месяц назад

incroyable incroyable incroyable c'est passionnant. merci à toi vraiment tu rends ça clair à moi qui n'ai aucune connaissance pointue sur ce sujet

@alexandretl Месяц назад

Merci pour ton commentaire c'est très encourageant!

@gno7553 Месяц назад

Superbe vidéo. Est-ce qu'une L3 en mathématiques permet de lire les sources que vous avez partagé ?

@alexandretl Месяц назад

Merci! Oui largement je pense (les ressources sont plutôt orientées utilisation et pratique que maths)

@distoage Месяц назад

Excellentes vidéos !!! (joli rappel à mes anciens cours de stats ...). Je conseillerait de regarder les vidéo dans l'ordre inverse de leur sortie (pour celles que j'ai vues) : d'abord "Comment interpréter ce qui se passe dans un réseau de neurones ?" puis ensuite "Qu'est-ce qui se passe dans un réseau de neurones ?". Je crois qu'il est plus facile pour le commun des mortels de comprendre des usage de "concepts" et de leur mesures, pour finir cette excellente vidéo avec le passage de l'algèbre linéaire, et de regarder l'autre, qui explique de manière beaucoup plus pointue ces usages mathématique. Excellente vulgarisation sur des sujets très complexes !! On peut très vite comprendre les extrapolations de problèmes dans des modèles à milliards de paramètres, réductions de dimensions parfois trop grandes, et donc les problèmes "d'hallucination d'IA" parce que la réduction des données a été trop grande et engendre des biais énormes qui n'ont plus de sens sur certains résultats, mais alors l'incapacité à retracer exactement tout ce que fait un modèle IA et ou peut se trouver le "bug de design conceptuel" ...(?)

@alexandretl Месяц назад

Merci pour ce retour ! -Oui j'avais d'abord mis dans la playlist la première vidéo mais en effet celle-ci est plus abordable tout compte fait -Oui c'est ça qui sera intéressant par la suite : pouvoir analyser ces réseaux de neurones comme des programmes classiques et trouver des "bugs" pour éventuellement les corriger

@thehappylife3162 Месяц назад

excellente vidéo..!! Très utile pour mon Grand Oral:)):):)

@alexandretl Месяц назад

Content d'avoir pu aidé!

@Redro_ Месяц назад

Super vidéo !

@jgcb0071 Месяц назад

Merci pour ce travail remarquable

@jfpeltier Месяц назад

Très intéressant d'essayer de savoir ce qu'ils ont dans le crâne, pour le problème de l'alignement ou de l'honneteté des réseaux de neurones, cela pourrait devenir fondamental. Bravo pour le sérieux et l'absence d'effets de manches de ta vidéo !

@alexandretl Месяц назад

Merci beaucoup pour ton retour qui fait très plaisir !

@belgarathlesorcier8385 Месяц назад

Excellent travail, merci beaucoup

@donPEREdone Месяц назад

Un truc m'a fait sourire, fortement, c'est la taille de l'échantillon 16/32/64... qui n'est absolument pas représentatif d'un modèle en centaines de milliards ! Mais comme si ça ne suffisait pas, tu considéres insignifiant l'écart de 8% des polysemiques (donc totalement monstrueux en réalité 😂😂😂)... qui suggère une courbe exponentielle, bien au contraire qui mènerait à une quasi extinction des monosemiques en a peine quelques multiplications par 2 supplémentaires (ce dont je doute). Ce nest pas l'écart qui est non signifiant, c'est l'échantillon en fait. Il serait quand même plus sérieux de faire une étude en millions et avec des écarts de x10 ou x100 pour avoir une idée de ce qui se passe. Pour le reste merci c'est très instructif

@alexandretl Месяц назад

Je ne pense pas que nous parlons de la même chose. Les tailles 16/32/64 ne correspondent pas à des "échantillons", mais bien à des nombres de neurones dans les modèles (qui, dans cette Partie 3, n'en possèdent pas des centaines de milliards). Il n'y a donc aucun échantillonnage ici, *tous* les neurones ont été analysés. L'idée de l'expérience était seulement de comparer avec ce qui avait été fait en Partie 2, sur une tâche beaucoup plus simple, et donc sur une série de modèles eux-aussi beaucoup plus petits. Evidemment, et comme suggéré dans la vidéo, tirer une conclusion de ce petit exemple sur des modèles à des centaines de milliards de paramètres n'est pas qqchose à faire (comme vous le dites, on pourrait prévoir une extinction des monosémiques ce qui n'est pas le cas). Les modèles géants ont des dyanmiques beaucoup plus complexes. L'idée de l'expérience n'était pas ça, c'était juste de voir l'effet de l'augmentation de la taille du modèle. Pour finir sur ma réponse, je considère insignifiant l'écart de 8% car, je ne l'ai pas dit mais désigner un neurone (ou même un concept) comme polysémique/monosémique dans ce cas est assez difficile, des fois il est à majorité polysémique mais un exemple vient contre-dire cela, etc. Donc il y a une certaine variation sur ces résultats. J'espère que cela vous aura aidé.

@14Tyrion Месяц назад

Mais pourquoi cette chaine est si peu connu 😢

@crocodil.13 27 дней назад

Je la recomande chaleureusement aux copains perso!

@olivierfournier5844 Месяц назад

Bravo pour ta vidéo très intéressante et qualitative Alexandre, cela m'a permis d'en connaitre un peu plus sur les réseaux de neurones, du coup je vais regarder tes autres vidéo !

@alexandretl Месяц назад

Merci beaucoup pour le retour, bon visionnage !

@007myzorro Месяц назад

Wonderfull !!!❤

@kamilstos3253 Месяц назад

Très intéressant, merci pour ce contenu de haute qualité, sans flagornerie !

@alexandretl Месяц назад

Et merci Kamil 😉

@WaarDoz57 Месяц назад

Pourrais-tu faire une vidéo sur ton modèle qui génére des noms de commune ? Ca à l'air intéressant ! Ce modèle peut-il être fait sur le modèle d'un MLP ? J'ai du mal à voir comment calculer l'erreur afin de la rétropropager

@alexandretl Месяц назад

C'est justement en préparation aha! En fait en vidéo on verra différents modèles plus ou moins performants, et il y aura le MLP en seconde position! Oui en parlera du coût, en fait c'est exactement comme un problème de classification comme MNIST

@maloukemallouke9735 Месяц назад

Merci pour la vidéo, c est top

@lullu3467 Месяц назад

17:41 Si on prend un modèle non modifié et qu'on pose une question sur le seconde guerre mondiale, est ce qu'on peut artificiellement faire en sorte que le modèle soit obsédé par le concept "Golden Bridge" en mettant par exemple 1000 fois dans le prompt "Golden Bridge" ? J'ai essayé avec GPT 3 et ça n'a pas marché (j'ai associé environ 100 mots "Golden Bridge" dans le prompt), alors à voir si on peut augmenter l'importance de ce concept artificiellement.

@alexandretl Месяц назад

Oui ça pourrait peut-être marcher (je me rappelle d'un "bug" il y a quelques mois où l'on mettait comme tu dis beaucoup de fois le même mot dans un prompt et ça faisait dire n'importe quoi au modèle). Après de là à pouvoir contrôler correctement le modèle c'est assez difficile. Et en pratique les modèles ont été alignés/contrôlés donc c'est encore plus difficile.

@arnaudberenbaum5587 Месяц назад

Excellente vidéo merci !! 👌🏼

@Agesilas2 Месяц назад

top quali 👌

@johnmcclane4996 Месяц назад

Merci beaucoup pour cette superbe vidéo Joli travail 🙌🏼

@alexandretl Месяц назад

J'espère que la vidéo vous a plu ! Très grosse vidéo, + de 1000 lignes d'animations Manim, mais le sujet vaut bien cela. N'hésitez pas à commenter et partager ça ferait super plaisir ! Quelques ressources et commentaires pour aller plus loin : - évidemment, cette vidéo se base sur les deux récents papiers de recherche d'Antropic AI : Towards Monosemanticity (transformer-circuits.pub/2023/monosemantic-features/index.html) d'octobre 2023, et Scaling Monosemanticity (transformer-circuits.pub/2024/scaling-monosemanticity/index.html). Ces deux papiers sont des bijoux si vous voulez rentrer plus dans les détails (même si la vidéo aborde déjà pas mal des détails des papiers!) - plus récemment, OpenAI a publié les mêmes travaux sur GPT-2 et GPT-4 : openai.com/index/extracting-concepts-from-gpt-4/. Il y a aussi une démo pour voir les concepts trouvés, même si beaucoup moins fourni qu'Anthropic (pas de manipulation de concepts, pas d'analyse des concepts influents etc). Comme mentionné dans la vidéo, une analyse précédente avait été faite il y a 1 an, qui se basait sur les neurones seulement : openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html - dans cette vidéo, pour passer les détails, on a expliqué le fait que les neurones soient polysémiques par l'hypothèse de la superposition de concepts clairsemés. En fait, oui, mais attention ce n'est pas une CN : il peut y avoir polysémie via d'autres phénomènes que la superposition. Pour en savoir plus, voir ce lien : www.lesswrong.com/posts/8EyCQKuWo6swZpagS/superposition-is-not-just-neuron-polysemanticity - tout récemment, deux initiatives ont vu le jour pour interpréter Llama 3 8B. Une première qui analyse seulement les neurones : www.lesswrong.com/posts/TA9eEgiWJfgBcJ7wn/exploring-llama-3-8b-mlp-neurons#:~:text=Note%20that%20the%20Llama%2D3,neurons%20in%20the%20entire%20network. Une seconde initiative a aussi été lancée pour rechercher des concepts dans Llama 3 8B via un SAE : x.com/i/bookmarks?post_id=1800780528549044599 - qu'est-ce que l'interprétabilité mécanistique ? C'est le domaine de l'IA dans lequel s'inscrit cette vidéo. Zoom sur le modèle InceptionV1, un modèle de vision : ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-jGCvY4gNnA8.html - le SAE et la place qu'il prend en ce moment dans la recherche en IA : x.com/i/bookmarks?post_id=1801884637481857231 - le code du projet de la génération des noms de commune + l'analyse des neurones et des concepts : github.com/alxndrTL/villes

@alexis91459 22 дня назад

Tout est fait avec Manim uniquement?

@alexandretl 22 дня назад

@@alexis91459 Non seulement la partie 2, le reste c'est avec keynote

@nocteln6654 Месяц назад

Merci pour la vidéos j'avait rien comprit aux parcours et maintenant j'ai tout compris Tu m'as sauvé mon bac ❤

@ataxshorts Месяц назад

force à nous pour demain 😅

@alexandretl Месяц назад

Avec plaisir bon courage

@nocteln6654 Месяц назад

@@ataxshorts vraiment 😂

@nocteln6654 Месяц назад

@@alexandretl merci

@michaelbaudin Месяц назад

Pourquoi ne pas traduire par "mélange d'experts" au lieu d'"'ensemble d'experts" ? Après tout, c'est bien un mélange des prédictions de chaque expert qui est réalisée lorsqu'on utilise une combinaison linéaire, et non pas une agrégation. L'expression "agréger A et B" signifie qu'on crée le mot (A, B) : ce n'est pas ce qui est fait ici.

@alexandretl Месяц назад

En fait il y a une raison précise à cela, c'est le concept d'ensemble learning en ML. Cette technique du MoE est un exemple de cette méthode d'ensemble, c'est pour cela que j'ai fait ce choix.

@profmathwahid Месяц назад

Merci infiniment pour cette présentation

@gno7553 Месяц назад

La logique formelle n'est plus utilisée en IA aujourd’hui ?

@alexandretl Месяц назад

En IA aujourd'hui (bien que ce terme soit très large) non la logique formelle n'est pas utilisée (en tout cas dans la plupart des applications)

@gno7553 Месяц назад

Très bien expliqué. Ça permet de voir l'application de l’algèbre linéaire.

@alexandretl Месяц назад

Merci! Dans le même style et qui parle d'algèbre liénaire, il y a aussi ma vidéo "Qu'est-ce qu'il se passe dans un réseau de neurones ?"

@animewatcher-bk9ur Месяц назад

Bonjour, je comprends l'idée générale de l'attention mais j'ai du mal à saisir intuitivement comment le produit q(i)*k(j) nous indique à quel point le modèle doit prêter attention au token j. D'après ce que j'ai compris, les queries et les keys proviennent d'un entrainement, mais je ne comprends pas comment ce produit fournit une mesure de la pertinence/attention du token j. Je sais que la notion de produit scalaire nous donne une information sur la "similarité" entre deux vecteurs. Mais du coup, pourquoi ne pas comparer les clés entre eux ? Pourquoi utiliser une query ? Comment peut-on être certain que le produit q(i)*k(j) donne une information pertinente pour l'attention à accorder au token considéré ? Est-ce que pendant l'entrainement, le modèle comprend que le produit q * k signifie "score d'attention" ? Ou alors on voit empiriquement que c'est mieux d'utiliser deux vecteurs q et k différents ? Désolé si les questions sont mal formulées, je ne vois pas encore très clair étant nouveau dans le NLP. En tout cas, merci beaucoup pour vos vidéos !!

@alexandretl Месяц назад

Oui vos questions sont pertinentes ! Pour répondre à "pourquoi pas utiliser juste des keys", je dirais qu'il y a deux réponses : - la première, qui est la réponse la plus "simple" c'est que ça nous fait utiliser plus de paramètres, donc le modèle est plus expressif / puissant - la seconde réponse, elle s'appuie sur la comparaison de ce système d'attention avec des systèmes de recherche traditionnels. Par exemple quand tu lances un recherche sur RU-vid, on va comparer ta demande (query) avec des clés (keys) qui peuvent être des titres de vidéos, des tags, des descriptions etc.. Finalement c'est un peu ce que fait l'attention. Et donc ce qu'il faut voir par là c'est que la demande n'est pas de même nature que les clés, d'où l'idée d'utiliser une key et une query pour l'attention. la première réponse est certaine, la seconde c'est plus de la spéculation sur comment marche le transformer Après biensûr, ça doit sûrement marcher avec seulement des keys, mais moins bien puisque ce n'est pas ce qui est fait en pratique (empiriquement). Et pour finir, oui, le modèle """"apprend"""" à utiliser q * k comme score d'attention pendant l'entraînement (il fait en sorte que q(i)*k(j) donne une information pertinente). J'ai mis des gros guillemets à apprendre puisque ça résulte surtout d'une optimisation mathématique et donc oui il y a un certain apprentissage mais voilà c'est à prendre avec des pincettes J'espère que ça a pu t'éclairer !

@animewatcher-bk9ur Месяц назад

@@alexandretl Merci beaucoup !!

@shindero Месяц назад

Optimum pride

@alexandretl Месяц назад

Cette vidéo fait partie d'une série de vidéos : ru-vid.com/group/PLO5NqTx3Y6W6KkZHSzlvAQbJGQxrHErhx C'est un peu de temps à investir, mais si vous voulez avoir une bonne intuition ainsi qu'une bonne compréhension de ce que sont les réseaux de neurones, je vous conseille de vous accrocher

@vivien2146 Месяц назад

Incroyable la vidéo

@alexandretl Месяц назад

Merci !

@redone7696 Месяц назад

Bonjour, j’aurais une petite question. Je suis en train d’entraîner un transformeur qui génère du texte. Le transformeur prend en entrée une séquence de tokens et prédit le prochain token. Exemple : Entrée : [bon, jour, les] Cible : [jour, les, amis] Dans tous les cours que j’ai vus, la cible est décalée d’un token vers la droite, elle n’a pas le premier token. Mais dans le cas où il y a des tokens de fin de séquence ou de rembourrage, j’ai l’impression que ça ne sert à rien. Par exemple : Entrée : [bon, jour, les, amis] Sortie : [jour, les, amis, EOS] Dans cet exemple ou un exemple de rembourrage, j’ai l’impression que le modèle ne prédit pas vraiment un mot. Peut-être que je me trompe, je suis débutant.

@alexandretl Месяц назад

oui alors déjà le token <EOS> n'est pas du rembourrage (ou padding) c'est un token qui annonce la fin d'une séquence (End Of Sequence). donc c'est utile d'apprendre au Transformer à prédire ce token, puisque ça fait aussi parti du problème (en fait on lui donne l'information que la séquence doit s'arrêter avec le EOS). donc la prédiction amis->EOS est bien utile ! pour ce qui est du rembourrage ou padding, là en effet tu auras qqchose du genre : [bon, jour, les, amis, EOS, pad, pad, pad, pad] [jour, les, amis, EOS, pad, pad, pad, pas, pad] donc là en effet les prédictions EOS->pad et pad->pad sont complètement inutiles (et donc c'est des calculs gâchés mais on peut pas faire ça). Pour ne pas prendre en compte ces prédictions inutiles, en fait dans le calcul du loss tu peux passer un ignore_index qui va dire à la fonction qui calcule le loss de ne pas prendre en compte dans le loss toutes les prédictions XX->pad. (en pytorch notamment avec torch.nn.functional.cross_entropy) j'espère que c'est clair! et aussi, on peut aussi rajouter un token <SOS> pour Start Of Sequence, pour signaler le début d'une séquence. parce qu'au moment de générer des phrases (à l'inférence) il faut bien partir d'un token de départ que tu donnes au Transformer, donc si tu ne veux pas avoir à lui donner un token spécial (comme "bon") tu peux lui donner le token générique <SOS> (à condition évidemment d'avoir ajouter un <SOS> sur tes séquences pendant l'entraînement!)

@redone7696 Месяц назад

@@alexandretl Salut, alors déjà merci beaucoup pour ta réponse très claire et concise. J’ai pas mal avancé depuis ces derniers temps. J’ai utilisé une méthode un peu différente de celle que tu as énoncée, je ne sais pas si c’est la meilleure. En gros, j’ai fait le décalage puis j’ai mis le padding. Donc ça me donnerait quelque chose comme : Input = [mon, chien] Target = [chien, rouge] Puis j’ai juste rajouté le pad de ces deux vecteurs. Je ne sais pas si c’est une bonne solution. Par contre, j’ai un autre problème, et malheureusement je n’arrive pas à trouver de vraies réponses ou des pistes de recherche. J’ai suivi le tutoriel TensorFlow de génération de texte avec un RNN (le dataset Shakespeare). J’ai alors décidé de remplacer le RNN par un transformeur décodeur (un peu comme GPT). Seulement, quand je compare l’accuracy des deux modèles RNN vs transformeur décodeur, il y a une très grosse différence : 0,55 vs 0,78. Je ne comprends pas pourquoi le RNN a un meilleur score à ce point-là. Note : Pour les paramètres du RNN, c’est les mêmes que celui du tuto original. Pour le transformeur décodeur : Num heads = 8 Num layer = 6 Dff = 1024 D_model = 256 Epoch = 20 (pour les 2)

@alexandretl Месяц назад

@@redone7696 Pour ta question sur le padding ça revient au même de faire d'abord le décalage puis le padding ou d'abord mettre le padding puis faire le décalage. Quand tu parle de 0,55 et 0,78 tu dis que c'est une accuracy mais accuracy de quoi ? et au niveau du cout/loss, quelle différence entre RNN et Transformer ? tu peux aussi regarder l'évolution du cout en fonction du temps pour le Transformer et regarder si ça descend bien, s'il faut encore l'entraîner etc et aussi pour l'optimiseur avec le Transformer n'oublie pas d'utiliser AdamW.

@redone7696 Месяц назад

@@alexandretl effectivement avec adamW il y il y a une amélioration !! , j’utilise Sparse Categorical Crossentropy Et par contre j’utilise learning rate sheduler avec la formule du papier original je sais pas si c’est la meilleure option.

@redone7696 Месяц назад

@@alexandretl En fait, même pour la loss, le Transformer descend assez vite, mais à partir de loss = 1,4, ça devient hyper difficile de baisser plus. Alors que le RNN, il descend tranquillement à chaque epoch. À 20 epochs, il est à 0,7.

@azzary7050 2 месяца назад

Votre contenu est incroyable! Clair et très instructif. J'avais quelques doutes sur la valeur de db, mais votre commentaire pour la corriger était parfait. Merci pour votre précision !!

@alexandretl 2 месяца назад

Et merci à vous pour ce retour encourageant!