Mamba : bien parti pour détrôner le Transformer ? Le bilan

Alexandre TL

Подписаться 5 тыс.

Просмотров 5 тыс.

50% 1

Видео Поделиться Скачать Добавить в

Опубликовано:

23 окт 2024

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист

Посмотреть позже

Комментарии : 38

@diabolo19x 2 месяца назад

Et hop un petit coup de pouce pour l'algorithme

@delec9665 Месяц назад

Excellente vid en tt cas merci

@dofeeeeee 2 месяца назад

Merci beaucoup pour toutes tes vidéo !! Ta 1ere m'a déjà était super utile pour mon implémentation sur Burn, maintenant je vais faire la maj et j'ai quelques nouvelles idées X,)

@alexandretl 2 месяца назад

Ravi d''avoir pu aidé!

@raiden631 2 месяца назад

Vidéo très visuelle et super intéressante, merci!

@alexandretl 2 месяца назад

Merci!

@diabolo19x 2 месяца назад

Super vidéo! Et merci d'aborder les faiblesses de Mamba, curieux de voir si cette archi peut être largement supérieure aux transformer sur des cas très spécifiques

@crocodil.13 2 месяца назад

Il en parlait rapidement dans sa premiere video, je sais pas si ca sera un jour envisageable, mais pour l'analyse d'adn ca serait fou! Bon en nombre de token on est a des années lumieres, mais imagine pouvoir faire de la prediction de maladies, de caracteristiques physiologiques donc par exemple pour de l'optimisation therapeutique , etc.... ca serait magnifique, d'autant que la banque de données sur le sujet ne cesse de grandir ! Ou encore mieux des propositions de modifications a effectuées pour avoir tel ou tel caracteristiques (je parles ici plus de bacteries pour la production de biomedicaments que d'eugenisme hein)

@diabolo19x 2 месяца назад

@@crocodil.13 carrément d'accord sur les cas en bio, d'ailleurs j'ai l'impression que les très longues séquences comme l'ADN sont les rares cas où Mamba prend un peu.

@crocodil.13 2 месяца назад

@@diabolo19x de toute maniere on est au debut de "l'ia qui marche vraiment", donc les applications vont fleurie dans tout les sens dans les années a venir! Rien a voir mais exemple vraiment sympa, le chef de service de radio de mon CHU nous expliquait que de nouvelles generations de scanners, moins irradiants et avec une resolution de 50 ou 100 microns etaient en développement. A ce niveau ca deviens presque de l'histologie, de l'anapathologie radiologique, alors analyser ca ca mettrais super super longtemps a un humain. L'idée derrière tout ca etait aussi la reponse a "l'ia va remplacer les radiologues", lui etait plus en mode "mais heureusement que l'ia de developpe, sinon on ne pourrait pas utiliser ces technologie la"

@alexandretl 2 месяца назад

Merci! Oui comme le dit @crocodil.13 c'est surtout surtout la longueur du contexte qu'il peut se démarquer. J'avais aussi vu dans une étude une expérience où Mamba est bien meilleur que le Transforme lorsqu'on le perturbe avec des entrées "bidons" (on lui fait faire du in-context learning mais en plus des exemples utiles à comprendre la tâche, on ajoute des exemples totalement inutiles). Je viens de retrouve l'article si jamais : arxiv.org/abs/2402.04248 (page 8/9)

@crocodil.13 2 месяца назад

@@alexandretl top merci! Je me lis ca ce soir apres le travail. En effet dans ce contexte ca paraît avantageux car comme vous le savez surement une tres tres large majorité de l'adn ne sert a "rien" (en réalité pas a rien mais pas directement la production de proteines). Pour étoffer ce que je disais plus haut, l'adn humain c'est 3 000 milliards de paire de bases donc au pif je dirais au minimum 500 milliards de token (ca parrait pas aberant en tout cas)

@eliottvalette2453 2 месяца назад

Très clair merci

@crocodil.13 2 месяца назад

Je serais ravis d'une petite video qui fait un tour d'horizon des differentes autres architechtures dont vous parlez! J'avoue a avoir du mal a imaginer autant de facon de faire, comme votre petit shema le laisser deviner😍 Pour la petite histoire, ya quelques annés j'avais tenté un truc farfelu a souhait, un espece de bouillit de neurone (avec des boucles l'infinit), et une methode de récompense assez foireuse basée sur la frequence d'activation, l'activation la plus récente, la distance par rapport a la sortie et une petite memorisation des chemins empruntés... je voulais que le modele puisse continuer tourner dans le vide en produisant ou non des sorties qu'il y ai entrée ou non, un peu comme si il reflechissait le temps que il le souhaite avant de repondre .... eh bien je me suis rendu compte que j'aurais du faire des etudes dans le sujet a la place de réinventer la roue, au final ca a donné un generateur de nombre aléatoires infernal xD Evidament j'etait plus jeune et je ne me rendais pas compte que c'etait pas si simple, mais je serais curieux de savoir si ce principe a vaguement ete exploré, j'avoue ne pas avoir trouvé grand chose sur le sujet, la faute probablement a mon vocabulaire technique inexistant

@diabolo19x 2 месяца назад

@@crocodil.13 l'idée de "laisser le temps de réfléchir à son modèle" est notamment une idee pronee par Yann Lecun. Tu es donc un précurseur malgré toi :p

@diabolo19x 2 месяца назад

@@crocodil.13 je rebondis sur les propositions d'architecture, j'étais à ICML la semaine dernière, ça parlait pas mal de xLSTM (notamment car l'auteur était là aussi hein)

@dofeeeeee 2 месяца назад

@@diabolo19x Le créateur original du LSTM en plus X,). J'en ai pas mal entendu parler, mais j'ai pas lu le papier pour l'instant, c'est vraiment si bon que ça ? De souvenir il y a qu'un des deux modèles qui est paralélisable, je me trompe ?

@crocodil.13 2 месяца назад

@@diabolo19x pardonne mon amateurisme, si je comprends bien, cela ressemble un peu aux ssm, mais avec une gestion differente de la memoire? (Qui ne s'appel pas comme ca dans les ssm). Par contre l'entrainement doit etre atroce 😂 surtout cette fonction de "suppression".

@alexandretl 2 месяца назад

@@diabolo19x woaw, ICML !

@christiantheophanegasore3786 2 месяца назад

Numba la combinaison de numba et Numpy c'est cool pour la vision par ordinateur!

@eliefrossard 2 месяца назад

Combiner les deux, c'est souvent un principe de base ! C'est ouf que l'attention ne serve plus qu'à 8% des parametres sur le modèle hybride d'ailleurs. Ca ma rappelle comment les modèles comme midjourney sont apparus, en combinant les LLM avec les modèles de traitement de l'image pour aboutir à un prompt qui génère des images qui existent pas :D

@maloukemallouke9735 2 месяца назад

Merci pour les vidéos, je voulais te demander de faire une vidéo spéciale sur le traitement du facteur de temps dans les transformer comment il garde ne mémoire les informatisations par rapport a une série temporelle de valeur numérique comme la météo par exemple?

@alexandretl 2 месяца назад

Si c'est une vidéo sur les positional embeddings c'est prévu que je la fasse. C'est ce qui permet au transformer de prendre en compte l'ordre des valeurs d'une séquence

@maloukemallouke9735 2 месяца назад

@@alexandretl mille mercis mais le facteur que je ne visualise pas dans les Transformer c est le "Temps" l évolution ce n est pas claire pour moi (peut être pour d'autres aussi) et la question de mémoire mais je veux être spécifique pour des traitement de données pas de texte (comme les régression pour donner une image)