Тёмный

PRÉ-TRAITEMENT DE DONNÉES avec Python (28/30) 

Machine Learnia
Подписаться 154 тыс.
Просмотров 109 тыс.
50% 1

► MON SITE INTERNET EN COMPLÉMENT DE CETTE VIDÉO:
machinelearnia.com/
► REJOINS NOTRE COMMUNAUTÉ DISCORD
/ discord
► D'autres BONUS sur Tipeee:
fr.tipeee.com/machine-learnia
► Recevez gratuitement mon Livre:
APPRENDRE LE MACHINE LEARNING EN UNE SEMAINE
CLIQUEZ ICI:
machinelearnia.com/apprendre-...
► Télécharger gratuitement mes codes sur github:
github.com/MachineLearnia
► Abonnez-vous : / @machinelearnia
► Pour En Savoir plus : Visitez Machine Learnia : machinelearnia.com/
► Qui suis-je ?
Je m’appelle Guillaume Saint-Cirgue et je suis Data Scientist au Royaume Uni. Après avoir suivi un parcours classique maths sup maths spé et avoir intégré une bonne école d’ingénieur, je me suis tourné vers l’intelligence artificielle de ma propre initiative et j’ai commencé à apprendre tout seul le machine learning et le deep learning en suivant des formations payantes, en lisant des articles scientifiques, en suivant les cours du MIT et de Stanford et en passant des week end entier à développer mes propres codes.
Aujourd’hui, je veux vous offrir ce que j’ai appris gratuitement car le monde a urgemment besoin de se former en Intelligence Artificielle.
Que vous souhaitiez changer de vie, de carrière, ou bien développer vos compétences à résoudre des problèmes, ma chaîne vous y aidera.
C’est votre tour de passer à l’action !
► Une question ? Contactez-moi: contact@machinelearnia.com

Опубликовано:

 

27 июл 2024

Поделиться:

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист
Посмотреть позже
Комментарии : 263   
@stephd6196
@stephd6196 Год назад
Toutes vos videos sont géniales - très claires, très didactiques, expliquées avec pédagogie! C'est assez rare pour le signaler...Vraiment que du bonheur à écouter chaque vidéo....Dommage que votre ebook ne soit plus disponible, ce doti être un très bon support pour comprendre toutes ces notions
@mamb5323
@mamb5323 Год назад
Bonjour Guillaume, je vous remercie beaucoup pour cette fantastique playlist instructives dont j'ai acquis pas mal de concepts que ce soit théoriques ou pratiques. Un grand chapeau à vous. Mes salutations les plus respectueuses
@saramehenni1735
@saramehenni1735 4 года назад
De loin les meilleur vidéos dans le domaine , c'est toujours plus simple avec vous qu'ailleurs, je souhaiterais bien que vous fassiez un jour des vidéos sur les algorithmes de boosting comme Gradient boost et comprendre comment ils fonctionnent
@MachineLearnia
@MachineLearnia 4 года назад
Merci beaucoup :) J'ai prévu de faire des vidéos sur GradientBoost, XGboost, comment ils fonctionnent, et comment les utiliser pour avoir de meilleurs performances.
@cainweo
@cainweo 4 года назад
Je découvre ta chaîne depuis peu .. et franchement c'est d'une qualité extraordinaire ! Étant en fin d'études en iot avec du machine learning ta chaîne est d'une aide très appréciée! Merci d'expliquer si bien
@MachineLearnia
@MachineLearnia 4 года назад
Merci beaucoup a toi et bon courage dans tes projets ! :)
@user-dg5yd4uz9y
@user-dg5yd4uz9y Год назад
Salut je commence juste ma formation en IA et tes vidéos m'apportent un plus grand éclaircissement sur de nombreuses étapes vu en cours. Merci pour ta simplification.
@sahriyounes2147
@sahriyounes2147 Год назад
Bravo, bonne continuation, vous maîtrisez bien le domaine et votre méthode est EXTRA... MERCI
@brahimakone1860
@brahimakone1860 4 года назад
Salut @MachineLearnia je ne sais pas si tu as idée du bien que tu fais pour nous , mais t'es un ange. Quand je vois qu'en moins de 2 semaines, tu es entrain de me transformer en data scientist, je peux pas y croire. Ces vidéos dont tu nous fais bénéficier gratuitement coûtent beaucoup de dollars sur udemy et les cours ne sont même pas souvent bien expliqués. Merci, merci et merci et que Dieu te garde.
@MachineLearnia
@MachineLearnia 4 года назад
Merci beaucoup pour ton message qui me touche beaucoup ! C'est une grande joie pour moi de savoir que mon contenu est aussi bon, voire meilleur que sur ces sites, qui parfois font de fausses promotions ! Je ferai tout pour vous emmener le plus loin possible, soyez sur ! :)
@danielwise8402
@danielwise8402 4 года назад
@@MachineLearnia C'est tellement vrai ce que le frere Brahima Kone a dit ! Peux etre vous vous rendez pas compte , mais ce sont des valeurs que vous creez chaque jour .
@jmbdeblois
@jmbdeblois 4 года назад
Super démo qu'un bon preprocessing c'est utile !! Merci encore pour cette vidéo Guillaume.
@MachineLearnia
@MachineLearnia 4 года назад
Merci beaucoup :)
@thibaultl4413
@thibaultl4413 4 года назад
Merci ! Encore au top. Clair et efficace : tout ce qu'on demande ! Hâte que la 29/30 arrive :)
@MachineLearnia
@MachineLearnia 4 года назад
Merci :)
@AzzedineAbdessalam
@AzzedineAbdessalam 4 года назад
Merci beaucoup pour ton travail. Tu fais preuve de pédagogie et expliques les concepts très clairement.
@MachineLearnia
@MachineLearnia 4 года назад
Merci beaucoup ! :)
@jordanmolet3856
@jordanmolet3856 4 года назад
Pour ceux qui refont l'exercice de leur côté et se retrouvent avec des DataFrame plus petits, attention à ce qui se passe à 5:00 La ligne inscrite dans cette vidéo est : viral_columns = df.columns[(missing_rate < 0.80) & (missing_rate > 0.75)] tandis que dans la vidéo 27 il s'agissait de : viral_columns = df.columns[(missing_rate < 0.88) & (missing_rate > 0.75)] Il ne suffisait finalement pas de copier/coller le code de la dernière fois ;)
@MachineLearnia
@MachineLearnia 4 года назад
Ooups ! Mince en effet j'avais oublié de préciser ca dans la vidéo (que j'avais directement éliminer les colonnes Rapid_test). Navré ! :)
@smartdatastudio2281
@smartdatastudio2281 3 года назад
Ah je suis tombé dans e panneau
@rimbahroun5842
@rimbahroun5842 Год назад
Me too. Merci pour la précision.
@mhamedbokhari9354
@mhamedbokhari9354 3 года назад
Merci beaucoup pour cette présentation vraiment instructive. En effet, simplifier des concepts complexes mérite un chapeau bas. Cependant, je pense humblement qu'il ne fallait pas supprimer la colonne qui IDENTIFIE les patients, puisque le but final est l'identification des cas positifs et non pas seulement dire qu'il y a tant qui sont atteint du covid-19. Merci encore.
@MachineLearnia
@MachineLearnia 3 года назад
bien vu !
@manouantiadominique2576
@manouantiadominique2576 4 года назад
Merci beaucoup pour cette video. C'est vraiment une etape importante dans la realisation d'un projet de machine learning . tombe a pic car je dois participer a un concours cette semaine.
@MachineLearnia
@MachineLearnia 4 года назад
Bon courage pour votre concours ! Je suis a fond avec vous !
@danielwise8402
@danielwise8402 4 года назад
Pas besoin de suivre votre video avant de la liker , c'est risquer de perdre un detail parceque dès que ça commence , la concentration nait et difficile de voir le temps s'egrainer. Pour eviter cela , mieux liker avant de commencer car toujours best vos videos. Felicitation grand champion !
@MachineLearnia
@MachineLearnia 4 года назад
Merci beaucoup :) Je suis content de savoir que mes vidéos ont un tel impact positif ! :)
@arilesstir7973
@arilesstir7973 4 года назад
Vraiment super !! les vidéos sont excellentes j'adore un grand MERCI
@MachineLearnia
@MachineLearnia 4 года назад
de rien :)
@miloudchadli589
@miloudchadli589 2 года назад
Merci pour cette superbe démonstration, c'est clare, bien détaillée. Merci encore
@MachineLearnia
@MachineLearnia 2 года назад
De rien !
@budoshugyosha
@budoshugyosha 4 года назад
Merci beaucoup Guillaume, il y a à la fois des explications détaillées et la stratégie sous-jacente...c'est d'une qualité supérieure à tout ce que j'ai pu trouver auparavant...et en plus c'est en francais
@MachineLearnia
@MachineLearnia 4 года назад
Merci beaucoup, je suis heureux que le contenu vous plaise :)
@aimeritedonald6689
@aimeritedonald6689 4 года назад
toujours au top !! merci pour cela, sa donne une grande excitation !!
@MachineLearnia
@MachineLearnia 4 года назад
Merci ! :)
@mondherelmufti6930
@mondherelmufti6930 3 года назад
Merci, comme c'est prévu vos vidéos sont toujours excellentes.
@MachineLearnia
@MachineLearnia 3 года назад
Merci a vous !
@mouhamadoubambadiop3467
@mouhamadoubambadiop3467 4 года назад
Avant de vous découvrir, je passait mes journées sur des livres de datascience et de datamining, et après chaque lecture je commencé à compilé les codes pour avoir la main, mais maintenant c'est vous qui êtes mon mentor, je m'exerce plus avec vos compliles de formations sur le Machine Learning, Python pour datascience,etc. Un petit merci ne saurait montré ma gratitude envers vous, mais continue de nous régaler avec votre formidable pédagogie pour ne pas dire amusant😀. Je demande si c'est possible d'avoir une vidéos pour nous expliquer comment faire du machine learning sur SQL Server avec Pycaret. Merciii Encore une fois Doc.
@MachineLearnia
@MachineLearnia 4 года назад
Merci beaucoup pour votre message, ca me fait super plaisir ! :D Je vais montrer comment faire du machine learning avec SQL, mais un peu plus tard a l'avenir ! Bonne continuation a vous et merci de me soutenir ! :)
@mouhamadoubambadiop3467
@mouhamadoubambadiop3467 4 года назад
Mercii, c'est une bonne nouvelle, je serais là à attendre:)
@mackas33
@mackas33 4 года назад
Toujours des vidéos super intéressant Merci :)
@MachineLearnia
@MachineLearnia 4 года назад
C'est un plaisir ! :)
@kehouavalioappolinaire1967
@kehouavalioappolinaire1967 4 года назад
Merci Guillaume pour tous ces efforts consentis. Tu es le meilleur. Que Dieu te garde.
@MachineLearnia
@MachineLearnia 4 года назад
Merci a toi !
@imammalickndiaye9035
@imammalickndiaye9035 4 года назад
J'ose dire partout que je suis Data Scientist grâce à vous Guillaume Saint-Cirgue
@MachineLearnia
@MachineLearnia 4 года назад
Cela me comble de joie ! Je ferai tout pour vous emmener le plus loin possible !
@malickndiaye8108
@malickndiaye8108 4 года назад
Merci encore une fois de plus. Nous constituerons toujours un soutien pour vous et avec tous les moyens que nous disposerons.
@noel9335
@noel9335 3 года назад
Bonjour, Vous avez passé un diplôme, une certification ? Vous avez un poste de Data Scientist ? Je serais intéressé par votre réponse car je cherche à valider mes connaissances en Machine Learning, ainsi que Q-Learning et Deep-Learning. A+ ;)
@noel9335
@noel9335 3 года назад
@@imammalickndiaye9035 Merci pour ta réponse. C'est bien d'avoir un retour d'expérience. En tout cas, le Sénégal, cela fait un peu loin pour passer un diplôme. ;)
@imammalickndiaye9035
@imammalickndiaye9035 3 года назад
@@noel9335 vous êtes d'où?
@yvespanfulegoue5991
@yvespanfulegoue5991 4 года назад
lorsque je vous rencontrais j'avais un niveau zéro en python a peine sur la 18ieme vidéo de la série de vidéos je constate que mon niveau est ci vite monté. waho vous êtes un génie et vous m'avez donné le gout du métier de data scientiste. bientôt je lierai cette 28ieme vidéo, j'avance sereinement avec vous. DIEU vous bénisse.
@MachineLearnia
@MachineLearnia 4 года назад
Je suis très heureux de lire votre témoignage ! :)
@pickthelock
@pickthelock Год назад
Super vidéo, est ce que le réseau de neurone que je vais ensuite construire va réagir de la même manière aux preprocessing qu'un Classifier ou RandomForest ?
@wildLeaner
@wildLeaner 4 года назад
Je peux pas encore voire la video, je suis dans la video 23, je suis sûr qu'il est bon, je peux pas passer sans vous remercier, bon contuniation, je serais le terminator du Machine LEarning xD grace à vous et à l'aide de communauté
@MachineLearnia
@MachineLearnia 4 года назад
Bravo ! Ahah oui tu seras un Terminator ! :D
@rafaaotmani
@rafaaotmani Год назад
Je m’attelle à tous cela. Je sens que je vais modifier certaines choses pour mon mémoire ,sincèrement Bravo
@prestigiuseppe2659
@prestigiuseppe2659 4 года назад
Je m’attelle à tous cela. Je sens que je vais modifier certaines choses pour mon mémoire ! :D Tu es un génie :)
@MachineLearnia
@MachineLearnia 4 года назад
Merci beaucoup ! Si je suis un génie, alors toi aussi ^^
@ismaeldedia7675
@ismaeldedia7675 4 года назад
Bonjour. Une fois de plus grand merci je prend de plus en plus goût.
@MachineLearnia
@MachineLearnia 4 года назад
Merci ! :)
@onesimemb102
@onesimemb102 3 года назад
Salut Guillaume, merci pour cette vidéo. Pourrai vous nous faire une vidéo qui explique d’une manière claire les techniques de feature extraction seulement. Merci 🙏🏼
@MachineLearnia
@MachineLearnia 3 года назад
Oui je vais en faire une. :)
@khaoulabouziane1681
@khaoulabouziane1681 3 года назад
grâce à vos vidéo, j'ai osé dire oui à un projet financier, dont j'avais peur au début d'accepté, je vous remercier énormément, et j'espère le finaliser dans les meilleurs délais
@MachineLearnia
@MachineLearnia 3 года назад
Je vous félicite ! Bravo ! :)
@danielwise8402
@danielwise8402 4 года назад
Super ! je dois m'en prendre un autre book pour les notes ! Franchement merci chef ! mes respects ...
@MachineLearnia
@MachineLearnia 4 года назад
Prise de notes ! C'est bien ! Le livre que je prépare résume lui aussi la série, je pense que tu vas l'aimer :)
@danielwise8402
@danielwise8402 4 года назад
@@MachineLearnia haha , jai déja aimé meme sans l'avoir deja.
@user-tn7xj2rb4l
@user-tn7xj2rb4l 4 года назад
Mille mercis Guillaume Pourriez vous nous faire des vidéos sur le traitement des données textuelles
@MachineLearnia
@MachineLearnia 4 года назад
C'est dans mes plans ! :)
@donellessame9194
@donellessame9194 3 года назад
Salut, je pense que ça serait pertinent de faire une vidéo dans laquelle on explorerait un peu plus en profondeur différents modèle tels que, support vector machine, Random Forest, nearest neighbors, etc.
@MachineLearnia
@MachineLearnia 3 года назад
Tout a fait d'accord, j'ai prévu de faire toute une série a ce sujet !
@user-up7ep3fc9p
@user-up7ep3fc9p 9 месяцев назад
Je comprends pourquoi utiliser le missing indicator, mais pourquoi remplacer les NaN par des valeurs extrêmes ? Est-ce qu'il y a un avantage à faire ça par rapport à remplacer les NaN par une moyenne, ou une autre valeur quelconque ?
@martindossou7692
@martindossou7692 4 года назад
Je vous remercie énormément car grâce à vous on dirait je suis un data scientist
@MachineLearnia
@MachineLearnia 4 года назад
Vous allez devenir un data scientist pour de vrai, je vais tout faire pour !!!! :)
@mustaphakamelbensmaia6579
@mustaphakamelbensmaia6579 3 года назад
Bonjour, au top comme d'habitude. Un schéma général de pre-processing très utile . Merci! Y a juste un point ou c'est encore flou pour moi, quand on utilise la fonction "evaluation" pour évaluer le model et ensuite essayer de l'optimiser, on peut voir dans la fonction "evaluation" l'utilisation de X_test et y_test. Je pensais qu'on devait le garder pour la toute fin et ne pas y toucher. Je m'attendais à ce que le trainset soit encore découpé pour entraîner et valider le modèle comme on a pu le voir dans la vidéo cross_validation, ensuite à la toute fin, on donne le test_set au modèle pour voir comment il réagit à des données nouvelles. Ma question: faire passer le testset dans la fonction évaluation ne fait pas que le modèle ait déjà vu ces données au moment de le tester à la fin?
@MachineLearnia
@MachineLearnia 3 года назад
Merci. Tout ce que tu dis est correct : Nous n'entrainons pas le modele sur les données de test, et ne l'optimisons pas non plus dessus. Dans la vidéo suivante, tu peux voir que nous utiliserons gridshearchCV sur le trainset avec la cross-validation, pour optimiser le modèle. Dans cette vidéo, j'indique juste le score sur le test_set a titre d'information (dans la fonction d'évaluation)
@mountassirkh2759
@mountassirkh2759 2 года назад
Excellent. Merci infiniment !
@MachineLearnia
@MachineLearnia 2 года назад
De rien !
@lkhmaj
@lkhmaj 4 года назад
Merci beaucoup pour tes vidéos, on apprend énormément! A quand une série sur le deep learning? :)
@MachineLearnia
@MachineLearnia 4 года назад
La série sur le Deep Learning va commencer aussitot que celle ci se termine ! :)
@lkhmaj
@lkhmaj 4 года назад
Machine Learnia supeeer!
@LatelliHmida
@LatelliHmida 6 месяцев назад
Peut-on encoder le jeu de données avant de le diviser en X_train, X_test, etc. ?
@bilel_s8250
@bilel_s8250 4 года назад
comme d' habitude excellant #MachineLearnia , mais pourquoi vous n'avez pas utiliser l'encodage par OneHotEncoder ou OrdinalEncoder que vous avez utiliser dans ancien vidéo ??
@MachineLearnia
@MachineLearnia 4 года назад
Merci beaucoup. J'ai utilisé un encodage manuel car cela me donne plus de controle sur ce que j'encode, d'autant plus que le dataset est petit ici (il y a peu de catégories)
@iqbalhamada
@iqbalhamada 4 года назад
Bonjour, je te félicite pour la qualité de tes cours et tes vidéos, j'aimerais bien avoir des cours de statistiques très avancés, par exemple biais et variance, qui sont utilisés parfois pour calculer l'erreur, bonne continuation
@MachineLearnia
@MachineLearnia 4 года назад
C'est noté, je vais produire de tels cours ! :)
@iqbalhamada
@iqbalhamada 4 года назад
@@MachineLearnia Merci !
@amineraboun
@amineraboun 2 года назад
Bonjour Guillaume, Merci beaucoup pour cette série de vidéos, j'ai appris énormément avec toi alors que je pensais avoir déjà un bon niveau en data-science. Petite question concernant l'utilisation du testset dans ce projet. Je vois que la matrice de confusion et le rapport de classification sont à chaque fois calculés sur le testset, alors que vous êtes toujours sur une phase de modélisation et de calibration. Le test set est utilisé dans ce cas pour trouver le preprocessing adéquat et l'ensemble des hyper paramètre pour tuner le modèle. On ne peut donc plus dire que les données du testset sont nouvelles à la machine. Ne serait-il pas plus judicieux de diviser notre jeu de données en train, validation, et test sets avant de se lancer dans le preprocessing ? Merci par avance pour votre retour
@MachineLearnia
@MachineLearnia 2 года назад
Tout a fait, j'aurais du faire ca ici, c'éait juste pour illustration.
@imaneagnaou-nice3094
@imaneagnaou-nice3094 3 года назад
Bonjour ;) merci pr cette magnifique vidéo stp j'ai une question après avoir utiliser model= make_pipeline(PolynomialFeatures(2), SelectKBest(f_classif, k=10), RandomForestClassifier(random_state=0)) je ne peux plus utiliser la commande model.feature_importances_ que dois je faire et un grand merci :)
@MachineLearnia
@MachineLearnia 3 года назад
Oui c'est parce qu'il faut acceder a l'étape de RandomForest de la pipeline ! Pour cela tu peux faire model[0].feature_importances_ Désolé pour la réponse tardive !
@karimmajdi7012
@karimmajdi7012 4 года назад
Bravo merci beaucoup pour vos vidéos. peut tu nous faire des video sur le cloud et spark?
@MachineLearnia
@MachineLearnia 4 года назад
Oui c'est prévu a l'avenir ! :)
@SebastienDecaste
@SebastienDecaste Год назад
Salut les gars il y a une chose que je comprends pas. Lors du nettoyage quand il dit que toutes les variables qualitatives sont remplacées ça veut dire quoi exactement concrètement dans le tableau je ne comprends pas ce que je vois dans la vidéo dans le tableau normalement je dois voir 1 ou 0 partout dans les colonnes et pas des NAN !! Je ne comprends pas la manœuvre je comprends le processus mais je ne vois pas ce que ça entraîne concrètement dans le tableau dans cet exemple de la vidéo qui peut m'aider s'il vous plaît avec un grand merci merci beaucoup
@torcedo34
@torcedo34 Год назад
Les variables qualitatives ont bien été remplacer par des 0 ou 1. Les NaN ne sont pas des variables qualitatives elles vont rester. La manœuvre est de remplacer les textes positive, negative, detected, not_detected en int pour que le modèle puisse s'entrainer dessus
@brahimakone1860
@brahimakone1860 4 года назад
Bonjour @Machinelearnia, encore une fois merci. Je voudrais savoir si vous mettrez les vidéos 23, 24, 25 et 26 sur github car elle n'y sont pas.
@MachineLearnia
@MachineLearnia 4 года назад
Je viens de les mettre :)
@yassineakrout8593
@yassineakrout8593 Год назад
salut est ce que cette vidéo contient l 'apprentissage supervisé
@ndrikouakouinnocnt7328
@ndrikouakouinnocnt7328 5 месяцев назад
Il ya t'il une différence entre pre- prétraitement des données et Analyse exploratoire des données
@mohammed_yazidcherifi9816
@mohammed_yazidcherifi9816 4 года назад
Superbe vidéo comme d'habitude, merci pour ce contenue de qualité, en fait je remarque qu'on n'a pas eu besoin d'utiliser les imputer et les encoders et les scaler de scikit learn, je voulais savoir est ce que on peut les utiliser au départ ainsi que les pipline, les make_column_selector, et make_column_transformer ou bien on doit créer nous même nos fonctions de transformer comme vous venez de le faire ici ? Et aussi je croyais que le meilleur encodage est le onehot car il donne de meilleurs performance, et ici on a utiliser un genre LabelEncoder, est ce que c'est dans la phase Modelisation qu'on teste ceci ? Merci encore et bon courage.
@MachineLearnia
@MachineLearnia 4 года назад
Beaucoup de très bonnes questions ! Il y a plusieurs démarches possibles dans la pratique, et j'utilise moi-meme plusieurs démarches selon la situation. Si on veut faire une simple analyse de dataset, alors il est possible de tout faire manuellement avec Pandas et un peu de sklearn comme je présente ici. En revanche, si l'objectif est de déployer un modele en production, alors il est préférable de créer des pipelines (et sklearn est tres utile pour cela). Dans la pratique, on crée souvent ses propres classes de Transformer avec la classe BaseEstimator, pour ensuite les intégrer dans une pipeline. Mais cela est plus avancé et je vois rarement les amateurs faire cela. Je vous le montrerai a l'avenir sur la chaine. Pour la deuxieme question : Dans ce dataset nous n'avons que 2 catégories pour chaque variables, donc il n'y a pas de différence entre ordinal encoder et One-hot Encoder (il n'y a que des 0 et des 1)
@mohammed_yazidcherifi9816
@mohammed_yazidcherifi9816 4 года назад
​@@MachineLearnia Merci pour votre réponse mais si vous permettez je me demandais quel que chose, pourquoi on ne ferait pas une méthodes de preporcessing générale globale qui contient absolument tous, genre scaling, encodage, feature selection, imputation, polynomiale feature, pca, etc... et l'appliquer directement à notre dataset selon le bon ordre bien sure, au lieu de à chaque fois essayer et revenir ? Merci mille fois et désolé du dérangement .
@stephaneperriot7845
@stephaneperriot7845 4 года назад
@@mohammed_yazidcherifi9816 Bonjour, la réponse est à la fin de la vidéo. Cette démarche itérative permet de tester indépendamment les hypothèses une à une pour savoir lesquelles retenir. Dans le cas d'un preprocessing général on ne pourrait pas distinguer les hypothèses qui améliore le résultat de celles qui le détériore. La finalité de la démarche itérative est bien d'avoir une preprocessing global (dont chaque hypothèse aura été validée)
@TheMajestic76
@TheMajestic76 4 года назад
Bonsoir Mr Guillaume, vraiment votre travail est génial, j'ai beaucoup appris grace à votre pedagogie de formation. si vous pouvez m'orienter vers des modèles de machine learning dans le domaine du controle de gestion , et de l'audit , aussi existe t'il des datasets pour ces deux domaines, je veux me perfectionner dans ces deux metiers dont j'ai eu un master.Merci infinement
@MachineLearnia
@MachineLearnia 4 года назад
merci beaucoup a vous :) N'importe quel modele de sklearn doit etre tenté sur votre domaine (modele bayesien, Regression logistique, etc.) Pour les datasets, vous devriez essayez Kaggle.com
@TheMajestic76
@TheMajestic76 4 года назад
@@MachineLearnia merci encore pour tout ce vous faites
@achrafzeroual1131
@achrafzeroual1131 3 года назад
Bonjour Mon cher Professeur, j'espère que vous etes bien en bonne santé. Comme d'habitude, vous etes toujours à la hauteur et tout est bien expliqué merci infiniment mon cher professeur. J'ai une petite question : j'ai utilisé une pipeline comme vous avez fait dans ce cours en travaillant bien sur avec SelectKBest et RandomForestClassifier à l'intérieur du pipeline, mais quand je veux visualiser l'importance des features en utilisant ces deux lignes de code : model_feature_importances= model.steps[1][1].feature_importances_ pd.DataFrame(model_feature_importances, index=X_train.columns).plot.bar(figsize=(12, 8)) j'aurais l'erreur suivante "Shape of passed values is (10, 1), indices imply (33, 1)" , ça veut dire, peut etre , le nombre de variables dans X_train.columns dépasse le nombre de variables qu'on cherche leur importance , sincèrement je n'arrive pas à interprèter cette erreur , je souhaite que vous comprenez mon problème rencontré mon professeur et dans l'attente de votre réponse
@MachineLearnia
@MachineLearnia 3 года назад
Oui en effet, je vous invite a voir le code que j'ai mis sur Github pour comparer avec le votre, vous aurez alors un code qui fonctionne. Bonne chance !
@sidalibourenane5377
@sidalibourenane5377 2 года назад
premièrement Merci infiniment , pour quoi vous avez utilisé des fonction (imputation,preprocessing,,encodage...) au lieu générer directement des transfomer comme auparavant ???
@MachineLearnia
@MachineLearnia 2 года назад
Bonjour, c'est une autre facon de faire qui est aussi tres pratique, car un peu plus flexible que les transformers.
@allalzaid1872
@allalzaid1872 2 года назад
bonjour,peut on utiliser la meme procedure d'evaluation si on a une multiclass classification ,autrement dit si notre target contient par exemple : apple banana orange strawberry camcoat ?
@MachineLearnia
@MachineLearnia 2 года назад
Bonjour, on peut faire ca avec n'importe quel modele de sklearn (il supporte la multi-class). Il suffit de bien encoder votre variable y
@obiangobiang9294
@obiangobiang9294 3 месяца назад
Bonsoir monsieur, j'espère que vous allez bien ? J'ai un sujet en rapport avec l'apprentissage automatique. Pouvez vous m'aider svp?
@noel9335
@noel9335 3 года назад
Bonjour Guillaume, Lorsque l'on utilise une pipeline comme celle-ci : model = make_pipeline(SelectKBest(f_classif, k=5), RandomForestClassifier(random_state=0)) ...on ne peut plus utiliser la commande model.feature_importances_ Cela semble normal puisse les objets sont encapsulés pour être utiliser des uns après les autres. D'où ma question, comment donc peut-on accéder à ces informations maintenant ? Merci. Noël, ;)
@MachineLearnia
@MachineLearnia 3 года назад
Bonjour Noel, Pour acceder a une étape d'une pipeline, il suffit d'indiquer entre crochets [ ] l'index de l'étape (ou bien son "nom", les 2 fonctionnent) Enssuite, tu peux utiliser les attributs associés a l'étape concernée. dans ton cas, tu peux écrire : model[1].feature_importances_
@noel9335
@noel9335 3 года назад
@@MachineLearnia Merci pour cette information précieuse car très utile. A+ ;)
@melodie6948
@melodie6948 4 года назад
Bonjour Guillaume, merci encore pour toutes ces vidéos!!! J'ai une question (rien à voir avec la vidéo dsl) est ce que tu sais quand tu vas sortir les vidéos sur les réseaux de neurone? Et tu vas travailler avec quelle(s) bibliothèque(s) de python? Merci bcp!
@MachineLearnia
@MachineLearnia 4 года назад
Je vais faire des vidéos sur les réseaux de neurones juste apres la fin de cette série ! Et je vais commencer par utiliser Keras (pour les débutants) puis au fur et a mesure que le contenu deviendra plus technique, j'utiliserai Tensorflow, et Pytorch
@melodie6948
@melodie6948 4 года назад
@@MachineLearnia okk super merci bcp !!!! Hâte de voir tt ça !!!😃
@christopherthomias7278
@christopherthomias7278 3 года назад
Bonjour Guillaume, petit question, est-ce que pour la partie preprocessing quand tu définis tes fonctions, tu aurais pu utiliser directement les fonction de Sklearn (SimpleImputer, OneHotEncorder ...) Ou tu penses que justement à ce stade c'est mieux d'avancer comme tu l'as fait ?. Parce que je me dis que si on avait eu plus de cas différents de categorical features ça aurait été compliqué d'écrire les fonction à la main ? J'ai effectué un petit test justement mais comme il y a des NaN et autres apparemment c'était un peu compliqué de faire l'encodage puis l'Imputation
@MachineLearnia
@MachineLearnia 3 года назад
En effet, c'est plus facile de procéder soi-même a la main dans ce cas. Et meme dans les projets plus complexes, il m'arrive souvent (ainsi qu'aux autres data scientists) de faire l'encodage et l'imputation en passant par pandas.
@christopherthomias7278
@christopherthomias7278 3 года назад
@@MachineLearnia ok ça marche merci pour le retour 🤗
@Magmatic91
@Magmatic91 3 года назад
Une petite question svp : doit-on faire le feature engineering à la fois pour le train set et le test set comme dans la vidéo car je travail actuellement sur un projet sur Kaggle et certains me disent qu'il faut le faire seulement sur le train test. Je trouve votre méthode plus logique mais en tant que débutant j'arrive pas à me décider. Pouvez-vous m'éclairer sur le sujet. Merci.
@MachineLearnia
@MachineLearnia 3 года назад
Sur Kaggle, on peut parfois tenter des choses un peu farfelues pour obtenir de meilleurs résultats ^^ Mais dans la pratique, il faut vraiment mettre de coté les données de Test des le début du projet (ne pas y toucher) et faire tout son pre-processing uniquement sur le trainset. Ensuite, quand les fonctions de pre-processing ont été apprises sur le trainset, alors on peut les appliquer au testset (seulement apres)
@moussabamba6216
@moussabamba6216 4 года назад
Bonjour j'aimerais savoir est que l'on peux utiliser f1 comme score pour un modèle de régression linéaire.merci d'avance.
@MachineLearnia
@MachineLearnia 4 года назад
Non, le score f1 est conçu pour les problèmes de classifications
@YePapoteGlobal
@YePapoteGlobal 4 года назад
Hé bé très intéressant. Merci
@MachineLearnia
@MachineLearnia 4 года назад
de rien :)
@primadedosseu5886
@primadedosseu5886 Год назад
Excellent merci. Mais les code sont pas bien visible
@solalcohen5631
@solalcohen5631 2 года назад
Petite question : Tu fais ton preprocessing et meme un peu de feature engineering sur un model puis dans la video suivante tu vas essayer plusieurs autres models. Mais le preprocessing et le feature engineering ne dependent pas un peu du model utilise? Dans le sens ou une standardisation ne va pas avoir dinteret pour un model type arbre. A quel moment donc il faut choisir son model ?
@MachineLearnia
@MachineLearnia 2 года назад
Oui tu as raison, Je montre ici un processus un peu simplifié. Il faut tourner en boucle les étapes de pre-processing et de modélisation, en modifiant son preprocessing pour accomoder le modele
@jeanbernardpaya3635
@jeanbernardpaya3635 3 года назад
Superbe pédagogie, merci pour ces vidéos. Suis bloqué sur une étape, je vous ai soumis les détails par email, merci d'y jeter un oeil....Cordialement
@MachineLearnia
@MachineLearnia 3 года назад
Bonjour, j'ai pas mal de retard sur la lecture de mes mails, je ne promets pas de pouvoir y répondre tout de suite, mais sur notre discord je n'aurais pas de mal a vous aider !
@jeanbernardpaya3635
@jeanbernardpaya3635 3 года назад
@@MachineLearnia En fait je développe un programme de prédiction de futures en utilisant votre technique. A l'étape Model (evaluation)j'ai le message suivant: Value error: continuous not supported. Si vous avez une solution, c'est most welcome. D'avance merci
@MachineLearnia
@MachineLearnia 3 года назад
@@jeanbernardpaya3635 En effet il faut plus d'info pour vuos venir en aide. Je vous invite a venir en parler sur le discord de la communauté
@jeanbernardpaya3635
@jeanbernardpaya3635 3 года назад
@@MachineLearnia comment puis je avoir accés au discord? Merci
@jeanbernardpaya3635
@jeanbernardpaya3635 3 года назад
Merci de m'envoyer une invitation pour discord.
@mouhamadoumoustaphaba4502
@mouhamadoumoustaphaba4502 2 года назад
Bonsoir En ce moment je travaille sur un projet sur la prédiction du prix de l'immobilier au USA .Dans le Dataset j'ai des variables année de construction du maison et l'année de vente.Est ce que je peux laisser ces variables pour faire la regréssion?
@MachineLearnia
@MachineLearnia 2 года назад
Oui vous pouvez, regardez la suite des vidéos ou je parle de preprocessing.
@elmoukriel
@elmoukriel Год назад
c'est le même problème! c'est toujours compliqué et je me dis qu'on devrait pas avoir besoin normalement de tout ça
@allalzaid1872
@allalzaid1872 2 года назад
Bonsoir j'ai un problème pour savoir est ce que je doit utiliser la classification ou la régression j'ai un dataset contenant les factures température -pression-quantité de gaz produite-formule chimique du gaz- ce que je veux c'est entrainer mon modelé pour avoir comme Target la quantité de gaz produite et de classifier les formule de gaz en se basant sur la quantité produite ,je pense que mon problème et classification et régression en même temp ,or je sais pas comment l'implementer, j'ai fait le nettoyage , preprocessing, j'ai entrainer un Random Forest pour l'obtention de la quantité de gaz mais je me trouve un peux dans le vide. pourriez vous m'aider? merci
@MachineLearnia
@MachineLearnia 2 года назад
Personnellement je pense que c'est un problème de régression, dans lequel vous cherchez a prédire une quantité de gaz. Une fois que vous connaissez cette quantité, après vous pouvez faire votre classification a partir de celle-ci, sans passer par le machine learning.
@hananeouach976
@hananeouach976 4 года назад
Bonjour, je vous remercie pour cette video et d'ailleurs j'ai le meme probleme dans mon stage de fin d'étude du coup ça m'a donnée beaucoup d'idées sinon est ce qu' à votre avis on ne doit pas penser aussi à des méthodes d'équilibrage de base de données ? Merci.
@MachineLearnia
@MachineLearnia 4 года назад
Oui, vous pouvez utiliser SMOTE disponible dans la librairie imblearn. J'ai fait un tutoriel sur Tipeee, mais si vous ne me suivez pas sur tipeee, pas de panique, il n'est pas compliqué a prendre en main.
@hananeouach976
@hananeouach976 4 года назад
@@MachineLearnia ah okay merciii beaucoup
@thiernondiaye7615
@thiernondiaye7615 3 года назад
Bonjour en fait j'ai du mal à comprendre la création de blood_columns et virale_columns. Pourquoi leurs créations.
@MachineLearnia
@MachineLearnia 3 года назад
Bonjour, c'est pour regrouper dans un meme sac toutes les colonnes qui partagent le meme theme, ca facilite pas mal les analyses
@axelrasse937
@axelrasse937 3 года назад
Salut Guillaume, petite question: Pourquoi tu n'utilises pas des transformateurs de sklearn pour l'encodage et l’imputation ? Merci encore pour le super contenu, la méthode pour appréhender le problème est top !
@MachineLearnia
@MachineLearnia 3 года назад
Tres bonne question ! Je voulais montrer comment le faire avec pandas, tout simplement, car c'est parfois plus efficace que sklearn (en tout cas pour l'encodage!)
@axelrasse937
@axelrasse937 3 года назад
@@MachineLearnia merci pour la réponse ! Une autre petite question, après j’arrête promis 😅 A l'aide de ta procédure d’évaluation tu utilises un arbre de décisions pour évaluer si tes idées ont un impact positif sur ton modèle. Ainsi à la fin, tu en déduit un sous groupe de paramètres qui optimise tes prédictions. Ma question est la suivante : Est ce que la forme finale de ton jeu de paramètres sera aussi "efficace" sur des modèles différents ?
@peterpancakeA
@peterpancakeA 4 года назад
Pourquoi quand j'ecris "model.feature_importances_" ca me met ce message d'erreur : 'Pipeline' object has no attribute 'feature_importances_' ?
@MachineLearnia
@MachineLearnia 4 года назад
Parce qu'une pipeline n'a en effet pas cet attribut. Ce qu'il faut faire, c'est acceder aux modele présent dans la pipeline ! pour ca il faut utiliser l'attribut step de pipeline, pour selectionner le modele, puis ensuite utiliser feature_importances_
@Magmatic91
@Magmatic91 3 года назад
Merci pour ce cours très clair. J'ai une deux petites questions : Pourquoi vous n'avez pas remplacé les valuers manquantes par le mode ou moyenne ou bien la valeur d'avant? Aussi, est-ce que ça peut arriver de ne pas pouvoir optimiser un model, que pouvons-nous faire dans ce cas?
@MachineLearnia
@MachineLearnia 3 года назад
Bonjour et merci. Je n'ai pas remplacer les NaN parce qu'elles sont en trop grandes proportions, et parce que je préfere toujours commencer par travailler avec les données que je connais (je n'aime pas "inventer des données). Ensuite, si j'observe que la performance est mauvaise (et que j'ai besoin de plus de données) alors (et seulement alors) j'essaie de rajouter des données en comblant les trous. Je ne vois pas de situation dans laquelle on ne peut pas optimiser un modele, si vous avez un exemple ca m'aiderait :)
@Magmatic91
@Magmatic91 3 года назад
@@MachineLearnia Concernant l'optimisation du modèle peut être j'ai pas bien posé ma question. Je voulais dire si ont peut tomber sur un Data set où l'optimisation devient difficile ou bien impossible.
@essaidelhaji6844
@essaidelhaji6844 4 года назад
Merci pour cette superbe vidéo. J'ai une petite question: pourquoi avez-vous procédé à l'encodage en créant votre propre fonction, alors qu'il était possible d'utiliser les transformers de SKlearn tel que OneHotEncoder? quel en est l'avantage? ou juste à titre pédagogique? merci.
@MachineLearnia
@MachineLearnia 4 года назад
Bonne question ! En pratique, Les transformers tels que OneHotEncoder sont utiles quand il y a un grand nombre de catégories a convertir. Mais quand nous avons un petit nombres de catégories a convertir (comme ici 2-4) alors il est plus pratique d'écrire sa propre fonction pour avoir un controle total sur ce que l'on fait.
@essaidelhaji6844
@essaidelhaji6844 4 года назад
@@MachineLearnia Merci Beaucoup.
@budoshugyosha
@budoshugyosha 4 года назад
Une petite question: au début lorsque j'écris: df [blood_columns+viral_columns+key_columns] J'obtiens une erreur: operands could not be broadcast together with shapes (14,) (19,) Pourtant j'ai l'impression d'avoir tout fait à l'identique...une suggestion?
@MachineLearnia
@MachineLearnia 4 года назад
Attention car j'ai enlevé 2 colonnes en plus depuis la derniere vidéo, a savoir les colonnes "rapid_test". Si le probleme persiste, je vous conseille de vérifier les dimensions de chaque sous-groupe. Le code est disponible sur github (en lien dans la description) si jamais vous avez besoin de faire un "fork"
@budoshugyosha
@budoshugyosha 4 года назад
@@MachineLearnia Merci de prendre le temps de me répondre...je vais regarder cela de près
@haimensoussi3193
@haimensoussi3193 4 года назад
BRAVO ET MERCIIII
@MachineLearnia
@MachineLearnia 4 года назад
merci :)
@captainmustard1
@captainmustard1 2 года назад
salut Guillaume, une petite question me turlupine... Pour m'entrainer, j'ai appliqué ton script à une bade de donnée du cancer du colon avec comme target [normal, tumoral]. Au niveau de la lerningCurve, quand j'utilise le "scoring=f1" comme toi, j'ai des messages d'erreurs du type : "ValueError: pos_label=1 is not a valid label. It should be one of ['normal', 'tumoral']". J'ai corrigé le problème en supprimant le scoring. J'ai donc compris que ça fonctionnait bien avec le scoring par défaut de la classification qui est le "Accuracy". Mais je ne comprends pas pourquoi ça ne fonctionne pas avec les autres métriques , qui sont bien des métriques de classification.
@MachineLearnia
@MachineLearnia 2 года назад
Salut ! Tu as encodé la target ?!
@captainmustard1
@captainmustard1 2 года назад
@@MachineLearnia oui, j'avais essayé mais ça n'avait pas fonctionné
@abdoulayesow6627
@abdoulayesow6627 3 года назад
Merci Guillaume pour cette etude complete. Mais j'ai un soucis de mon sur un data un peu semblable a celui la. Mais ma variable target n'a que moins de 2% de valeurs. Est ce que on peut faire grande chose avec? d'autant plus qu'on nous dit sur le sujet que nous nous pouvons remplacer les valeurs manques par une moyenne, mediane ou mode de la variable concerner. Qu'est ce que vous me conseillez?
@MachineLearnia
@MachineLearnia 3 года назад
2% de données c'est vraiment tres peu ! Je vous conseille de tester tout, avec une cross_validation et de garder la meilleure technique
@abdoulayesow6627
@abdoulayesow6627 3 года назад
@@MachineLearnia d'accord. Mais j'ai un probleme pour calculez les corrlations entres les variables qualitatives et entre qualitatives/quantitatives. Y a t il pas une methode sur python de faire ca comme avec corr() pour des variables quantitatives?
@nidhalmerhben1813
@nidhalmerhben1813 2 года назад
Bonsoir j'ai pas pu lire la base de donnée sur jupyter l'erreur "Install xlrd >= 1.0.0 for Excel support " malgré que je l'ai installé avec pip install xlrd == 1.0.0. et s'est installé mais toujours le meme erreur ? qu'est ce que je dois faire???? merci d'avance
@MachineLearnia
@MachineLearnia 2 года назад
Aucune idée, venez en parler sur notre serveur discord. Faites bien vos recherches google au préalable
@nidhalmerhben1813
@nidhalmerhben1813 2 года назад
@@MachineLearnia merci bcp j'ai résolu le probleme
@cyrineabid308
@cyrineabid308 2 года назад
Bonjour, Merci de m'expliquer comment nous pouvons faire la selection des colonnes selon un seuil pour faire de nouveau l'arbre de décision après la détermination des variables les plus importantes pour sa construction
@MachineLearnia
@MachineLearnia 2 года назад
Bonjour, apres avoir utiliser feature_importance, il faut utiliser pandas et numpy pour extraire les variables les plus importante (avec un sort()) et ensuite c'est bon, on peut le relancer dans un arbre de décision.
@cyrineabid308
@cyrineabid308 2 года назад
@@MachineLearnia merci pour votre réponse. Cad, comme vous avez fait avec NaN sur dataset du coronavirus du projet?
@MachineLearnia
@MachineLearnia 2 года назад
@@cyrineabid308 Désolé a vrai dire je ne me souviens pas par coeur de tout ce que j'ai pu écrire comme code dans toutes mes vidéos et tous mes projets perso et professionnels. Mais en effet dans cette vidéo on observe les meilleurs variables a un moment de la vidéo, il suffit de les trier et les extraires.
@cyrineabid308
@cyrineabid308 2 года назад
@@MachineLearnia bien reçu. Merci pour votre temps
@barandiaye5299
@barandiaye5299 3 года назад
Svp pouvez vous faire des tutos en python avec les netcdf files qui sont des fichiers à 3 ou 4 dimensions
@MachineLearnia
@MachineLearnia 3 года назад
Bonjour, je vais le rajouter a ma liste de choses a faire, oui !
@TheRemiRODRIGUES
@TheRemiRODRIGUES 4 года назад
Merci !
@MachineLearnia
@MachineLearnia 4 года назад
de rien :)
@patrickcantona5156
@patrickcantona5156 4 года назад
'NoneType' object has no attribute 'drop' j'ai toujours cet erreur la quand j’exécute la fonction preprocessing des trainset et testset (time code 13:03 ) . Je comprends pas pourtant quand je fais un drop en dehors de la fonction preprocessing ça marche Merci pour la vidéo
@MachineLearnia
@MachineLearnia 4 года назад
vérifie que le type de tes trainset et testset sont bien "DataFrame", et sinon regarde le code sur github en référence
@aliounebadarapierreniang793
@aliounebadarapierreniang793 3 года назад
Bonsoir et Merci pour cette vidéo incroyable. J'ai juste une question. Pourquoi est ce qu'on remplace les valeurs manquantes par une valeur extrême comme c'est le cas ici à la 23:43. (Vous l'avez remplacer par -999). Je sais que c'est pour éviter de supprimer trop de données mais je vois pas la logique derrière les -999. Merci Hâte pour les prochaines vidéos =)
@MachineLearnia
@MachineLearnia 3 года назад
Bonjour, tout d'abord, cette technique fonctionne bien avec les arbres de décisions, mais pas avec tous les types de modeles (par exemple ca ne fonctionnerait pas bien sur des modeles linéaires) Selon le modele qu'on utilise, il faudra mettre une valeur plus ou moins extreme. Par exemple pour des KNN, il faudra vraiment une valeur éloignée du reste des données (comme ici) alors que pour des arbres de décision, un simple -1 aurait fait l'affaire. J'ai juste mis un -999 par habitude, parfois on met encore moins, parfois juste -1, a vous de voir :)
@aliounebadarapierreniang793
@aliounebadarapierreniang793 3 года назад
@@MachineLearnia Merci beaucoup. Mais, à quand la prochaine vidéo ... :=)
@mohamedseddik965
@mohamedseddik965 4 года назад
Salut Guillaume, je constate que le meilleur modèle est KNN mais il nous manque plus des données
@MachineLearnia
@MachineLearnia 4 года назад
Je suis d'accord qu'il manque des données. Maintenant en ce qui concerne KNN, je ne dirais pas que c'est le meilleur modele, mais cela dépend bien sur de ce que tu as mis dans ta pipeline. Chaque modélisation se vaut.
@ridafarouk8623
@ridafarouk8623 4 года назад
First one je démarre mon pc maintenant afin d'exécuter le code❤️
@MachineLearnia
@MachineLearnia 4 года назад
Quelle motivation ! BRAVO ! :D
@francoixxaviereale7591
@francoixxaviereale7591 4 года назад
Je trouve cela super cool
@MachineLearnia
@MachineLearnia 4 года назад
super :)
@anjarahasina_
@anjarahasina_ Год назад
Salut! Tu es l'un des meilleurs profs que je connais. J'ai tellement progressé en un temps record. Etant autodidacte, que me recommanderais-tu pour compléter mon apprentissage et viser une carrière dans le domaine? J'ai envie de me reconvertir. Merci!
@aitaya
@aitaya Год назад
Il existe une interview dans podcast où il a répondu à cette même question. Pas d'un aspect technique mais plutôt d'un point de vue motivation. Je la recommande vivement parce-que sa réponse était la meilleur et elle m'a aidé à bien penser avant de 'reconvertir'
@anjarahasina_
@anjarahasina_ Год назад
@@aitaya avez-vous encore le lien svp?
@moussabamba6216
@moussabamba6216 4 года назад
merci pour tes vidéo mais est ce que souvent tu pourrais nous montrer comment tu utilises la documentation .merci d'avance
@MachineLearnia
@MachineLearnia 4 года назад
Tres bonne idée ! Je vais tacher de le faire bientot !
@moussabamba6216
@moussabamba6216 4 года назад
merci infiniment
@shootsoccer948
@shootsoccer948 3 года назад
Bonjour Guillaume, moi j'ai un résultat sur le premier traintest = 54 cas negatifs avec 0,83% de précision, 100% de recall et 11 cas positifs avec 100% de précision et 1 cas de recall 0.08% Pense tu que j'ai fait une erreur car je n'ai pas le même score que sur la vidéo et j'ai constaté aussi que ton score est différents aussi du code sur GitHub. Merci de votre reponse!
@MachineLearnia
@MachineLearnia 3 года назад
Non tu n'as pas fait d'erreur, c'est lié a la facon dont les données sont mélangées dans le train-set, mais aussi la facon dont les modeles que l'on utilise sont Initialisé (au hasard). Il y a toujours un niveau de variation. Le meilleur moyen pour "stabiliser" cette variation est d'utiliser une cross-validation pour effectuer des entrainement/evaluation sur plusieurs découpe du dataset, comme on l'a vu plus tot dans la formation :)
@lllcdert826
@lllcdert826 2 года назад
SVP je vous pris de répondre a ma question est ce que vous pouvez nous montrer en général les hyperparametres intéressant a choisir dans l'algorithme de logistique régression parmi ces hyperparamètre ( LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True, intercept_scaling=1, l1_ratio=None, max_iter=100, multi_class='auto', n_jobs=None, penalty='l2', random_state=0, solver='lbfgs', tol=0.0001, verbose=0, warm_start=False))],) (comme vous avez fait avec le svm dans cette video ou le knn que vous avez déjà aborder dans une des vidéo précédente )
@MachineLearnia
@MachineLearnia 2 года назад
ce qui est important, c'est l'hyperparametre C et max_iter. Apres la penalty, le solver, et la tol sont aussi intéressant.
@lllcdert826
@lllcdert826 2 года назад
@@MachineLearnia d'accord je vous remercie
@eugenebengibabuya4938
@eugenebengibabuya4938 4 года назад
Je like avant de regarder ;))
@imammalickndiaye9035
@imammalickndiaye9035 4 года назад
Je m’aligne derrière cette même déclaration parce que c'est exactement ce que j'ai fait
@geoffreybruckert
@geoffreybruckert 4 года назад
Pareil ^^
@ulrichkarlodjo1457
@ulrichkarlodjo1457 4 года назад
Parreil pour moi ^_^
@aliounendiaye265
@aliounendiaye265 4 года назад
envie de devenir expert en ML et j'espère y arrivé avec vos vidéos
@MachineLearnia
@MachineLearnia 4 года назад
Vous y arriverez, je ferai tout pour vous aider !
@aliounendiaye265
@aliounendiaye265 4 года назад
@@MachineLearnia c'est vraiment gentil ...vous etes le meilleur
@developpeurmax3295
@developpeurmax3295 3 года назад
Bonjour Guillaume, c'est une superbe vidéo, mais j'avais une préoccupation concernant la fonction encodage, quand j'utilise Map pour faire l'encodage sa me retourner une erreur ! Comment puis je procéder autrement
@MachineLearnia
@MachineLearnia 3 года назад
Quelle est l'erreur en question ?
@developpeurmax3295
@developpeurmax3295 3 года назад
Je veux vous l'envoyer, c soir merci bcp
@developpeurmax3295
@developpeurmax3295 3 года назад
Voici l'erreur qui s'affiche : AttributeError: ' DataFrame' object has no attribut 'map'
@vazoumanasylla775
@vazoumanasylla775 3 года назад
Bonsoir Guillaume et Merci pour cette vidéo. J'essaie de m'exercer et j'ai un souci. Lorsque je j'écris df = df[key_columns + blood_columns + viral_columns] ; Python me retourne le message d'erreur suivant : ValueError: operands could not be broadcast together with shapes (2,) (14,) Je vous remercie de votre aide
@MachineLearnia
@MachineLearnia 3 года назад
Le message indique un probleme de dimension entre les tableaux key_columns, blood_columns et viral_columns. Je vous invite a voir mon code sur github pour le comparer avec le votre et trouver la différence qui a mené a obtenir des dimensions différentes
@vazoumanasylla775
@vazoumanasylla775 3 года назад
Merci Guillaume !
@aurcelkoubemba9838
@aurcelkoubemba9838 4 года назад
Bonjour svp j'ai un petit projet à faire je voudrais savoir si vous avez des tutoriel pour sa. La reconnaissance faciale si vous avez des tuto comment faire la reconnaissance faciale ??????????????????????????
@MachineLearnia
@MachineLearnia 4 года назад
Je vais faire des tutos a ce sujet prochainement ! :)
@aurcelkoubemba9838
@aurcelkoubemba9838 4 года назад
Ok.
@mohamedseddik965
@mohamedseddik965 4 года назад
franchement c'est nickel
@MachineLearnia
@MachineLearnia 4 года назад
merci !
@elrick2087
@elrick2087 3 года назад
bonsoir def clean(filtre): return filtre.dropna(axis=0) cette fonction supprime toutes les lignes chez moi.
@MachineLearnia
@MachineLearnia 3 года назад
Il est possible que vous aillez au moins un NaN sur chaque ligne, attention !
@elrick2087
@elrick2087 3 года назад
Merci.
@boudehoucherahma8083
@boudehoucherahma8083 3 года назад
Bonjour Guillaume , J'ai essayé d'exécuter la fonction d'évaluation comme vous l'avez définit mais malheureusement un message d'erreur de : found input variables with inconsistent numbers of samples ! Encore une fois bravo pour le formidable travaille que vous faites
@MachineLearnia
@MachineLearnia 3 года назад
Oula je ne vois pas d'ou vient le probleme, je t'invite a regarder mon code sur Discord, et venir nous parler sur Discord pour regler le pb.
@boudehoucherahma8083
@boudehoucherahma8083 3 года назад
Merci de m'avoir répondue Guillaume , j'ai finalement règle le problème , je ne me suis pas rendue compte que j'avais sélectionné Y_train avec Ypredict. Chose qui est toute a fait normale d'avoir une erreur de taille . Merci énormément pour tous le travaille que tu fais , j'ai changé de route d'ingénierie au machine learning sur Paris saclay , et je peux vous dire que vos vidéos m'ont permit de voir au plus clair le rôle d'un data scientist. Je ne vous remercierais jamais assez pour le beau travaille que vous faites . J'ai hâte de recevoir les notifications des vidéos du deep learning.
@boudehoucherahma8083
@boudehoucherahma8083 3 года назад
Désolé , je me suis permise de vous totoye *
@MachineLearnia
@MachineLearnia 3 года назад
Pas de problème, j'ai moi aussi tutoyé par inattention. Personnellement ca ne me dérange pas les gens peuvent me tutoyer ^^ A bientôt :)
@boudehoucherahma8083
@boudehoucherahma8083 3 года назад
@@MachineLearnia Merciii
@pulsorion
@pulsorion 4 года назад
👏👏
@tezkrattroza5008
@tezkrattroza5008 2 года назад
Un grand merci ne suffit pas . Je vous assure . Mais permettez moi de vous poser une question . Si mes variables ne suivent pas un loi normale . Comment procéder . ?
@MachineLearnia
@MachineLearnia 2 года назад
On peut les normaliser avec diverses méthodes : cox box, log, etc. Mais ca n'est pas toujours nécessaire !
Далее