Cześć! Z tej strony Marcin i Wojtek - w naszej serii RU-vid ML-Workout omawiamy tematy związane z uczeniem maszynowym i sztuczną inteligencją. Sami jesteśmy inżynierami-praktykami i przedstawiamy zagadnienia z ML/AI z perspektywy wdrożeniowej. Zapraszamy!
Czy wykorzystanie tutaj SMOTE dla polepszenia metryk ma sens? Czy w tym przypadku klasy są jeszcze wystarczająco zbalansowane żeby tego nie wykorzystywać??
NIE PODDAWAJCIE SIE I NAGRYWAJCIE PROSZE!! Brakuje czegos takiego na polskim YT, i oczywiscie ze zasiegi beda niskie bo takich nerdow jak my nie jest za wiele!! <3
Fajny odcinek! :) Zrobicie odcinek o trochę starszych modelach embeddingowych - np. GloVE, Word2Vec, fastText?. Takie embeddingi są też przydatne gdy chce się szybko stworzyć swój model embeddingowy oparty o nasze teskty domenowe :)
Panowie, a co z tuningowaniem hiperparametrów modeli? Czy te regressory pracują na ustawieniach defaultowych np. z scikit-learn, czy można stworzyć jakiś pipeline, który wykorzysta np. GridSearch CV, czy Optuna? Chyba, że jest opcja importu wytrenowanego wcześniej w notebooku modelu (zapisanego później przez joblib, czy pickle)? W materiale gdzieś się przewinęła metryka R^2 = c. 0,46 a to sygnał, że nad modelem trzeba popracować. P.S. Bardzo fajne wprowadzenie w temat - dzięki!
Dzięki za komentarz! Oczywiście, że można stworzyć pipeline, który wykorzysta GridSearcha czy Optunę 👍🏻 Jest również opcja importu wytrenowanego wcześniej modelu. Co do metryki R^2 - oczywiście model wymagałby poprawienia - nasz materiał skupia się na tutorialu Kedro, nie na modelowaniu.
To zależy oczywiście od zastosowanych modeli. Do embeddingów (czyli dla cześci retrieval) jest kilka modeli dla języka Polskiego, m. in Silver Retriever ( huggingface.co/ipipan/silver-retriever-base-v1.1 ). Zawsze warto zerknąć na MTEB Leaderboard na Huggingface - jest tam zakładka dedykowana dla języka Polskiego. W kontekście generowania odpowiedzi, modele od Open AI potrafią generować odpowiedzi po Polsku z odpowiednim promptem, ostatnio pojawił się również model "Bielik" od Speakleash ( huggingface.co/speakleash/Bielik-7B-Instruct-v0.1 ). W skrócie - trzeba przetestować samemu, bo wszystko zależy od use-case'u 🙂
Hej! Dzięki za komentarz! Oczywiście odpowiedź brzmi "to zależy" 🙂 Od czego? Od modelu, od czasu który chce się poświęcić na development i deployment, od wymagań biznesowych.
To jest tak hermetyczna wiedza że taki materiałem nie traficie do szerszej publiki, proponuję bardziej publicystyczne materiały z dozą humoru. trzymam kciuki za pełen sukces, w przypadku zagwozdek montażowych służę pomocą 💪
FYI: Notebook który pokazujemy na filmiku można pobrać zapisując się do naszej listy mailowej! 🔥 Link: ml-workout.pl/int8 PS. jeżeli jesteś już na naszej liście mailowej, a nie masz dostępu - odezwij się do nas na news [at] ml-workout.pl
Świetny materiał :D Ogólnie lubię moje studia, ale akurat zajęcia, które ocierały się o te tematy były bardzo źle przeprowadzone i raczej zniechęcające, ale Wasz materiał mega zainteresował mnie tym tematem :D
Znowu bardzo fajny odcinek ❤. Na pewno przerobię sobie cały tutorial ze strony kedro na spokojnie. Przy okazji, mogę zapytać z jakiego terminala korzystacie?
Może warto lepiej się przyjrzeć (tzn, instalacja, wymagania itp) bibliotece cuDF? Porównywalna wydajność do polars w kodzie wystarczy zmienić "import pandas as pd" na "import cuDF as pd" 🙂 Nie trzeba tracić czasu na testowanie/naukę nowej konstrukcji metod
Dzięki za komentarz, miło nam ☺ Odpowiadając na Twoje pytanie - oczywiście że tak! Można taki scenariusz zrealizować również z LangChainem (zerknij na document_loaders/pdf w ich dokumentacji).
Do pewnego stopnia zgadzam się z tym szukaniem gwoździ, ale jeśli pomyślę sobie o swoich pomysłach gdzie - algorytmicznie nawet się za coś nie brałem, bo wydawało mi się to zbyt skomplikowane - No to teraz mam coś co pozwala mi posypać troszkę magii tu czy tam. No i to szukanie gwoździ to naturalny process przy takich przełomach. Wydaje mi się, że ludize spróbują użyć LLM dosłownie do wszystkiego i potem dopiero się zorientujemy, że niektóre rzeczy nie maja sensu - ale być może okaże się, że LLM pokaże, że jakieś problemy da sie faktycznie rozwiązać - i zespoły będą szukać tańszych rozwiązań. Dzięki za odcinek!
U mnie ten czat strasznie się zacinało. Zogowalem się wczoraj a czat odpowiada np w punktach ale na każdy punkt wyświetla tylko po jednej literce luz wyrazie i przechodzi do następnego. Jak mu kliknę aby jeszcze raz odpowiedzial to wtedy znowu się zacinało ale na pierwszym zapytaniu na pierwszej zakładce już jest cały tekst. Dlaczego tak się dzieje? Kolega w pracy również dzisiaj się zarejestrował i jemu działa normalnie. Hmm