LangChain, RAG i wektorowe bazy: ciemna strona prototypowania AI

Подписаться 4,7 тыс.

Просмотров 1 тыс.

50% 1

Dzisiaj skupimy się na wdrażaniu AI na produkcję. Omówię trzy kluczowe kwestie:
1️⃣ Paradoks danych, zwykle zgadzamy się, że dane są ważne, ale często nie poświęcamy im tyle uwagi, ile potrzebują.
2️⃣ Przesadna koncentracja na narzędziach, owszem narzędzia są ważne, ale nie najważniejsze.
3️⃣ Cechy dobrego projektu na produkcję. Powinien być wiarygodny, kontrolowany, audytowalny i łatwy w naprawie błędów.
🔍 Odkryj, jak zbudować rozwiązanie AI, które naprawdę działa - z możliwością audytu, naprawy błędów i ciągłego doskonalenia.
Partnerem podcastu jest DataWorkshop - gdzie zajmują się praktycznym ML/AI.
🔔 Subskrybuj i włącz powiadomienia - Twoja droga do praktycznego ML zaczyna się od jednego kliknięcia: / @dataworkshop
👍 Zostaw like, bo więcej lajków = więcej praktycznych treści dla Ciebie!
💬 Co o tym myślisz? Zostaw komentarz! Masz pytanie? Zadaj je - chętnie odpowiem.
🤝 Poznajmy się lepiej! Zaproś mnie do swojej sieci na LinkedIn: / vladimiralekseichenko
🔊 Zainicjuj rozmowę o ML w firmie, polecając ten podcast. Zainspiruj zespół do wdrażania ML!
Poczytać możesz tutaj: biznesmysli.pl...
Co znajdziesz w tym odcinku?
1️⃣ Paradoks danych - mówimy o ich znaczeniu, ale często zaniedbujemy realne działania na rzecz ich jakości.
2️⃣ Dlaczego 80-90% projektów ML nie trafia na produkcję? Poznaj najczęstsze błędy.
3️⃣ Trzy inspirujące przykłady z życia - mentoring z AI, egzamin z udziałem LLM oraz obsługa klienta wspomagana przez AI.
4️⃣ Kontrola i audytowalność - jak stworzyć projekt, który będzie skalowalny, zaufany i gotowy do poprawy błędów.
5️⃣ LLM i klasyczne ML - współpraca, a nie konkurencja.
6️⃣ Zadbaj o to, co naprawdę ważne!
7️⃣ Jeśli chcesz lepiej zrozumieć, jak skutecznie wdrażać modele ML w Twojej organizacji, nie przegap tego odcinka! 🎧
🔑 Kluczowe wnioski:
Skup się na danych - to 50-80% sukcesu w projektach ML!
Zachowaj kontrolę nad procesem AI - nie deleguj wszystkiego na model
Stwórz własny leaderboard do porównywania modeli
Powiem Ci trzy historie (projekty LLM), co najmniej trzy, będzie pewnie ich więcej, ale takie trzy przypadki użycia, w których wprost jako DataWorkshop jesteśmy teraz zaangażowani. Myślę, że to pobudzi Twoją wyobraźnię i lepiej zrozumiesz, co jest ważniejsze. Bo pamiętaj, że w większości przypadków są różne szacunki, 80%, 90%, nawet jeśli 50%, zwykle ML nie działa.
W tym odcinku
Historia pierwsza - "Mentor"
Projekt nazwijmy go "Mentor". Organizacja zajmuje się mentoringiem w obszarze IT, skupiając się na wiedzy organizacyjnej, menedżerskiej i liderskiej. Obecnie zapraszani są eksperci, którzy prowadzą warsztaty. Pojawiają się jednak wyzwania: brak spójności i trudności ze znalezieniem praktyków. Pojawił się pomysł, aby ocyfrować wiedzę i częściowo zautomatyzować mentoring przy pomocy AI. Czy to w ogóle możliwe?
Historia druga - "Egzamin"
Drugi projekt nazwijmy "Egzamin". W szkole zawodowej uczniowie zdają egzaminy, aby zdobyć kwalifikacje. Celem projektu jest stworzenie asystenta AI, który zdałby ten egzamin.
Dlaczego to istotne? Zdając egzamin, asystent udowodniłby, że rozumie daną branżę. Można go by potem rozwijać, aby podpowiadał i prognozował. Klasyczne uczenie maszynowe i LLM mogą tu współdziałać. LLM może posiadać ogólną wiedzę zdobytą w procesie uczenia, a klasyczne algorytmy ML mogą prognozować wartości, np. popyt.
Historia trzecia - "Helpdesk"
Trzecia projekt nazwijmy "Helpdesk", projekt, w którym zachowanie poufności jest kluczowe. Nie mogę zdradzać szczegółów branży. W skrócie, chodzi o wykorzystanie LLM do stworzenia chatbota obsługującego bazę wiedzy i odpowiadającego na pytania użytkowników.
Na koniec odcinka też odpowiadam na pytania:
1. Jakie są najczęstsze błędy firm, które próbują wdrożyć AI (główny mit)?
2. Jakie są największe wyzwania związane z modelami LLM przy wdrażaniu je na produkcję?
3. Jakie praktyczne wskazówki mam dla Ciebie, aby wdrożyć AI w swojej firmie?
Chcesz więcej? Zajrzyj do moich kursów online i ucz się ML i analizy danych w praktyce!
👉 DS/ML od podstaw - bit.ly/3Ni8S25
👉 Python - bit.ly/3zRTeHC
👉 Statystyka - bit.ly/3zGrUMz
👉 SQL - bit.ly/3zFOLrD
👉 Time Series - bit.ly/4dzUooR
👉 NLP - bit.ly/4eUELtn
🎧 Słuchaj BM wygodnie na Spotify, Apple Podcasts lub Google Podcasts:
📌 open.spotify.c...
📌 podcasts.apple...
📌 • Biznes Myśli
#llm #rag #langchain #embedding #ai #ml #genai #podcast
Zbyt często ludzi (firmy) koncentrują się na wyborze narzędzi zamiast na kluczowych elementach, takich jak dane i ich jakość. Ten odcinek wprowadza Cię w świat praktycznego wdrażania modeli ML, podkreślając najważniejsze aspekty, które decydują o sukcesie projektów.

Опубликовано:

13 окт 2024

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист

Посмотреть позже

Комментарии : 12

@sipsiup День назад

Zgadzam się z Twoim spostrzeżeniem odnośnie dyskusji z klientem na temat „że dane są ważne”. Zwykle jak się temat głębiej podrąży to klient nie końca rozumie czym są dane ? Czy ufasz swoim danym ? - to są trudne pytania dla klienta. Ja się dużo nad tym zastanawiam i chyba tu chodzi o to że dane to jest „coś abstrakcyjnego” trudno sobie komuś kto w tym nie siedzi wyobrazić dane bo jest to dość abstrakcyjna materia. Przykład - idzie człowiek do sklepu i widzi słoik z dżemem - prosta sprawa widzisz słoik, dotykasz, otwierasz , wąchasz, smakujesz i jest to rzeczywiste, ale jak zrobisz reprezentację tego słoik z dżemem w danych to już nie jest takie proste do uchwycenia przez kogoś kto w tym nie siedzi. A gdybyś nigdy nie widział tego słoika z dżemem w realu ? to zrozumienie i dostrzeżenie tego słoika z samych danych jest po prostu trudne dla naszego mózgu… co o tym myślisz?

@rafaplis 3 дня назад

Dzięki za materiał.

@DataWorkshop 2 дня назад

Dziękuję :)

4 дня назад

Jakiej najlepiej używać baz danych do przechowywania tekstów z których mają być komponowane prompty i role w LLM?

@DataWorkshop 3 дня назад

Tu nie ma idealnej odpowiedzi, zresztą są co najmniej trzy rzeczy do rozważenia: 1. gdzie fizycznie są przechowywane dane, 2. jak są strukturyzowane (np. płaska struktura, grafy itp.), 3. sposób, w jaki będziemy je wyszukiwać (klasyczna wyszukiwarka, embeddings itp.). Do tego dochodzą jeszcze inne wymagania: - jak często będą dane aktualizowane, - jaka będzie skala (raz na dzień czy miliony zapytań, lub coś pomiędzy), - kwestie związane z prywatnością i rolami. Natomiast, jeśli chodzi o bazę wektorową, faktycznie czasami może być przydatna jako wyszukiwarka. Jednak, co podkreślam, proces wyszukiwania można zorganizować na różne sposoby, w zależności od problemu, który rozwiązujemy. Na przykład w tematach prawnych lub podobnych, gdzie precyzja jest bardzo ważna, same wektory mogą wprowadzać dużo zamieszania i niepewności.

@nemonemus6743 15 часов назад

Dzień dobry, wysłałem maila z moim problemem tydzień temu, prosiłbym o kontakt

@1972kotek 4 дня назад

Jak powinno się prawidłowo przeprowadzić wdrożenie rozwiązania używającego model LLM gdzie w zapytaniach pojawiają się dane podlegające RODO a użycie modelu lokalnego jest problematyczne? Jakieś umowy z dostawcą API (OpenAI, Google) czy inaczej do tego podjeść?

@DataWorkshop 3 дня назад

To jest już pytanie wprost dla prawników, dlatego polecam podejść do tematu od tej strony. Ważne jest, że nawet jeśli prawnik już coś przygotował komuś innemu, nie należy kopiować tego jeden do jednego. Każdy biznes jest (trochę) inny i ma swoje specyficzne potrzeby. Moja rola w tej rozmowie polega na zwracaniu uwagi na to, co jest istotne i na pytania, które prawnicy mogą zadawać, ustalając szczegóły. Natomiast nie jest prawnikiem, jestem od strony biznesowej, konceptualno-technicznej. Dla środowiska Enterprise to, co gwarantuje (prawnie) Vertex AI (Google) czy Azure (Microsoft), może być akceptowalne, ale nie zawsze. W większych chmurach, na przykład, istnieje możliwość przetwarzania danych tylko w UE (to dla RODO jest ważne), a dodatkowo zapewniają one szereg innych elementów wymaganych przez RODO. Jeszcze raz powtórzę, polecam przepracować temat RODO bezpośrednio z prawnikiem. To pewna inwestycja, ale zazwyczaj warto ją ponieść. @1972kotek

@1972kotek 3 дня назад

@@DataWorkshop Temat trafi do prawników. Szukałem jakiś informacji od kogoś kto ten proces przećwiczył. OpenAI ma stronę do zgłaszania takich umów. .

@paweldremel5097 3 дня назад

Jedno z rozwiązań Anonimizacja danych przed wysyłką: * Wyłapujesz wrażliwe dane i zastępujesz je znacznikami (np. {imie}, {pesel}) * Oryginalne dane trzymasz bezpiecznie w pamięci lokalnej Zapytanie do modelu: * Wysyłasz zanonimizowane zapytanie * Informujesz model, żeby w odpowiedzi zachował znaczniki Obróbka odpowiedzi: * Po otrzymaniu odpowiedzi, podstawiasz z powrotem oryginalne dane za znaczniki * Usuwasz tymczasowo przechowywane dane To jedno z możliwych rozwiązań - na pewno są też inne podejścia. Warto też pamiętać o skonsultowaniu takiego rozwiązania z zespołem prawnym pod kątem pełnej zgodności z RODO.

@1972kotek 3 дня назад

@@paweldremel5097 Problem w tym, że mam dane także obrazowe (skany dokumentów) i anonimizacja nie jest doskonała. OCR potrafi coś tam przepuścić tak samo jak poprawne wyłapanie NER'ów. Lepiej mieć coś podpisane z dostawcą AI (zadanie dla prawników). Może ktoś w praktyce przechodził taki proces.