Nie wiem czym się podniecacie. Jako model językowy za każdym razem czyta wszystko od początku i próbuje wygenerować tekst najbardziej prawdopodobny jako kontynuacja. To takie proste. A wy sie podniecacie, że generuje po piątce szóstkę, bo tak było na milionach (miliardach) przykładów.
Chat GPT 3.5 (nie mam dostępu do 4) zna nawet podstawowe eksploity i udało mi się zasymulować odpalenie takowego, ciekawe co na to GPT4, tylko trzeba pamiętać że eksploity wymagają odpowiednio niskich wersji oprogramowania.
W którymś z wcześniejszych odcinków mówiłeś że gpt nie posiada pamięci tego czym pisało się wcześniej, tylko za każdym razem wczytuje historie całego dialogu i na bieżąco opisywane są linie co powiedział człowiek i co odpowiedział ai. Ostatnio coś obiło mi się o uszy że w nowej aktualizacji gpt jest dodany jakiś mechanizm pamięci . Możesz opisać coś więcej jak to działa i o co kaman ?
Pamiec GPT czy innych LLM nigdy tak nie dzialala kal opisujesz. Jest to zupelnie inny mechanizm . Tylo powiem ze na kazde 2K ( 2048 ) tokenow pamieci ( okolo 1500 slow ) potrzeba aktulnie 1.5 GB VAM lub RAM. Aktualnie najwieksze modele ktorre mozna uzywac w domu maja wielkosc 70B ( 70 miliardow parametrow ) i 8K lub 16K kontekstu ( pamieci ulotnej ) a do tego juz trzeba 6 GB lub 12 GB VRAM lub RAM .... Myslisz ile zajmuje dialog zapisany tekstem skladajacy sie z 2 tysiecy slow gdzie model potrzbuje 1.5 GB? Okolo 2 KB ( kilobajtow ) czyli 0.000002 GB ;-) .
Jasne, już opisuję. Ta "pamięć", którą opisujesz i bierzesz za pamięć jest ładowana z zewn. bazy danych i zapisywana zupełnie oddzielnie od modelu. W momencie "przywrócenia" starszej konwersacji jedynie ładowany jest z oddzielnej bazy cały zapis rozmowy i od nowa wrzucane jest to do modelu jako całość.
@@polskiskynet LOL nie. Zapisany jest stan binarny uzytych wag oraz polaczen w ktore byly uzyte w warstwach dla pamieci ctx . Jak uzywasz w domu offline LLM np wersji ggml to mozesz sobie zapisac stan sesji i potem do niej wrocic. Wiekosc tej sesji jest uzalezniona od wielkosci ctx. Np dla 2048 to 25 MB i sie powieksza np do 50MB przy ctx 4096 itd. I jest to plik binarny w wagani i sciezkami w warstwach.
Też mam takie wrażenie, że to nie jest do końca tak jak autor mówi, że dzieje się "w chatgpt", tylko uruchamia sobie pod spodem "symulację", czyli np. kontener jak mówisz. Można by się chata spytać jak to robi :)
Nope, to nie jest żaden trick. To jest naprawdę ogarniane przez model. Już GPT3 kilka lat temu pozwalało na coś podobnego, ale nie z aż taką skutecznością jak czwórka. Poza tym można sobie wywołać "surowy" model przez API, bez używania do tego ChatGPT i efekt osiągnie się ten sam.