이해하기 쉽게 자동완성과 스프레드시트로 설명하였지만 이러한 llm의 뒤에는 매우 큰 인공신경망과 그로 이루어진 Self-attention-layer가 있다는 것을 생각하지 않으면 안됩니다. 그냥 인공지능이 자동완성 알고리즘으로 이루어져 있다면 이렇게 큰 각광을 받지 못했겠지요, 인공지능의 논리력과 사고력의 대부분은 인공신경망에서 나오고 이는 llm의 성능에 매우 큰 영향을 미칩니다.
2019년 전까진 생성형 인공지능의 패러다임이 seq2seq + attention layer 였는데, seq2seq 모델은 Encoder 층과 Decoder 층으로 이루어진 lstm입니다. 쉽게 말해서 번역이나 요약을 해주는 모델이라고 보시면 됩니다. 문제는 seq2seq모델은 문장이 길어지면 이해를 못한다는 점이었는데, 이에 전체 Input의 Embedding을 여러 수치로 압축해서 각 layer에 넣어주는 attention layer라는게 만들어져서 이게 또 seq2seq 모델의 성능을 비약적으로 상승시켜줍니다. 그런데 2019년에 구글에서 Attention is all you need 라는 논문을 발표하는데요, 여기에서는 아예 attention-layer 을 개조해서 전체 문맥을 보고 뒤에 나올 Embedding(단어)를 예측하는 self-attention-layer라는 것을 개발해서 그것만으로 전체 신경망을 구성합니다. 이에 bert, gpt-1 등 여러 모델들이 나오다가 2020년 gpt-3 모델이 나오면서 모델의 크기를 단순히 키우는 것 만으로 인공지능이 더 많은 상황에 대처할 수 있다는 사실이 밝혀졌죠. 그때 생각하면 아직도 가슴이 떨리네요. 요즘 트랜드는 모델의 크기가 너무 커져서 크기를 줄이고 최적화 하는 편이긴 합니다. 여기까지 오신 분들 제 부족한 식견 봐주셔서 너무 감사합니다.
LLM 이 하는 것 - 데이터 상에서 가장 많은 빈도를 찾아주기 (LOOKUP 함수) 온도 : 가중치를 반영한 랜덤 (차가운 머리 vs 따뜻한 심장 사이의 어딘가) 파인튜닝 : 출력교정 (글, 그림, 소리, 동작, 3D모델 등등 표현 가능한 모든 형식과 분야로 확장&진화중. . . ) 강화학습 : 라벨러(선생님)에 의한 현장교육, 실전학습
오늘도 정말 유익하네요. GPT 3에서 4로 넘어갈때 조금 더 기계적인 느낌을 받았었는데, 이게 GPT4는 유료 구독한 개발자 등등의 활용을 염두에 두고 개발해서 Temperature 값을 낮춘것으로 개념적으로 이해할 수 있을것 같네요, 물론 이 뒤엔 정말 수많은 알고리즘이 있겠지만요 ㅎㅎ
AI의 이러한 원리로 가장 놀라웠던건, 학습이란걸 통해서 어떠한 지식을 서버에 저장하고 있을 줄 알았으나 실제로는 어떠한 지식도 저장하고 있지 않음.. 세종 다음 나올 단어가 대왕이 확률이 높다는것만 알뿐 세종대왕이란 단어를 모르고있는거임. 그러한 의미에서 인트로에서 AI가 기술적인 성취일뿐 전혀 지능적이지 않다는 거임.
GPT와 스테이블 디퓨전이라는 가장 유명한 두 AI가 사실 원래 목적과 다르게 사용된다는게 좀 신기하죠. GPT는 원래 자동완성 AI였지만 대화형 AI로 사용중이고 스테이블 디퓨전은 원래 단순히 이미지 화질을 높이거나 모자이크를 제거하는 AI였지만 그림을 새로 그려내는 AI로 사용중이죠.