좋은 강의 정말 감사합니다!! 질문이 하나 있습니다~~ 내부망에서 이와 같이 오픈소스 LLM으로 RAG 시스템을 구축하려고 합니다! 인터넷은 아예 연결이 되지 않는 상황인데 model-id는 임의 지정을 하면 될까요? 필요한 GPU, 개발환경과 라이브러리들은 구축이 가능한데 모델도 로컬환경에 탑재한다면 시스템 구성에 문제가 없을까여??
안녕하세요 :) 좋은 강의 영상 감사합니다~!! 정말 큰 도움이 되었습니다.!! 혹시 rag 시스템에서 답변 생성시, vector DB를 참조하는 정도를 조절하는 parameter가 있을까요?? 테스트 결과, general한 질문임에도 너무 vector DB를 참조해서 답변하려는 성향이 강해 이를 조절하는 방법이 있을까 해서요..!!
안녕하세요 RAG 관련 정보가 없어 많은 도움이 되었습니다. 감사합니다! 그런데, sLLM모델을 kyujinpy/Ko-PlatYi-6B 외의 다른 모델 (beomi/polyglot-ko-12.8b-safetensors, nlpai-lab/kullm-polyglot-12.8b-v2) 등을 활용하면 오히려 이해하기 힘든 대답을 생성하는 경우가 많았습니다. 혹시 sLLM모델에 선택에 대한 팁이 있을까요?
한국어로 된 오프소스 llm을 이용해서 랭체인을 활용하는 방법이 무척 궁금했는데, 정말 감사합니다. 아직 제가 잘 모르는게 많아서 여쭤보고 싶은데요. 챗지피티 등을 활용하지 않고 랭체인을 이용해서 rag 시스템을 만드는게 보안을 위해서 라고 본 것 같은데, 구글 코랩을 이용해서 작업을 하게 되면 결국 보안이 필요한 자료가 구글에 넘어가는 건 아닌지 궁금합니다.
선생님 영상 감사합니다. 질문을 드려도 될지 모르겠습니다. LLM에 관심이 많아 선생님 채널을 구독하고 간간히 영상을 보고 있었습니다. 그렇지만 실력과 지식이 미천하여 이해하고 실행하는데 어려움을 겪고 있었습니다. 그러던중 이번에 올려주신 이 영상을 보고 자신감이 생겨 콜랩이 아닌 제 컴퓨터에 세팅을 하려고 몇번의 시도를 하였으나 bitsandbytes가 쿠다와 문제가 있는지 버전을 낮춘다던가 혹은 파이썬부터 모든 것들을 다시 설치하여도 결국엔 쿠다와 bitsandbytes 부분에서 문제가 발생하여 진행이 되고 있지 않습니다.(그래픽 카드 미발견) 제 시스템의 사양을 간단히 말씀을 드리면 - 윈도우10 - i7 13세대 - 램 64 - 그래픽카드 4080 입니다. 며칠 째 시도를 해도 되지 않아 고견을 여쭙니다.
오픈소스 LLM, 특히 토종 오픈소스 LLM은 아직 성능이 부족한 경우가 많아 템퍼레쳐를 조절하더라도 잘 안될 수 있습니다. 그래도 Temperature, max token, chunk size, retriever 등 다양한 모듈들을 조절해보시면서 결과를 개선시켜나가시면 좋습니다
@@AI-km1yn 답변 감사합니다. 여러 방면으로 활용하고자 colab이 아닌 local(window)로 해봤으나ㅡ 제 경우에는 되지 않아서 wsl2(ubuntu)로 진행해서 잘 됐습니다. 또한, 선생님의 이전 강의 영상들을 함께 활용해서 이번 코드에서 사용된 LLMChain 대신 ConversationalRetrievalChain으로 바꿔봤습니다. 되게 오래걸렸네요ㅠ langchain 깃헙 코드도 되게 복잡하고 해서.. 여튼 감사합니다 좋은 경험이 됐습니다. 다른 분들도 window로 하신다면 wsl로 해보세요~~
안녕하세요. 올려주신 소스코드를 Colab에서 실습중입니다. pdf 내용으로 답변은 잘되는데요. 다만 토큰이 300이라 그런지 답변이 다 출려되지 않는거 같아요 max_new_tokens=1000 로 변경하니 , 답변이 다 나오긴 하는데요... 답변이 다 나오게 하려면 어떤 방법으로 해야 하는지 궁금합니다. ~~~
경랑화 모델 로드하기에서 아래와같은 에러메세지가 뜨는데 왜이러는지 알수있을까요 구글 colab에서 L4 GPU 런타임으로 돌리구 있습니다. Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
올리신 내용은 error 가 아니라, warning 이에요. 신경이 쓰이시면... transformers.logging.set_verbosity_error() 으로 error 만 출력하게 할 수 있습니다. warning 이유는 kyujinpy/Ko-PlatYi-6B 모델이 미세 조정 될 때 쓴거랑 똑같은 단어장으로 모델 돌리는거냐?하고 확인하는 정도에요.
Rtx 3080 RAM 16gb이면 양자화 모델 돌리기에 적절할 듯 합니다 :) 실습 파일 돌려보시면서 램이 얼마나 필요한지 확인해보시고, 속도도 경험해보시면 감이 오실 것 같습니다. 제 경험 상으론 RAM 16기가는 되어야 모델 로딩과 구동에 무리가 없고 3080 이상은 되어야 답답하지 않은 속도가 나올 것 같습니다