Тёмный

🔥성능이 놀라워요🔥 무료로 한국어🇰🇷 파인튜닝 모델 받아서 나만의 로컬 LLM 호스팅 하기( 

테디노트 TeddyNote
Подписаться 28 тыс.
Просмотров 42 тыс.
50% 1

한국어 모델을 허깅페이스에서 다운로드 받아 Ollama 에 얹고, LangServe 를 사용하여 무료 호스팅 그리고 마지막으로 RAG 데모까지 진행합니다.
💻 소스코드: github.com/ted...
🤗 EEVE Korean Instruct 10.8B V1.0
huggingface.co...
🤗 EEVE Korean Instruct 10.8B V1.0(gguf)
huggingface.co...
📘 랭체인 튜토리얼 무료 전자책(wikidocs)
wikidocs.net/b...
✅ 랭체인 한국어 튜토리얼 코드저장소(GitHub)
github.com/ted...
⭐️ 강의 홍보 ⭐️
LangChain + ChatGPT + Streamlit 강의(VOD 강의)
아래에 사전 등록을 하시면 강의 오픈 후 알림을 발송해 드릴 예정이며, 할인 쿠폰도 같이 제공해 드립니다.
📍 LangChain + ChatGPT + Streamlit 강의 사전알림 신청 🙏🙏
링크: forms.gle/buoX...
#yanolja #eeve #huggingface
---
📘 랭체인 한국어 튜토리얼(무료 전자책): wikidocs.net/b...
📝 테디노트(깃헙 블로그) : teddylee777.gi...
💻 GitHub 소스코드 저장소: github.com/ted...
🍿 LLM 프로젝트: llm.teddynote.com

Опубликовано:

 

28 сен 2024

Поделиться:

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист
Посмотреть позже
Комментарии : 237   
@seminarcrunchy
@seminarcrunchy 4 месяца назад
00:00 인트로 00:57 로컬 모델 사용 시 걱정거리 02:21 EEVE 모델 소개(야놀자 샤라웃) 02:43 구조 소개 04:00 GGUF 파일 04:49 야놀자 샤라웃2 05:15 Heegyu님 GGUF 06:25 다운로드 받고 modelfile 09:28 EEVE 모델 설치 10:42 Ollama에 올린 모델 테스트 11:34 LangServe 설정 12:30 설정 설명 13:01 서버 구동 13:35 asitop (GPU 모니터링) 16:45 다음 단계(활용) 17:44 Remote Chain(LCEL) 18:52 서버에 세팅하기 20:14 ngrok 포트 포워딩 23:01 llm runnable 24:18 번역기 25:05 remote runnable RAG 26:01 Streamlit 테스트 26:44 pdf RAG 테스트
@teddynote
@teddynote 4 месяца назад
감사합니다😱🙏
@teddynote
@teddynote 5 месяцев назад
소스코드는 정리해서 3시간 내로 업로드 해드릴께요~ 좋은 밤 되세요.
@링크업IT
@링크업IT 7 дней назад
vscode내 소스 화면에서 생성형 아이콘이 나오는건 무슨 익스텐션인가요?
@teddynote
@teddynote 7 дней назад
@@링크업IT Github Copilot Extension 입니다!
@aowert6518
@aowert6518 5 месяцев назад
16:00 부터 맥북이 버거워 해서 캠도 끊기는게 웃기네요 ㅋㅎ 영상 항상 잘 보고 있습니다. 감사합니다~~!
@teddynote
@teddynote 5 месяцев назад
맥북이 너무 힘들어 합니다😭😭😭 시청 감사합니다🙏🙏
@김아무개-f9v
@김아무개-f9v 5 месяцев назад
아니 ollama로 플젝하면서 낑낑대고 있었는데 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 고구마에 사이다 오졌습니다...
@teddynote
@teddynote 5 месяцев назад
ㅋㅋㅋㅋㅋ 감솨합니다.
@정말그럴까-n2t
@정말그럴까-n2t 5 месяцев назад
역시 한국어 sllm 중에서는 eeve 모델이 요즘 인기가 있네요~ 좋은 강의 감사합니다!
@teddynote
@teddynote 5 месяцев назад
인기가 있는데에는 이유가 있더라구요! 감사합니다🙏
@냥냠-i8i
@냥냠-i8i 4 месяца назад
뭐야 당신 아낌없이 주는 나무...? 너무 감사합니다...
@teddynote
@teddynote 4 месяца назад
어멋?! 다 가져가세요🤤
@다니엘-q7o
@다니엘-q7o 3 месяца назад
안녕하세요. 위 소스를 활용해 리모트로 2명이상 동시접속 테스트를 했는데 비동기 처리가 안되는것 같습니다. (1명질문 마쳐야 다음 질문 가능) xionic은 ollama를 사용안해서 여러명 동시 질문 가능했고 chat,llm등은 동시 질문이 안되는데 어떤 부분을 수정해야 할까요?
@teddynote
@teddynote 3 месяца назад
ollama에서 parallel 설정을 해보세요! github.com/ollama/ollama/issues/761
@happyloper
@happyloper 5 месяцев назад
와 호기심에 따라해봤는데 겁나 잘되네요 좋은 자료 감사합니다 👍👍
@teddynote
@teddynote 5 месяцев назад
도움이 되셨다니 다행입니다. 감사합니다~!
@jymoon-z1t
@jymoon-z1t 3 месяца назад
테디님 영상보며 신세계를 경험하고 있습니다. ollama create 시 Error:command must be one of "from", "license", "template", "system", "adapter", "parameter", or "message" 발생해서 temperature 부분 제거 후 생성하였습니다. 같은 문제는 없으셨는지요?
@teddynote
@teddynote 3 месяца назад
맞습니다 문제 있습니다 코드 수정해 두겠습니다^^
@Berony1004
@Berony1004 4 месяца назад
15:56 영상 끊기는것만 봐도 로컬 데스크탑에서 잘 돌아가고 있음이 느껴집니다. 😁
@teddynote
@teddynote 4 месяца назад
컴퓨터가 많이 힘들어 하더라고요😭😭
@인프피-티
@인프피-티 5 месяцев назад
좋은강의 재밌게 잘 보았습니다. 오늘도 많은 공부가 되었습니다. 감사합니다.
@teddynote
@teddynote 5 месяцев назад
도움이 되셨다니 다행입니다. 감사합니다 🙏
@한경흠-n2d
@한경흠-n2d 5 месяцев назад
오~~~ 좋은 내용 감사합니다. 이런걸 찾고 있었는데요..
@teddynote
@teddynote 5 месяцев назад
저도요~ 이런걸 찾다가 영상으로 만들었습니다 ㅎ
@엉드루
@엉드루 3 месяца назад
강의 너무 잘하시네요. 큰 도움이 되었습니다.
@teddynote
@teddynote 3 месяца назад
감사합니다🙏🙏 앞으로도 열심히 하겠습니다!
@다니엘-q7o
@다니엘-q7o 4 месяца назад
안녕하세요 로컬 서비스 세팅 후 윈도우에서 로컬, 리모트 접속해서 질문을 1개만해도 속도가 엄청 느립니다. 질문과 동시에 cpu 99%, 메모리 full, gpu는 거의 안먹습니다. (노트북 사양 : i7 12세대, 16g, 내장그래픽) 혹시 이유가 있을까요?
@teddynote
@teddynote 4 месяца назад
네 외장 그래픽(엔비디아 계열) 이 달려있지 않으면 답변이 굉장히 느립니다. 빠른 출력을 위해서는 GPU가 필요합니다!!
@고양이는고양
@고양이는고양 5 месяцев назад
너무너무 잘봤습니다. 좋은 영상 감사합니다.
@teddynote
@teddynote 5 месяцев назад
네 시청해주셔서 감사합니다🙏🙏
@unhakim7415
@unhakim7415 3 месяца назад
챗 UI로만 LLM을 사용하다가 이렇게 파이썬 개발환경에서 사용하는 방식은 처음 접했네요. 파이썬 코딩을 가미하면 LLM을 이용해서 수많은 활용법을 찾을 수 있을 것 같군요. 흥미진진 합니다.
@teddynote
@teddynote 3 месяца назад
정말 활용할 수 있는 방법들이 많이 있습니다~^^ 다양한 실험을 해보세요!!
@stonkseal
@stonkseal 5 месяцев назад
좋은 영상 너무 감사합니다!
@teddynote
@teddynote 5 месяцев назад
감사합니다~^^
@hyungsungshim5714
@hyungsungshim5714 5 месяцев назад
내용이 너무 좋아서 바로 멤버쉽 가입했습니닷!! 감사해요~ 테디님!
@teddynote
@teddynote 5 месяцев назад
아이쿠 멤버십 가입 감사합니다 앞으로도 좋은 콘텐츠 업로드 하겠습니다🙏
@cklee4069
@cklee4069 3 месяца назад
안녕하세요 테디님, OpenAI로 embedding 하는건 잘 되는데요... 아무래도 보안적인 부분이 고려되어서 만들어 놓으신 허깅페이스 코드로 embedding을 하고 싶은데, 자료를 올리고 질문을 하면 AssertionError 가 나옵니다. 짧은 시간에 생성까지는 했는데, 이 부분에서 막혀서 이렇게 댓글 남겨봅니다! 그리고 임베팅을 OpenAI로 하는건 보안은 괜찮을까요? API는 OpenAI는 학습데이터로 쓰지 않는다고는 하는데, 아무래도 개인정보가 들어간다면 무시할 수 없을 것 같은 부분이라 여쭤봅니다.
@teddynote
@teddynote 3 месяца назад
네 오류가 나는 부분은 디스코드에 남겨주시면 메시지 보고 답변 드릴 수 있을 것 같아요. 댓글로 남겨 주셔도 좋구요~ openai embedding 은 괜찮다고 생각하는데요. api 써서 모델 답변 받는 건 아무래도 보안이 걱정되실 수 있죠. 만약 이 부분이 걱정이시라면 로컬 모델로(llama3, eeve korean) 다운 받아서 진행하셔야 되지만 GPU 인프라 구축은 동반되어야 원하시는 출력이 나오실꺼에요! 참고하십쇼^^
@cklee4069
@cklee4069 3 месяца назад
@@teddynote 아, 추가로 말씀 드리면 Nvidia 카드가 있어 cuda로 셋팅 하고 공유 주신 EEVE Korean으로 사용했습니다. 응답의 퀄리티가 생각보다는 좋아서 더 사용해보고 싶었습니다. 다만 embedding을 OpenAI로 하면 올리는 데이터가 똑같이 OpenAI로 넘어가는 것 같아 걱정되어서 만들어놓으신 USE_BGE_EMBEDDING = True로 하고 사용했더니 에러가 난거였습니다!
@teddynote
@teddynote 3 месяца назад
@@cklee4069 네~ 그러시군요. 이해했습니다. 오류는 세부로그가 없으면 구체적으로 원인을 알기가 어렵습니다. 유추해보자면 VRAM 메모리 부족일 수 있을 것 같아요 왜냐면 BGE 모델도 GPU에 올려야 하는데요 기존 LLM과 동시에 올라가려면 메모리 부족이 발생할 수 있을 것 같습니다~
@cklee4069
@cklee4069 3 месяца назад
@@teddynote CPU로 바꿔도 똑같은 에러가 나오네요, 여기까지 만족하겠습니다. 패스트 캠퍼스 강의 보면서, 하나하나 공부 해보겠습니다. 감사합니다. 월간 라이브도 잘하세요~
@teddynote
@teddynote 3 месяца назад
@@cklee4069 넵! 나중에 디스코드에 에러 남겨주심 한 번 볼게요~^^ 감사합니다
@user-yj1nt8kg5c
@user-yj1nt8kg5c 5 месяцев назад
테디님 늘 좋은 강의 감사 드립니다. 한 가지 질문이 있어 문의 드립니다. Streamlit 로컬 에서 구현 시, 혹시 한글 임베딩 관련해서 페쇄망인경우 추천 해주만한게 있을까요?? 밖에서는 잘 되었는데 폐쇄망인 곳에서는 PDF등록시에 계속 오류가 발생되어서요
@teddynote
@teddynote 5 месяцев назад
안녕하세요! 혹시 langserve github에 업로드된 streamlit 예제에서 bge-m3 임베딩 사용하는 예제가 있는데요. 폐쇄망에서도 문제 없이 잘 동작하고 pdf 도 문제 없이 잘 임베딩 되는데요. 한 번 확인해 보시겠어요? 소스코드 링크 남겨드립니다. github.com/teddylee777/langserve_ollama/blob/main/example/main.py
@teddynote
@teddynote 5 месяцев назад
만약에 폐쇄망에서 안되는 이유를 찾자면 허깅페이스에서 모델 다운로드 할 때 막혀있을 수는 있을 것 같습니다. 이 부분은 외부망에서 다운로드 받아 놓으시고 그 다음부터는 폐쇄망으로 진행해 보십쇼~!!
@마크점마저거
@마크점마저거 5 месяцев назад
제가 찾던 내용이네요 👍 👍 👍 입니다
@teddynote
@teddynote 5 месяцев назад
감사합니당👍👍
@찬빈-g4s
@찬빈-g4s 5 месяцев назад
좋은강의 잘 봤습니다!! 보던중 궁금한게 생겼는데 aws와 같이 리눅스환경에서도 이 영상과 같이 똑같이 따라하면 웹서버를 구축할 수 있을까요??
@teddynote
@teddynote 5 месяцев назад
넵 가능합니다! 방화벽 설정을 추가로 해야할 수는 있습니다!
@문영식-y3s
@문영식-y3s 2 месяца назад
잘봐써요~
@아리아님
@아리아님 2 месяца назад
안녕하세요 이번에 처음 딥러닝을 공부하는 사람입니다! 먼저 좋은 영상 남겨주셔서 정말 감사드립니다. 제가 vscode와 wsl 연동해서 사용하고 있는데 wsl에 깃허브에 있는 requirement를 설치하고 코드를 그대로 가져와서 server.py를 돌려서 playground에 들어가서 질문했는데 반응이 없더라구요 혹시 cuda를 wsl안에랑 아니면 윈도우 자체에 cuda를 둘다 설치 해야하나요? 아니면 xionic.py에 있는 api_key랑 관련 있는건가 해서요!
@hyungsungshim5714
@hyungsungshim5714 5 месяцев назад
감사합니다!!
@teddynote
@teddynote 5 месяцев назад
감사합니다~🙏
@ikkkiaffgesk
@ikkkiaffgesk 5 месяцев назад
너무 좋은강의 감사드립니다. 원격으로 서비스 하는 방법에 대해서 고민했는데 큰 도움이 되었습니다. 이 구성으로 폐쇄망에서 폐쇄망 내부로 서비스가 가능할까요?( 이건 당연히 제가 테스트 해봐야 하는건데 아직 실력이 안되어서 질문드리네요 ...) 그리고 M3 사양이 어떻게 되나요? 생각보다 응답 속도가 너무 빠른데요!!
@teddynote
@teddynote 5 месяцев назад
폐쇄망끼리는 서로 통신이 되면 문제 없을껍니다. 다만 이때 ngrok 대신 내부 아이피를 사용해야 하고요 방화벽이 해당 포트에 대해 열려 있어야 합니다. M3 정말 빠르더라구요! 맥북 프로 M3 gpu 업그레이드 한 CTO 사양입니다. 굳이 맥북 아니더라도 양자화 모델이라서 GPU 달린 노트북이라면 어느정도 답변 속도는 빠른편입니다^^
@iamcan13
@iamcan13 5 месяцев назад
잘봤습니다. m3 max 성능도 상당하네요!
@teddynote
@teddynote 5 месяцев назад
만족스럽습니다😍
@바오-c3p
@바오-c3p 2 месяца назад
영상 답변 감사합니다ㅜ 혹시 gpu를 꼭 써서 호스팅해야 한다면 3090정도는 되어야 할까요?
@teddynote
@teddynote 2 месяца назад
vram 은 넉넉할 수록 좋습니다~ 어떤 모델이냐에 따라서 충분할 수도 혹은 부족할 수도 있을 것 같아요. 여기서 직접 계산해 보실 수 있어요 huggingface.co/spaces/NyxKrage/LLM-Model-VRAM-Calculator
@mingyukang6592
@mingyukang6592 5 месяцев назад
local에서 ollama를 사용하는 경우에도 비용이 발생하는 건가요? 만약 비용이 발생한다면, 비슷한 형식으로 한글 기반 서비스를 하고자 할때 license free로 사용해볼만한 모델 추천 부탁드려요.
@teddynote
@teddynote 5 месяцев назад
비용이 발생하지 않기 때문에 Ollama 에 사람들이 관심을 많이 가집니다. 오픈되어 있는 모델을 다운로드 받아서 구동하는 개념이구요. 다만, 컴퓨터에서 돌리게되면 전기를 많이 잡아먹어서 전기료 정도? 발생한다고 보시면 됩니다. 오늘 공유드린 EEVE 모델 추천 드립니다. 개인이 사용하는 것은 자유롭고, Apache-license 로 표기되어 있기는 한데요. 상업적인 이용이 궁금하시면 이 부분은 원저작자인 yanolja 개발팀에 문의해보시는 것이 정확할 것 같습니다~
@Enosh6079
@Enosh6079 3 месяца назад
좋은 강의 공유해 주셔서 너무 감사합니다. 잘 활용하고 있는데요. 한 가지 궁금한 것이 있습니다. lang serve를 구동한 후에 처음 질문할 때 시간이 좀 걸리데, 혹시 cold start 문제일까요? 두번째부터는 응답이 느리지 않습니다.
@teddynote
@teddynote 3 месяца назад
로직에서 처음 체인을 만들때 시간이 걸릴 수 있습니다. 서버 구동하면서 체인 만들어 놓으시면 지연시간을 줄여보실 수 있습니다^^
@iopp6090
@iopp6090 2 месяца назад
좋은 영상 감사합니다! 혹시 RAG를 적용 했을 때 속도가 많이 느려지는데 chunk를 나누는 과정을 추가하면 개선이 될까요??
@teddynote
@teddynote 2 месяца назад
속도는 vector db를 바꿔보시는 것이 좋습니다!
@iopp6090
@iopp6090 2 месяца назад
@@teddynote 감사합니다! 테디님! 몇 가지 궁금증이 있습니다...! 1. RAG를 사용해서 gpt4 처럼 웹 접근 결과를 기반으로 응답을 내는 것이 가능한가요? 2. 도큐먼트 리트리버로 응답을 생성하는 경우 도큐먼트의 내용이 아닌 경우 일반 모델을 사용하는 방법이 있을까요?
@teddynote
@teddynote 2 месяца назад
@@iopp6090 네 두가지 케이스 모두 가능합니다. 1번은 웹검샛 도구를 붙이면 되고요! 2번도 구현 가능합니다~
@WhiteHat7
@WhiteHat7 5 месяцев назад
양자화 모델에서는 VRAM 12G 정도에서도 원활하게 돌릴수 있나요?
@teddynote
@teddynote 5 месяцев назад
제가 테스트 해본 환경이 mac 이라 단순 비교가 어렵겠지만 12G충분히 돌아갈 것 같습니다!
@김민수-b6m7e
@김민수-b6m7e 4 месяца назад
안녕하세요! 좋은 영상 잘 봤습니다 이렇게 하면 사내 서버에 설치된 올라마를 통해서만 동작하는거죠? 외부와의 연결점(보안상 문제 관련)은 없는거죠?
@teddynote
@teddynote 4 месяца назад
네 사내에서 동작 가능하구요 프록시도 설정 가능합니다~ 보안은 모델 자체의 문제보다는 연결시 보안 설정만 잘 해주시면 문제 없을 것 같습니다^^
@yjshon4352
@yjshon4352 4 месяца назад
윈도우에서 cuda 설정하는 방법 알 수 있을까요. main.py에서 model_kwargs = {"device": "cuda"} 로 했지만 CPU를 사용하고 있어 질문드립니다 ㅠㅠㅠ
@teddynote
@teddynote 4 месяца назад
우선 윈도우에서 CUDA 설정이 되어 있으셔야 model_kwargs = {"device": "cuda"} 이걸 사용하실 수 있어요. 구글에 "Windows CUDA 설치" 키워드로 검색하셔서 설치 먼저 해보십쇼!!
@yjshon4352
@yjshon4352 4 месяца назад
답변 감사드립니다 맥은 다른 설정 없이 가능했는데 윈도우믄 별도로 설치가 필요하군요. 설치 진행해보겠습니다.
@컹스컹-d9j
@컹스컹-d9j 5 месяцев назад
질문 하나만해도 gpu가 100%가 되어버리네요 만약애 gpt3처럼 서비스를 하려고한다면 컴퓨터가 무수하게 많이 필요할까요?
@teddynote
@teddynote 5 месяцев назад
VRAM을 더 큰 GPU를 사용할 수 있고요 정말 사용자가 많다면 더 많은 장비가 필요할 수 있어요. 클라우드 서비스를 이용하면 손쉽게 확장할 수 있을 것 같습니다! 그런데 돈은 많이 들죠 ㅜ
@moonlinks
@moonlinks 4 месяца назад
정말 감사합니다. 보여주신 대로 따라하기 코딩 하여 진행하였습니다.!!! 다시 한번 테디 님께 감사 드려요!! 다른 것들은 잘 진행 되었습니다. 최종으로 streamlit 에서 안되고 있어요. 윈도우 환경에서 진행해서 그런지 최종 streamlit 에서 pdf 문서를 등록하니 "PDFInfoNotInstalledError: Unable to get page count. Is poppler installed and in PATH?" 에러가 발생하여 poppler 를 설치 하고 환경변수에 등록 했지만 아직 오류를 해결 못하고 있습니다. 다른 윈도우 환경에서 작업하는 분들은 잘 되시나요?
@teddynote
@teddynote 4 месяца назад
poppler 윈도우 설치 가이드 아래 링크 한 번 참고해 보세요!! blog.naver.com/kiddwannabe/222464734713
@박현호-d3d
@박현호-d3d 5 месяцев назад
강의 정말 잘 봤습니다. 마지막 streamlit 에서 구동할때 답변이 다 완성된 후에 나오는 것 말고 stream 형식으로 나오게 하는 방법도 설명해 주시면 감사라겠습니다(runnable 형태에서요)
@teddynote
@teddynote 5 месяцев назад
소스코드에 바로 업데이트 해놨습니다^^
@박현호-d3d
@박현호-d3d 5 месяцев назад
Expected response header Content-Type to contain 'text/event-stream', got 'application/json' 변경하신 코드로 해보니 이런 메시지가... 뜨네요ㅠㅠ
@teddynote
@teddynote 5 месяцев назад
아마 도메인끝에 llm 안 붙혀서 그런 것 아닐까요? llm붙여보세요~
@teddynote
@teddynote 5 месяцев назад
@@박현호-d3d 방금 소스코드에 주석 상세히 붙여서 코드 업데이트 해놨으니 참고해 보세요~
@박현호-d3d
@박현호-d3d 5 месяцев назад
@@teddynote 늦은시간까지 답변주셔서 감사합니다 ☺️
@Jbleeok
@Jbleeok 4 месяца назад
멋지네요. 그런데, cmd에서 실행하면 확실히 빠르고 gpu 100% 먹는데, python server.js 하면 대답도 느리고 gpu 사용량도 안올라가는데 이유가 무엇일까요?
@netan81
@netan81 4 месяца назад
앗 저도 이거에 막혀서 이것저것 찾아보는 중인 ㅠ_ㅠ CUDA 설정 server.py에 필요한거 같은데 어디다 해야할지 모르겠네요;;
@teddynote
@teddynote 4 месяца назад
cuda 설정이 잘 되어 있는지 확인해 보시겠어요?
@netan81
@netan81 4 месяца назад
앗 이것저것 하다가 해결되었네요. 1. CUDA재설치(설치내용 자세히 보니 1개만 설치완료되고 나머진 전부 실패였음;;;) 2. 내장그래픽카드 바이오스 상에서 사용 안함 그나저나 특이하게 CMD상에서 llama3:70B는 cpu로 동작하네요. 작은모델은 GPU로 동작하는데;;;
@teddynote
@teddynote 4 месяца назад
@@netan81 70B 어떤 양자화 모델을 사용하였는지는 모르겠지만 vram 메모리가 GPU 1장으로는 감당하기 어려운 사이즈라면 못 올릴껍니다 ㅜ
@user-jangsahara
@user-jangsahara 3 месяца назад
하이퍼 클로바 X를 유료 사용중입니다. 해당 LLM을 api 연동해서 RAG로 돌리는 시스템을 만들려고하는데 올라마로 로컬 서버 구동하고 AnythingLLM으로 RAG 연동 가능할까요? 혹시 요런 프로세스 생각해 보실수 있으실까요~?
@teddynote
@teddynote 3 месяца назад
api로 연동하시면 랭체인으로 모델만 하이퍼클로바로 간단하게 교체 가능합니다 :) GPT대신 하이퍼 클로바를 사용하는 개념이에요. anythingLLM으로는 어려울 수 있습니다. 클로바가 연동이 안되어 있기 때문에요~
@user-jangsahara
@user-jangsahara 3 месяца назад
@@teddynote 오, 답변 감사드림니다ㅡ 테디님, 그러면 혹시 랭체인으로는 하이퍼클로바 모델로RAG를 생성해 볼수 있을까요?
@teddynote
@teddynote 3 месяца назад
@@user-jangsahara 예 맞습니다. GPT4 대신 하이퍼클로바로 바꾸기만 하면 RAG 가능합니다. 같은 원리로 anthropic 의 클로드 모델, 미스트랄, 라마 등 수백가지 모델을 교체하여 테스트도 가능합니다~
@nbright3700
@nbright3700 5 месяцев назад
좋은 강의 덕분에 로컬 RAG시스템을 구축하였습니다. 질문이 있는데요. Runnable을 쓸때 , 답변으로 참조 문서를 받을 수 있는 방법이 있나요? ConversationalRetrievalChain에서 return_source_documents=True 요 옵션으로 result['source_documents'] 이렇게 받았었는데 Runnable에서 PromptTemplate에 추가를 해줘 봤는데, 자꾸 에러가 떠서 어떤 참고 할 만한 방법이 있을까요?
@teddynote
@teddynote 5 месяцев назад
답변에 참조 받을 수 있어요. 프롬프트에 답변에 참조를 포함해 달라는 요청을 하게 되면 답변 문자열에 참조가 포함되어서 나오기도 하구요. key 값으로 받고자 한다면, json output parser 를 사용하는 방법도 있습니다. 위키독스에 json output parser 로 검색해서 튜토리얼 참고하시면 좋을 것 같아요~!
@nbright3700
@nbright3700 5 месяцев назад
감사합니다. 일단 따로 쿼리 날려서 검색해서 찾아 내었습니다. 알려주신 부분도 해보겠습니다.
@바오-c3p
@바오-c3p 2 месяца назад
지금 보니까 이런 Llm 호스팅은 가격이 어마어마하던데... chatgpt를 파인튜닝시켜서 서비스를 런칭하는 것과 이렇게 따로 서버에 띄워서 할경우 비용 절감은 어느쪽이 더 나을까요?
@teddynote
@teddynote 2 месяца назад
ChatGPT를 파인튜닝 하는 것은 권장드리지는 않고 있어요. 이유는 우리가 생각하는 것처럼 결과가 나오지 않고 비용이 비싼 것도 단점이고요. 베이스 모델도 3.5 기반입니다. 비용 절감만 생각하시면 파인 튜닝 말고 그냥 GPT api 사용하시는게 낫구요. 사용량이 많아지면 그 때는 호스팅 비용이 더 싸게 먹힐 수 있습니다
@띵콩-j2d
@띵콩-j2d 2 месяца назад
테디님, local 환경을 colab으로 두고 EEVE 모델 받을 수 있나요?
@teddynote
@teddynote 2 месяца назад
코랩에사는 구동하기 어렵기 때문에 PC에서 해보세요!
@이꼼시
@이꼼시 5 месяцев назад
윈도우 사용자입니다. ollama run EEVE-Korean-10.8B:latest을 실행하면 llama runner process no longer running: 1 error:failed to create context with model 이라는 오류가 뜨는데, 뭐가 문제일까요?ㅠㅠ
@teddynote
@teddynote 5 месяцев назад
ollama 가 구동 중이어야 하는데 어떤 이유에선지 실행중이 아니라는 메시지 같아요. 먼저 ollama serve 로 구동시켜 놓고 새로운 터미널에서 ollama run 명령어 실행해 보세요!
@이꼼시
@이꼼시 5 месяцев назад
​@@teddynote ollama serve 구동 후에 ollama run을 실행해봤더니 ollama serve를 구동했던 터미널에 아래와 같은 오류 메시지가 뜹니다..ㅠㅠ ggml_backend_cuda_buffer_type_alloc_buffer: allocating 384.00 MiB on device 0: cudaMalloc failed: out of memory llama_kv_cache_init: failed to allocate buffer for kv cache llama_new_context_with_model: llama_kv_cache_init() failed for self-attention cache llama_init_from_gpt_params: error: failed to create context with model 'C:\Users\Commeci\.ollama\models\blobs\sha256-2ede7a0e79157cecbdd6f6890d6a463e73d8b05040330bfd2fce53bb39b47e28' {"function":"load_model","level":"ERR","line":410,"model":"C:\\Users\\Commeci\\.ollama\\models\\blobs\\sha256-2ede7a0e79157cecbdd6f6890d6a463e73d8b05040330bfd2fce53bb39b47e28","msg":"unable to load model","tid":"19392","timestamp":1714406828} time=2024-04-30T01:07:08.795+09:00 level=ERROR source=routes.go:120 msg="error loading llama server" error="llama runner process no longer running: 1 error:failed to create context with model 'C:\\Users\\Commeci\\.ollama\\models\\blobs\\sha256-2ede7a0e79157cecbdd6f6890d6a463e73d8b05040330bfd2fce53bb39b47e28'" 구글링 해봐도 해결법이 나오지 않네요..ㅜㅜ
@teddynote
@teddynote 5 месяцев назад
@@이꼼시 메모리가 부족하다는 에러인 것 같아요. 이미 GPU 가 다른 프로세스에서 사용하고 있어서 가용할 수 있는 메모리가 작아서 에러났을 수 있습니다~
@이꼼시
@이꼼시 5 месяцев назад
@@teddynote 와아..ㅠㅠㅠㅠㅠ 진짜진짜 감사합니다!!!!!!!! 덕분에 해결했습니다!!!!!!! 늦은 시간까지 도와주셔서 감사합니다 ㅠㅠㅠㅠㅠ 항상 많은 도움 받고 있어요!ㅠㅠ
@T4innovation
@T4innovation 2 месяца назад
안녕하세요 테디님. 좋은 강의 항상 감사합니다. 혹시 인트라넷 같은 폐쇄망에서 호스팅 할 수 있는 방법도 있을까요?
@teddynote
@teddynote 2 месяца назад
네 인트나넷 같은 폐쇄망도 langserve 가능합니다~
@user-bj9lt7fg8c
@user-bj9lt7fg8c 4 месяца назад
gguf 파일까지 다운 받았고 Modelfile 만드는것 까지는 했는데 ollama create를 하니까 Error: command must be one of "from", "license", "template", "system", "adapter", "parameter", or "message" 가 발생하는데 원인이 뭘까요?
@user-bj9lt7fg8c
@user-bj9lt7fg8c 4 месяца назад
TEMPERATURE를 없애니까 해결되었습니다
@teddynote
@teddynote 4 месяца назад
옙 좋습니다 제가 temerature 빼고 업데이트 해놓을께요^^
@jkim6881
@jkim6881 4 месяца назад
@@user-bj9lt7fg8c 계속 안되서 댓글 보고 해결 했습니다!!! ㅠㅠ
@띵콩-j2d
@띵콩-j2d 2 месяца назад
테디님. ollama를 local이 아닌 aws 서버로 띄워서 쓴다면 비용이 많이 들겠죠..?
@teddynote
@teddynote 2 месяца назад
GPU 인스턴스 종류에 따라서 다를 것 같아요. 비용은 종량제로 발생하기 때문에 지속적인 비용은 발생합니다 ㅜ
@띵콩-j2d
@띵콩-j2d 2 месяца назад
@@teddynote 다른 open llm 사용해도 비용부담은 클수밖에 없겠네요..!
@루루-z4l
@루루-z4l 5 месяцев назад
오 주피터 도커 갖다썼었는데 익숙한 닉네임이다 싶었는데 테디님이 만드신거였군요! 커스텀 해서 잘 쓰고 있습니다 llm까지 ㅎㅎ 감사합니다 gpt api콜 비용 아낄수도 있으려나요 4090 전기세랑 비교를 해봐야 겠네요 ㅋㅋ 혹시 토큰 최대 인풋 아웃풋 길이가 어떻게 되는지 아실까요?
@teddynote
@teddynote 5 месяцев назад
저도 이부분은 찾아봐야 하는데요. 베이스 모델인 SOLAR 가 입출력 4096개 였던 것으로 기억합니다. 따라서, 아마도 4096개일 것 같습니다. 이건 저도 정확하지 않으니 한 번 테스트해 봐야지 정확히 알 수 있을 것 같아요! 여기 llm.extractum.io/model/upstage%2FSOLAR-10.7B-Instruct-v1.0,5KwUWNTl8dKlCxQ8QeQtzZ 에서 SOLAR 모델의 스펙은 확인해 보실 수 있어요~
@Happybitman
@Happybitman 4 месяца назад
@@teddynote❤
@jongminlee6691
@jongminlee6691 5 месяцев назад
안녕하세요, 정말 좋은 영상 감사합니다. 모두 다 성공했으나, stramlit 실행 후 PDF불러와서 질의할 때 계속해서 TypeError: 'CacheBackedEmbeddings' object is not callable 오류가 뜨네요... 혹시 해결방법을 알려주실 수 있으실까요?
@teddynote
@teddynote 5 месяцев назад
작성하신 코드도 남겨 주실 수 있을까요~?
@Tworiver-d5w
@Tworiver-d5w 3 месяца назад
단순 성능만 비교하면 그래도 gpt4 계열의 모델이 EEVE보다 많이 좋은가요? 한국어 기준으로요!
@teddynote
@teddynote 3 месяца назад
성능이 여러 부분을 포함하고 있지만 GPT4는 입력으로 받는 컨텍스트 길이가 128K로 eeve 의 4K대비 크기 때문에 RAG를 하실 때는 입력의 길이가 길면 좋으므로 GPT4가 좋다고 할 수 있습니다.
@김정민-b6c1o
@김정민-b6c1o 5 месяцев назад
10B이면 상당히 VRAM이 많이 필요할텐데 어떻게 맥북에서 돌아가나요? 아무리 MAX라고 해도?
@teddynote
@teddynote 5 месяцев назад
양자화 모델이라서 가능합니다!
@JihaoXu
@JihaoXu 3 месяца назад
감사합니다. 아낌없이 주시는 나무. 덕분에 한 번 돌려볼 수 있었어요! 근데, Langserve PlayGround UI가 휴대전화기에서는 짤리는데 해결방법이 있을까요?
@teddynote
@teddynote 3 месяца назад
아쉽지만 모바일 대응이 아직은 조금 부족한 것 같아요 수정은 가능한데요 아마 css 쪽을 직접 코드로 수정해야 할 것 같습니다 ㅜ 흑
@JihaoXu
@JihaoXu 3 месяца назад
@@teddynote 바쁘신데 댓글 감사해요. 임베더를 무료로 여러가지 돌려보는데 segmetation falut 가 나는데, OpenAI를 안 써서 그런 건지 궁금합니다. +, .cahe/files 안에는 잘 보이는데, FAISS 저장소에 잘 들어갔는지는 어떻게 확인하는지 궁금하네요. 초보라서.. ㅠ
@teddynote
@teddynote 3 месяца назад
@@JihaoXu FAISS 저장소에 잘 들어 갔는지는 일단 DB INDEX 를 저장한 다음에 생성된 INDEX 파일을 보고 유추할 수 있어요~ 근데 DB 파일이 index 와 pkl 로 되어 있어 우리가 그냥 열어보는 것은 어렵고요~ 어차피 임베딩된 숫자 표현으로 들어가있기 때문에 열어봐도 해석이 어려워요 결국 잘 들어갔는가는 retriever 가져와서 검색어를 날려서 DB 에서 조회가 잘 되는지로 확인해 보는것이 가장 간편합니다~
@heejuneAhn
@heejuneAhn 5 месяцев назад
감사합니다. ollama 로 돌린 것이랑 transformer 로 돌린 것이랑 성능 차이가 좀 있는지 찾아 봐야겠네요
@teddynote
@teddynote 5 месяцев назад
양자화 모델이기 때문에 양자화 수준에 따라 약간의 성능 차이가 발생할 수 있습니다~
@Withipad
@Withipad 4 месяца назад
너무 잘봤습니다. 다름이 아니라 궁금한게 있는데요... 윈도우에서도 되는 건가여?
@teddynote
@teddynote 4 месяца назад
네 가능합니다!
@Withipad
@Withipad 4 месяца назад
너무 설명이 잘되어있어서 rag전까지는 성공을 하였습니다. 그 rag를 하려면 임베딩을 openai로 한다고 하고 다른걸로 할수도 있다고 하셨는데 오픈소스로 되어있는것이 뭐가 있을까요?
@teddynote
@teddynote 4 месяца назад
@@Withipad 허깅페이스에 bge-m3 임베딩이 있습니다~ 한글 처리 능력도 우수한 편입니다
@Withipad
@Withipad 4 месяца назад
@@teddynoteㅠㅡㅠ 감사드립니드
@Withipad
@Withipad 4 месяца назад
한가지만 마지막으로 질문드리려고 합니다.. 그 오프라인 환경에서는 절대 진행할수없는 프로젝트인가요?? Server.py를 오프라인에서 실행시켰더니, 에러가 뜨더라구요 랭체인 모듈에서 온라인으로 가져오는게 있는것 같던데용..
@hyunbaek4917
@hyunbaek4917 5 месяцев назад
안녕하세요 영상 감사합니다. 생 초보가 따라하려고 하는데, 싸이트에서 GGUF 파일 받아, Modelfile 만드려는데, 자꾸 에러가 나네요 modelfile 확장자가 yaml 맞나요? 메모장에서 확장자를 yaml로 저장했습니다. cmd 창에서 Modelfile 있는 폴더가서 "ollama create EEVE -f Modelfile 로 하면 파일을 못찾겠다고 하고, Modelfile.yaml 로 치면 "no FROM line for the model was specified" 라고 하는 에러가 계속 뜨네요.
@teddynote
@teddynote 5 месяцев назад
1. Modelfile 은 별도 확장자가 없습니다 그냥 확장자 없이 Modelfile 이라고 만드시면 됩니다~ 2. Modelfile 안에 내용을 입력해 주셔야 합니다 내용은 github.com/teddylee777/langserve_ollama/blob/main/ollama-modelfile/EEVE-Korean-Instruct-10.8B-v1.0/Modelfile 링크의 파일을 보시고 입력하시면 되는데요. 맨 위의 FROM 다음에 나오는 파일의 경로만 본인이 저장한 경로로 변경해 주시면 됩니다!
@hyunbaek4917
@hyunbaek4917 5 месяцев назад
@@teddynote 감사합니다. modelfile 을 확장자 없이 만든다는 말을 이해못했었는데, 메모장이 아니라 툴 이용해서 만드니까 되네요!
@PliBoy
@PliBoy 3 месяца назад
LLM모드에서 Chat모드로 어떻게 변경하나요...?
@ever4cys-ururu
@ever4cys-ururu 23 дня назад
주소가 /xionic/playground 로 되어 있으면 Chat 모드, /prompt/playground 로 되어 있으면 LLM 모드인 듯 하네요.
@양승모-d3h
@양승모-d3h 2 месяца назад
윈도우 기준으로도 설명해주실수 있을까요?
@teddynote
@teddynote 2 месяца назад
제가 윈도우가 없어서요 ㅜㅜ
@teddynote
@teddynote 2 месяца назад
윈도우라고 딱히 다른 점은 없을 것 같아요^^
@이드니
@이드니 4 месяца назад
안녕하세요. 항상 자료 감사히 보고 있습니다! 덕분에 LLM 도 손쉽게 호스팅이 가능하다는걸 알게 되었는데요. 혹시 임베딩 모델도 ollama - langserve 조합으로 remote 가 가능할까요? 가능하다면 한국어가 잘되는 임베딩 모델로 예시) db = Chroma(..., embedding_function=RemoteEmbedding("주소/embedding/", ...)
@teddynote
@teddynote 4 месяца назад
가능해요. 아래의 코드를 참고 해 주세요 from langchain_core.runnables import RunnableLambda embedder = HuggingFaceEmbeddings(...) runnable_embedder = RunnableLambda(afunc=embedder.aembed_documents) add_routes(app, runnable_embedder) 깃헙 이슈에 올라온 내용도 같이 참고하시면 좋아요 github.com/langchain-ai/langserve/discussions/383
@이드니
@이드니 4 месяца назад
정말 감사합니다ㅠ 제한된 환경이라 api 방식 밖에 사용 못했는데 덕분에 여러가지 로컬모델도 시도해볼수 있겠네요!!😊
@phillipkorea1
@phillipkorea1 5 месяцев назад
아직 오류가 너무 많네요
@JeongminYoo-rc5bl
@JeongminYoo-rc5bl 4 месяца назад
혹시 ollama 아래 에러는 왜 뜨는건지 아실까요? 구글링해도 잘안나오네요 ValueError: Ollama call failed with status code 500. Details: {"error":"llama runner process no longer running: -1 CUDA error: the provided PTX was compiled with an unsupported toolchain. current device: 0, in function ggml_cuda_compute_forward at /root/parts/ollama/build/llm/llama.cpp/ggml-cuda.cu:2212 err GGML_ASSERT: /root/parts/ollama/build/llm/llama.cpp/ggml-cuda.cu:60: !\"CUDA error\""}
@teddynote
@teddynote 4 месяца назад
llama cpp 로 실행하셨나요?
@JeongminYoo-rc5bl
@JeongminYoo-rc5bl 4 месяца назад
@@teddynote 아뇨 처음엔 ollama pull로 땡겨오다가 저 에러가 뜨길래 영상 방식대로 GGUF에서 가져왔는데 똑같은 상황입니다. CUDA 버전문제일까요? 참고로 12.2 버전입니다.
@teddynote
@teddynote 4 месяца назад
@@JeongminYoo-rc5bl CUDA 버전 문제일 수 있어요. 지원하는 CUDA 버전 한 번 확인해 보시고 지원하는 버전으로 한 번 설치해 보시겠어요?
@배부른곰이
@배부른곰이 5 месяцев назад
재현방법: ollama create 실행시 에러발생: Error: unknown parameter 'TEMPERATURE' 해결: Modelfile-V02을 참고, Modelfile의 TEMPERATURE을 temperature 로 변경
@teddynote
@teddynote 5 месяцев назад
감사합니다👍
@두뇌트레이닝-o8g
@두뇌트레이닝-o8g 4 дня назад
로컬 rtx 4060 8기가로 테스트하면 엄청 느린데 맞는거죠? ㅠ
@teddynote
@teddynote 4 дня назад
혹시 CUDA 설정이 되어 있으실까요~? 안되어 있는 경우 느릴 수 있어요 (CPU 사용)
@두뇌트레이닝-o8g
@두뇌트레이닝-o8g 4 дня назад
@@teddynote 어떻게 하면 cuda를 사용하는지 간단하게 알려주실 수 있으신가요
@teddynote
@teddynote 3 дня назад
@@두뇌트레이닝-o8g cuda 를 이용하기 위해서는 설치 과정이 필요한데요! 블로그에 검색해 보시면 관련 자료가 많이 나옵니다. GPU 버전에 맞는 CUDA를 설치하시면 GPU가 정상적으로 작동합니다. 예시 링크 공유 드릴께요~ velog.io/@sxngwxx/%EC%9C%88%EB%8F%84%EC%9A%B0Windows-CUDA-cuDNN-%EC%84%A4%EC%B9%98
@hunkims
@hunkims 5 месяцев назад
설명 너무 잘 들었습니다. 멋진 강의입니다!
@teddynote
@teddynote 5 месяцев назад
제 눈을 의심했습니다! 존경하는 교수님께서 댓글 달아주시니 영광입니다. 교수님의 모두를 위한 딥러닝 듣고 많이 배웠습니다. 감사합니다🙏🙏
@구봉-j5t
@구봉-j5t 5 месяцев назад
오 이 댓글은 정말 귀하네요
@user-iy5yx7zy9v
@user-iy5yx7zy9v 5 месяцев назад
영상 뚝뚝 끊기며.. 로컬임을 입증..
@teddynote
@teddynote 5 месяцев назад
😭
@brain.trinity
@brain.trinity 5 месяцев назад
모델을 ollama에서 run하고 serve하면 옵시디언의 Text Generator이나 Copilot같은 곳에서도 모델 이용하는것도 해보셨나요!
@teddynote
@teddynote 5 месяцев назад
네 방금 말씀해 주셔서 해봤는데~ 꽤나 잘 동작합니다! 아이디어 주셔서 감사합니다. 그리고 브라이언님 덕분에 옵시디언 입문해서 너무나 잘 활용하고 있습니다~ 앞으로도 꿀팁 얻으러 자주 가겠습니다~^^
@juanfortube
@juanfortube 5 месяцев назад
cuda는 미리 설치해야 gpu가 작동하는건가요? cuda설치없으니 gpu가안도눈거같아서요
@teddynote
@teddynote 5 месяцев назад
맞습니다 cuda는 설치되어야 gpu 잡아서 동작합니다!
@nitial
@nitial 3 месяца назад
테디노트님 전에 테디노트님영상에서 봣는데 그 llm 선택해서 사용할수있는 프로그램이름이 기억이안나요,. 찾지도못하겠고...챗gpt선택하면 api 키넣고 로컬구동가능한 라마같은거 선택하면 라마알아서 다운받아서 쓰고 그런프로그램이었는데. 이런프로그램을 많이써야 더 좋아진다 뭐이런말하셧던걸로기억합니다.
@teddynote
@teddynote 3 месяца назад
LM Studio 가 로컬에서 다운로드 받아서 구동하는 프로그램이구요! Anything LLM 은 RAG 단계별 모듈 선택하여 구동할 수 있는 프로그램 입니다!
@nitial
@nitial 3 месяца назад
@@teddynote 감사합니다!!
@에반-d3q
@에반-d3q 5 месяцев назад
혹시 EEVE-Korean과 LLaMA3하고 연동할 수 있는 방법이 있을까요??
@teddynote
@teddynote 5 месяцев назад
모델은 보통 둘 중 하나를 택1 하여 선택하여 진행하는 것아 일반적입니다. 보통은 둘 다 테스트 해보고 더 나은 모델은 택 1 합니다만, LLM 라우팅이라는 방식도 있습니다. 코드에 관련한 내용은 llama 가 한국어 질문은 eeve 가 답변할 수 있도록 할 수 있어요~
@TV-it3ni
@TV-it3ni 24 дня назад
결제했습니다 ㅋ 열심히 해볼게요
@teddynote
@teddynote 24 дня назад
감사합니다 ㅠ 앞으로 도움이 되는 콘테츠 열심히 제작하겠습니다!
@전현빈-j1p
@전현빈-j1p Месяц назад
안녕하세요 :) 구글링과 gpt를 써봐도 해결이 안되어서 질문드립니다,,ㅠ 10:29 ollama create 을 하면 command must be one of "from", "license", "template", "system", "adapter", "parameter", or "message" 에러가 나오는데 해결법을 아실까요..?ㅜㅠ
@teddynote
@teddynote Месяц назад
프롬프트 템플릿은 혹시 수정 없이 그대로 사용하셨을까요? 아이면 수정을 하셨을까요? 만약 수정하셨다면 작성하신 템플릿을 공유해 주시겠어요~?
@전현빈-j1p
@전현빈-j1p Месяц назад
@@teddynote ollama create EEVE-Korean-10.8B -f EEVE-Korean-Instruct-10.8B-v1.0-GGUF/Modelfile 이렇게 그대로 사용하였습니다!
@전현빈-j1p
@전현빈-j1p Месяц назад
@@teddynote 알려주신 프롬프트 템플릿 수정 없이 했습니다!
@naratteu
@naratteu 5 месяцев назад
--local-dir-use-symlinks 가 기본값이 True이기때문에 False를 명시해야하는건가요? 그냥 다운로드하는건데 심링크가 굳이 어떻게 왜 연결되는건가용?
@naratteu
@naratteu 5 месяцев назад
없으면 일단 ~/.cache/~ 경로로 간 후에 심링크를 거는군용
@teddynote
@teddynote 5 месяцев назад
True로 설정하면 파일 크기에 관계없이 심볼릭 링크가 생성됩니다. False로 설정하면 파일이 캐시에서 복제되거나(이미 존재하는 경우) 허브에서 다운로드되어 캐시되지 않습니다!
@휑-d8k
@휑-d8k 3 месяца назад
Modelfile에 'TEMPERATRUE 0' 이 부분을 넣으면 ```Error: command must be one of "from", "license", "template", "system", "ada``` 이런 에러가 뜨고 그 부분을 빼야 정상작동하는데 이유가 뭘까요?
@teddynote
@teddynote 3 месяца назад
오타가 있어서요~ temperature 0 으로 설정하시면 됩니다~
@휑-d8k
@휑-d8k 2 месяца назад
@@teddynote temperature 0 으로 넣어도 같은 에러가 뜨네요. 지우니까 해결은 되는데 이유를 아무리 검색해도 안 나와서 의견 여쭙고 싶습니다
@teddynote
@teddynote 2 месяца назад
@@휑-d8k temperature 템플릿에 옵션에서 빠져서 그럴 수도 있어요 빼고 하셔도 나중에 지정 가능하기 때문에 빼고 진행하시면 됩니다~
@Leo-zd1nn
@Leo-zd1nn 5 месяцев назад
훌륭한 강의 고맙습니다. 덕분에 맥북으로 로컬에서 빠르게 테스트해볼 수 있었습니다!
@teddynote
@teddynote 5 месяцев назад
축하드립니다!!👍
@루루-z4l
@루루-z4l 5 месяцев назад
감사합니다.
@teddynote
@teddynote 5 месяцев назад
아이쿠 이렇게 큰 금액을...😭 감사합니다. 맛있는 거 사먹겠습니다😍
@공공-p2v
@공공-p2v 4 месяца назад
AI 초보인데요, Ollama가 LLM인데 EEVE 모델이 왜 필요한지 궁금하네요
@teddynote
@teddynote 4 месяца назад
네~ ollama는 llm이 아니고 llm을 구동하는 프로그램 입니다. EEVE가 llm입니다~
@공공-p2v
@공공-p2v 4 месяца назад
@@teddynote 아~~감사합니다
@no-jv9eb
@no-jv9eb 5 месяцев назад
이걸 할려고 했었는데 정말 감사합니다.^.^
@teddynote
@teddynote 5 месяцев назад
👍👍 감사합니다~
@changjunlee2759
@changjunlee2759 5 месяцев назад
오늘도 좋은 내용이네요. 감사합니다. 혹시 프로젝트 하실 의향은 없으신가요?
@teddynote
@teddynote 5 месяцев назад
어떤 프로젝트인지 간략하게 말씀해 주실 수 있으시다면 teddylee777@gmail.com 이쪽으로 보내주시면 감사드리겠습니다🙏🙏
@changjunlee2759
@changjunlee2759 5 месяцев назад
@@teddynote 적절한 시점에 연락드려 보겠습니다.
@Enosh6079
@Enosh6079 3 месяца назад
올려주시는 강의를 통해 정말 많은 도움을 받고 있습니다. 그런데 한 가지 궁금한 것이 있습니다. rag chain 과 MessageHistory를 함께 사용하려고 하니까 에러가 나는데요. 사용법을 잘 몰라서 이렇게 문의드립니다. 소스 코드는 아래와 같습니다. chain = ( { "context": retriever | format_docs, "question": RunnablePassthrough(), } | prompt | llm ) response = chain.invoke(user_input) rag 체인을 추가하고 message history는 추가하지 않는 경우- 잘 동작합니다. 그런데, 아래와 같이 message history를 추가 하면 에러가 나더라구요... chain = ( { "context": retriever | format_docs, "question": RunnablePassthrough(), } | prompt | llm ) chain_with_memory = ( RunnableWithMessageHistory( # RunnableWithMessageHistory 객체 생성 chain, # 실행할 Runnable 객체 get_session_history, # 세션 기록을 가져오는 함수 input_messages_key="question", # 입력 메시지의 키 history_messages_key="history", # 기록 메시지의 키 ) ) response = chain_with_memory.invoke( {"question": user_input}, config={"configurable": {"session_id": "abc123"}} )
@teddynote
@teddynote 3 месяца назад
혹시 chatprompttemplate 도 올려주실 수있나요?
@teddynote
@teddynote 3 месяца назад
참고로 디스코드 채널에 질문 남기시면 더 빨리 답변 받으실 수 있어요^^
@Enosh6079
@Enosh6079 3 месяца назад
@@teddynote prompt = ChatPromptTemplate.from_messages( [ ( "system", """You are an expert in perfumes. Use the following pieces of retrieved context to answer the question. If you don't know the answer, just say you don't know: {context} """, ), # 대화 기록을 변수로 사용, history 가 MessageHistory 의 key 가 됨 MessagesPlaceholder(variable_name="history"), ("human", "{question}"), # 사용자 입력을 변수로 사용 ] ) 위와 같습니다.
@teddynote
@teddynote 3 месяца назад
@@Enosh6079 chain = ( { "context": itemgetter("question") | retriever | format_docs, "history": itemgetter("history"), "question": itemgetter("question")), } | prompt | llm ) 로 바꿔주시고 from operator import itemgetter 상단에 추가해 주시고요. 실행해 보세요~^^
@Enosh6079
@Enosh6079 3 месяца назад
@@teddynote 디스코드 채널이 어딘지 알려주세요~
@백승근-d1g
@백승근-d1g 5 месяцев назад
영상 몇 일 동안 돌려보면서 간신히 따라해보았습니다. 정말 훌륭한 강의 감사합니다. ^^ 혹시 강의 이후에 한글 embedder로 rag 성능 비교를 해보신 적이 있을까요? embedder를 변경하는 것으로도 성능차이가 많이 나지는 않을까 궁금해서 질문드려 봅니다. 그리고 혹시 한국어 embedder로 추천해주실 만한 것이 있을까요?
@teddynote
@teddynote 5 месяцев назад
임베더를 어떤 임베더를 사용하느냐에 따라서 성능 차이가 있을 수 있습니다. 따라서, 직접 변경해 보시면서 테스트 해보시는 것이 중요한 과정 중에 하나라고 볼 수 있습니다. 공개된 무료 임베더 중에서는 BGE-M3 임베딩 괜찮은 것 같습니다!
@plannedhappenstance7594
@plannedhappenstance7594 5 месяцев назад
@@teddynote 감사합니다. 말씀해주신 임베더를 포함해서 다양하게 시도해보겠습니다^^
@SeunggeunBaeck-ou4qf
@SeunggeunBaeck-ou4qf 3 месяца назад
​​​@@teddynote말씀해주신 bge-m3 로 계속 임베딩 해서 레그 구성 중입니다. 임베딩의 정확도 문제는 잘 안느껴지는데 매번 질문 하나 입력할 때 마다 답변을 생성 중입니다라는 문구가 나타나기 전까지 5초 가량 로드를 계속 합니다. 마치 매번 질문 할 때마다 임베딩 모델을 로드하는 느낌이 드는데 뭐가 문제일까요? 임베딩을 cpu와 cuda로 바꿔 봐도 같은 속도가 걸립니다. ㅠㅜ gpu는 3090을 사용합니다.
@SeunggeunBaeck-ou4qf
@SeunggeunBaeck-ou4qf 3 месяца назад
아무래도 open ai 처럼 임베더와 추론 모델이 같이 있는 시스템이 아니라서 일까요?
@teddynote
@teddynote 3 месяца назад
@@SeunggeunBaeck-ou4qf 질문도 임베딩을 해야하기 때문에 질문에 대한 임베딩 시간도 고려해야 합니다! gpu 사용률 체크해 보시면서 진짜 gpu를 활용한 추론 하고 있는지도 한 번 체크해 주세요^^
@nalgut6387
@nalgut6387 5 месяцев назад
야놀자의 한글모델로 번역하면 딥엘과 비교해서 어떤가요? ㅎㅎ
@teddynote
@teddynote 5 месяцев назад
일반 번역 수준은 훌륭합니다. 저는 나름 만족하면서 사용하고 있어요!
@bjkang70
@bjkang70 5 месяцев назад
감사합니다 :)
@teddynote
@teddynote 5 месяцев назад
네 저도 감사합니다 🙏
@다니엘-q7o
@다니엘-q7o 4 месяца назад
안녕하세요 영상 감사드립니다.^^ EEVE 모델을 상업용으로 사용해도 되나요?
@teddynote
@teddynote 4 месяца назад
apache 2.0 라이센스를 따릅니다. 상업용 사용이 가능하나 제약이 있으니 사전에 확인해 보세요^^
@jymoon-z1t
@jymoon-z1t 3 месяца назад
테디님! 영상보며 다른 모델도 적용해 보고있습니다. 샘플코드보니 라마3도 적용해 보신거 같은데 혹시 한글문제 없으셨나요? 한글답변이 안나오는건 아닌데 뭔가 품질이 떨어지기도 하고 시스템 프롬프트를 줘도 영어로 답변하기도 하고 그러네요^^;
@teddynote
@teddynote 3 месяца назад
에이전트 사용하면 한글 답변에 대하여 좀 품질이 떨어지는 건 사실 인것 같습니다. 8B에서는 확실히 그렇구요 70B 사용하니깐 확실히 좋습니다!
Далее
Дикий Бармалей разозлил всех!
01:00
titan tvman's plan (skibidi toilet 77)
01:00
Просмотров 4,4 млн
Дикий Бармалей разозлил всех!
01:00