현재 캐나다에서 대학에 다니고 있는 학생입니다만, 제 클라스 메이트가 Chat-GPT를 쓰고 적발 되었습니다(영어로 읽고 쓰기에 관련된 course). 하지만, 단지 지금은 이게 정확히 GPT로 썼다고 명확히(마치 기준법이 있듯이)증명할 방법이 없어서 최소 점수 같은것으로 넘어가는 분위기입니다만, 저도 사용해보았지만, 예를 들어서 뭔가를 설명한다고 했을때 GPT가 사용하는 단어는 굉장히 정해져 있습니다. demonstrate, illustrate, describe 이런 단어를 반복합니다. 하다 못해 뭔가를 주장하려고 한다고 글을 고쳐달라고 해도 같은 단어를 반복하죠. 그리고 개인의 주장문이나 이런것을 만드는것에는 굉장히 취약합니다. 하다못해, 글 전반을 강력한 주장으로 해놓았는데도, 결론 단락은 애매한 설명문으로 만들어놓죠. 또한 학교 과 특성상 Coding을 많이 하는데 흐음...아무런 지식기반이 없이 접근한다면 아무것도 못합니다. 만약에 어떤 부분이 작동을 안하고 에러가 나서 이 부분을 고쳐줘 라고 하면 다 될것이라고 하면 큰 착각입니다. 더 어렵고 복잡하게 만들어서 옆에서 고생하는 모습을 많이 보았습니다. 아 참고로 나의 생각은 이러하고 나의 주장은 이러하니까 나의 결론 단락을 써줘 라고 해줘도 그런 글의 전반적인 흐름이나 톤이나 이런것은 전부 날라가고 애매한 설명문으로 만들어집니다. 참고로 GPT-4를 많이 써보고 난 후의 경험입니다.. GPT-3.5써서 그런거 아니야? 라고 생각하시는분이 있을까봐 추가로 적어봅니다.
chat gpt가 꼭 나쁜점만 있는건 아니라고 봅니다. 제가 접근해본적이 없는 영역에 대해서는 책이나 서칭을 하는 시간을 단축시켜줄 수 있는 편리한 도구정도는 되지않을까 싶습니다. 도구는 도구일 뿐이기 떄문에, 절적하게 사용하려면 반드시 검증하는 절차를 밟아야합니다. 십년, 이십년, 삼십년 전에는 지식이 양이 한정되어 있었지만, 지금은 흘러 넘칩니다. 사람의 머릿속에 모든걸 다 집어넣을 순 없어요. 이런한 맥락에서 chat gpt를 사용하시면 좋을 것 같습니다. (저는 chat gpt가 좋다 나쁘다를 말하는게 아닙니다. chat gpt도 답하지 못하는 문제들이 많이 있습니다! )
@홍부계에 대학에 오면 진짜 별의별 내용을 많이 공부해야하는데, 교수님에 따라서 1을 가르쳐주고 100을 요구하는 교수님들이 계십니다. 그런 경우에 내가 논문같은것을을 찾거나 인터넷 검색을 많이 해봐야 하는데, 이러한 경우에 gpt를 사용하면 시간을 많이 단축할수는 있죠. 과제의 퀄리티 자체는 무척 낮아서 이걸 그대로 사용할수는 절대 없고, 사실여부도 확인해봐야 하지만 무언갈 알고 그 진위여부를 찾는거랑 아예 무에서 유를 창조하는건 너무 다르기때문에 편하긴 합니다. 현직 고등학생이시라니까 고등학교 내용으로 말씀드리자면 쓰기 5단계중에 계획하기와 내용 생성하기 단계가 간편해지는 효과가 있다는거죠
생각을 많이 안겨주는 영상이네요 저는 외국의 스폰서와 이메일 커뮤니케이션 할 때 챗지피티 굉장히 많이 활용하고있어요 평소에 사용하지 않았던 인삿말을 활용해보고싶거나, 내가 쓴 문단을 조금 더 상대가 공손하게 느끼면 좋겠다 싶을 때, 또는 문단 구성이 가독성 있게 느껴지면 좋겠다 싶을 때 챗지피티에 1차안을 제공해주고 교정을 요청하면 설명과 함께 제안사항들을 나열해주거든요 근데 제가 쓴 글을 챗 지피티가 교정하고, 그걸 또 선택적으로 받아들인 저의 글들은 저 과정에서 어떻게 판별될 지 궁금해지네요 :-)
랜덤시드에 대한 설명은 좋지만, 영상을 보시는 분들의 오해가 생길수 있는게 실제 chat gpt 표절 여부는 이런식으로 판독하지 않고, 이런 방식으로는 아예 불가능 합니다. 조회수측면으로는 긍정적일지 몰라도 예제를 다른것으로 했으면 어떨까 싶네요. Chat gpt의 아웃풋이 단순히 랜덤시드로만 이루어진게 아니라 유저인풋과 랜덤시드가 합쳐져서 나온 결과이기때문에 유저인풋을 알 길이 없는 한 아웃풋의 예측이 불가능합니다. 실제 chat gpt 표절예측은 chat gpt로 만들어진 문서를 딥러닝으로 학습해서 유사도를 예측합니다.
워터마크를 지워주는 프로그램이 나오지 않을까요? 오픈 ai를 통해서 생산한 원본 글을 또다른 ai프로그램을 통해서 변형을 가하면(임의로 설정한 시드값을 바탕으로 원본 글의 내용과 형식을 해치지 않는 선에서) 그때에도 오픈ai가 설정한 시드값을 식별가능할지 모르겠습니다. 그래도 이 기술이 상용화 된다면 ai를 사용해 자동 생성된 글들을 검열하는 작업 정도는 가능할 것 같네요.
의문이 몇 가지가 듭니다... 1. 사람이 만든 문장이 특정 시드값과 일치하기는 어렵지만 반대로 사람이 만든 문장이 무수히 많은 여러개의 시드 중 하나일 가능성은 충분히 있지 않을까요? 2. 1번이 안되고 기술적으로 문제가 없다고 쳐도 gpt로 만든 문장에서 내가 임의로 단어만 바꿔치기 해버려도 잡아낼 수 있을까요? 3. 이 의문은 단순 기술적인 부분에 대한 문제인데 gpt소스가 완전 오픈 된 상태에서만 구현이 가능한건지 아니면 gpt소스가 오픈이 안되어 있어서 gpt를 무작위로 돌려보고 gpt가 만드는 문장 자체를 학습해서 gpt가 만든 문장을 시드 값으로 바꾸는 것인지 궁금한데 만약 후자라면 문장을 다시 시드로 해석하는 부분이 불완전하지 않을까요?
안녕하세요. 좋은 영상 감사드립니다. 박사님께서 말씀해신 부분에 궁금증이 생겨서 여쭙습니다. 박사님께서 말씀해주신 방법은 OpenAI에서 문장을 generation할 때 언제나 같은 seed를 쓴다는 것을 전제하시는 것 같습니다. 만약 OpenAI에서 time based random seed를 쓰고, 그 문장을 generate할 때 사용한 seed값을 알 수 없다면, 그 문장이 AI generated 문장인지 알 방법이 있을까요? 모든 seed 값을 brute-force하게 찾는다면 feasible한 방법일까요? 아니면 박사님께서 생각하시는 더 좋은 방법이 있을까요?
한국 대학생들의 과제수행 내용을 가만히 잘 생각해보면 chat GPT를 이용하지 않더라도 사실상 그냥 자료 짜깁기 수준에 불과하지 ㅎㅎㅎ Chat GPT를 쓰고 안 쓰고는 사실상 시간 단축 이외에는 큰 차이가 없다고 생각한다. 아 물론 모든 대학생들이 그렇다는 건 아님.
이 영상은 ChatGPT를 사용하면서 '안 썼다고 뻥치기'에 대한 관점을 다루고 있어 매우 흥미로웠습니다. 강의자가 기술적인 특성과 함께 사용자의 책임에 대해 강조하면서, 어떻게 진실을 중요시하고 사용해야 하는지에 대한 고민을 나누고 있었습니다. 매우 유익한 토론이었습니다!
시대가 변하고, 기술도 발전하고 있지만 아이러니하게 교육만은 제자리입니다. 81년생인데 그때는 자료 찾기 위해 도서관 가고, 신문을 직접 뒤지던 시대였습니다. 뒤늦게 다시 미국에서 대학을 다니고 있는데 그때와는 공부할 수 있는 환경이 너무 달라요. 강의 내용도 유툽으로 검색해서 공부할 수 있고, 자료 조사는 폰 하나만 있어도 충분합니다. 하지만 여전히 지식의 암기를 강요하는 교육 방식은 그대로입니다.이미 약인공지능의 성과를 통해서 전문적인 영역일수록 AI가 더 좋은 효율을 낸다는 것은 증명 됐습니다. 이에 맞춰 교육도 변해야겠죠. ChatGPT를 금지할게 아니라 ChatGPT의 원문과 본인의 글을 함께 싣는다면 새로운 글쓰기의 방식이 아닐까 생각합니다. 글쓰기란 본인의 생각을 효율적으로 전달하는 것에 있지 글쓰기 행위 자체가 아니니까요. 천문학 때문에 로그가 발명 됐고, 그뒤 계산기와 컴퓨터의 등장으로 수학에선 더이상 산수는 문제가 아니게 됐죠. 인간의 교육 방식 또한 기존의 단순 암기에서 AI들을 어떻게 활용할 것인지로 바뀌어야한다 생각합니다. 아는 것이 힘이다. 예전 시대의 얘기죠. 양질의 정보를 선별, 활용하는 게 힘인 시대입니다.
모든 답변에서의 시드가 같지 않은 이상 힘들지 않을까요? 만약 시드의 수가 제한적이여서 어느정도 연산이 가능하다 하더라도 서론에 나온 논문 예시처럼 중간부터 ai가 쓰거나 ai가 쓴 문장이나 문단에 제 문장을 끼워넣으면 구별하기가 힘들것 같습니다. 사람이 쓴 글도 시드의 수가 많아진다면 그 시드중 하나가 그 사람이 쓴 글의 시드와 일치할 수도 있기 때문에 더욱더 힘들것같습니다. 만약 시드의 수가 1개라면 첫번째 단어는 시드가 작아서 사람들이 많이쓴거... 두번째 단어는... 같이 그 단어를 대체할 수 있는 단어의 수에 따라 다르겠지만 어느정도 경향성이 생기게 되는데 오픈ai가 저거 하나 구별하자고 그 기능을 넣을지는 의문입니다.
하지만 이건 최초 프롬프트(일종의 시드)를 알고 있어야만 파악할 수 있는 것 아닌가요? 최초 프롬프트로 수천 개의 단어의 조합으로 다음 지피티의 문장 확률을 우주의 원자의 개수보다도 더 많은 가능성으로 조절해버리면(예를들어 예수의 성격으로 아담스미스의 스타일로 고흐의 생각들을 정교한 수학 수식과 함께 어린아이도 이해할 수 있는, 단어 하나하나에 주의하며 중복된 단어는 쓰지 않고, 지피티모델이 출력하지 않을 법한 글을... 등등) 그럼 전혀 지피티가 쓸 것 같은 글이 아닌 확률 선택의 조합으로 최대화할 것 같은데
있는 그대로 복붙하지 않고 단어를 바꿔치든가 문장 순서를 바꾸든가 하는 식으로 약간의 조작만 가해도 잡아내기 어려울 거 같은데... 차라리 gpt에서 주고받는 모든 문답 내용을 1년치 정도 데이터베이스에 저장해두고 누군가가 글의 gpt출처 여부를 의뢰해올 때 기존 데이터베이스에 나와있는 문장과 대조해주는 시스템을 만드는건 어떨까요? 그럼 단어바꿔치기나 문장 순서 바꾸는 등의 조작 정도는 쉽게 찾아낼 수 있을거 같아서요...
랜덤시드를 분석한다….는 방법론이 쓰이는지는 모르겠는데, chatGPT가 쓴 글을 참, 일반 문장을 거짓으로 두는 classifier로 적절히 학습하면 어느정도 구분이 되지 않나 싶네요. 한발 더 나아가서 GAN 구조를 gpt랑 연계하여 “GPT가 쓰지 않은 것 같은 글”을 생성하게 하는 것도 재미있을 것 같습니다.
한편으로 "학교 보고서나 과제에 ChatGPT를 쓰면 안되는가?" 에 대해서는 또 다른 논란이 있을 것이라 생각이 됩니다! 조금 구체적으로 ChatGPT에 워터마크가 있고, ChatGPT 워터마크를 가지고 있어서 이것을 이용하여 보고서를 작성한 것이 윤리에 위배되는지에 대한 합의가 있어야 하지 않을까 생각이 됩니다!
zerogpt에 넣어서 돌리면 .. 잘 맞추던데요 .. 결국은 챗gpt가 만든 문장의 vector norm 을 계산해보면 .. 사람과 다른 .. 챗gpt 문장이 뭉쳐있는 영역이 있을겁니다.. 이런건 챗gpt여러번 돌려보면 .. 바로 train sample을 얻을 수 있으니 .. knn같은것만 써도 바로 .. 챗gpt가 썼는지 안썼는지 쉽게 알 수 있는듯..
오 방금 생각난 건데 이런 방법은 어떨까요? 컴퓨터는 개별 데이터를 이용해 빠른 속도로 문장을 합성할 수 있으니 그 개별데이터로 워터마크 찍을수있는 방법을 생각하는 겁니다 예를들면 인간이라면 한 문장에 들어있는 단어의 수를 세지 못할 테니 발행물 안에 들어있는 단어의 수나 형태소 수를 279로 나누면 0이 되게끔 항상 작성하게 한다면 나중에 교차테스트가 될거같습니다 물론 이러면 확률적으로 인간이 작성한 글도 279로 나눠 떨어질수도 있으니 완전한 방법은 아니지만 뭔가 ai의 연산만으로 가능한 방법이 있을거같습니다
OpenAI입장에서 어떤 문장이 ChatGPT가 쓴 문장이라는 사실을 외부에 증명하는 과정에서 단순히 자기네들의 seed를 찍어서 보여주는 것을 넘어서 알고리즘 일부분을 공개해야할 것 같은데요. 굳이 어떤 결과물이 ChatGPT가 썼다는 사실을 OpenAI측이 입증하게 되는 순간들이 그리 많이 있을것 같지는 않다는 생각이 들었습니다
물류센터 로봇이 쓰러지는 것 보면 확실히 역순으로 가는 것 같네요. 그림은 ai로 뽑고있고, 코딩도 ai가 해주는데 짐나르는 로봇은 과로에 쓰러지는 것 보면 인간의 고유성은 육체에 있을지도 모르겠습니다. 오늘 영상도 잘 봤습니다. 오늘분야는 암호학이라 보면 될까요? 덕분에 다양한 수학분야 지식 얻고갑니다. 감사합니다.
재미있는 내용입니다. 하지만 궂이 전문가의 입장까지 가지 않더라도 어처구니없는 해석이네요. 언어의 문맥이라는게 유사하다고 해서 같은 가중치를 가질수가 없다는 현실을 너무 벗어났습니다. 그리고 그런 수학적인 계획과 분석은 인공지능이 없던 1세대의 원시적인 기술입니다. 제가한 생각은 일종의 디컴파일을 통해서 원문과 결과물을 시뮬레이션하고 그를 통해서 특정버전의 인공지능이 작성했는지를 높은확률로 유추할수있겠다 정도네요.