프로그래밍적으로는 그렇다는 말씀이시죠 ^^ ㅎㅎ ㅋㅋㅋㅋㅋㅋㅋ 태그 ──────── #각별 #클립 소개 ──────── 주로 각별님의 생방송 중 재밌는 부분, 클립들을 업로드하고 있습니다! 이채널의 각별님과 관련한 모든 동영상의 저작권은 모두 각별님께 있으며, 영상에서 문제되는 부분 있으면 말씀해주신다면 즉시 삭제 및 수정 조치 하겠습니다! @각별
그리고 좀 이슈가 있는 점: 훈민정음은 Abstract에도 나와있지만 한국어 음성표기를 위한 발음표기기호시스템이지 이걸 주 언어로 쓰라고 만든게 아님. 오히려 세종대왕은 이렇게 쓰고 있는걸 더 싫어할 수도 있음. 지가 해례본에 쓰기에는 이렇게 쓰라고 만든 문자가 아니거든. 이걸 “한글”로 쓰자고 도입을 본격적으로 시작한건 근대화 이후에 주시경선생 + 대한어학회 그쪽임. (훈민정음 != 한글, 주시경식 훈민정음 포크판이 한글임) 그러면서 웰컴투 문법헬이 만들어진거임. 그 전까지는 그냥 발음표기시스템. 좋게 말하면 정규화를 해준거고 나쁘게 말하면 지 멋대로 표준 만들어 버린거임. (생긴거만 똑같고 아키텍쳐는 갈아버린 무언가. 이미 표음문자가 아님) 그 와중에 레거시는 대응해야 하니까 몇몇단어표기는 굳어진거고. 여기서 마구잡이로 근본없이 마구 바뀐 한국어단어 하나로 난이도 상승 거기다가 한국어가 수식관계라던지 이런게 좀 어족계통이 속한말로 하면 ”근본이 없음“ (알타이어족 계통이라는 것도 현대 학회에서는 밀리는 추세임) 그냥 이런 한국어 같은 설계 가진놈이 없어. 그러니 엉망진창인 설계더라도 쓰는사람들이 많아서 구현체가 많은것도 아냐. 쌩판 새로 배워야됨. 게다가 한글의 특성 때문에 완성형/조합형 정규화 시킨 벡터 만들기도 힘듦. 정규화도 몇댓번 해줘야함. 거기에다가 앞에서 나온 “한글”화 작업하면서 지멋대로 만든 표준한국어 때문에 거지같은 형태소 분석 엣지케이스들 다 대응 해줘야함 그저 쓰레기같은 언어.
기본적으로 Transformer Network 는 앞에서 나왔던 컨텍스트를 바탕으로 생성해 나가는 방식인데, (LSTM, GAN 등 기존 트렌드들도 단어의 스트림을 완성해 나가는 방식임) 한국어는 수식 방향도 마구잡이로 튀니까 현대 SOTA 모델들하고 맞지도 않음. 다른 언어들에서 잘 작동하는 거 한국어만 유단히 퍼포먼스 박살남 한국어 깐다고 뭐라 하는 사람들은 개인적으로 묶어놓고 자연어 처리 아님 한국어 IME 만들어 보라고 시켜야됨