12 Math님 영상에서 계속 주의점이라고 나온 부분이 보통 p-hacking 이라 불리는데요. 일단 데이터 꺼내놓고 쇼킹하고 자극적인 결론들을 나열한 뒤 p-value에 맞추는 p-hacking이나 그런 비정상적인 샘플이 충분히 나올때까지 실험을 하다가 멈추는 p-hacking등등 다양하게 있습니다. 이런 양심없는 짓을 하는 (사회)과학자들이 꽤 많아서 "연구결과에 따르면 어쩌고 저쩌구" 하는 뉴스들은 정말 걸러서 들어야 합니다. 술이 심장에 좋다거나 초콜렛의 혈압을 낮춘다거 하는 등의 "OO 의 효능"같은 문구를 정말 주의하셔야 합니다. 과학과 수학은 100% 신뢰해도 되는데, 사람을 믿는 것은 항상 조심해야해요.
항상 좋은 이야기 감사합니다. 주제와는 다른 이야기지만 임상'실험'은 쓰지 않는 표현으로 알고 있어 댓글 남깁니다. 임상시험은 기준을 벗어나는지/아닌지를 검증하기때문에 '시험'이라고 표현합니다. 임상'실험'인 경우 성공/실패 기준이 없이 가능성을 열어두고 탐색하기 위한 수단처럼 표현될 가능성이 있기 때문입니다. 예1) 임상실험 : 이 약을 투약하면 어떤 결과가 나오는지 수치가 궁금해 예2) 임상시험 : 이 약을 투약했을 때 이 이상을 충족하는지 확인해봐야겠어(Y/N)
늘 잘 보고 있습니다. "우연히 이런 결과가 나왔을 확률"로 설명하신 건 "우연히"에 방점이 있다는 점에서 P-value의 불확실성 측면, 그리고 그게 (귀무가설에 비교하여) 드문 경우일 뉘앙스를 잘 전달하고 있다고 생각하여 이해를 돕기 위해 좋은 단어 선택이라고 생각합니다. 다만 P-value는 사실 구간의 확률, 즉 데이터의 결과 및 그 결과보다 더 극단적인 결과가 나올 확률을 구한 것이지, 딱 그 결과의 확률은 아니라는 점이 있습니다. 다른 텍스트북에서 이런 설명을 쓰지 못하는 이유가 그에 있고 , 위키피디아 설명에서 "결과보다 극단적인" 이라는 구절을 넣어서 머릿속을 더 복잡하게 만들 수 밖에 없는 이유이기도 합니다. P-value는 기각역의 경계와 비교하여 데이터가 어느 위치에 있는지를 귀무가설을 가정한 분포에서부터 구한 확률로 표현한 거라 구간의 확률일 수 밖에 없는데, 이걸 구간의 확률을 넣어서 설명하면 이해에서 어려움을 느끼지만, 구간의 확률임을 빼고 그 결과의 확률로 표현하면 실질적으로 명확한 정의는 아니기 때문에 의미를 설명할 때 보조적으로 쓸 수밖에 없다고 생각합니다 . 물론 "우연히 이런 결과가 나왔을 확률" 이 안에 그 의미를 함축하셨을 것이고, 통계적 소양의 기르는데 충분한 설명이라고 생각합니다.
개인적으로는 한국어로 된 근대 학문 체계의 역사라 짧아서 생기는 문제라고 생각중인데, 이전까지는 국문 혼용으로 한자적 사고 방식이 지배하던 지식인들이 일본을 통해 들어온 단어를 혼용하면서 일상 생활에서 통용 할 수 없는 학문 체계를 설립했고 이게 90년대 후반까지 거의 문제 의식 없이 고루하게 계승되던게 대한민국 학문게의 현실이었을 것 같음. 그러다보니 한자가 없으면 해석이 불가능한 단어라던가, 문장 자체를 간결하고 논리적으로 학술적 기술을 하는 문화가 생성될 기회가 없다보니, 아무리 읽어도 이해할 수 없는 이상한 문장들만 넘치는 이상한 상황이 수십년간 지속되었는데, 대략 2010년대 부터 본격적으로 한국어로 학문을 기술하는데 익숙해진 젋은 지식층이 대두하고 미국 유학층들이 점점 학계를 주도하면서 이상한 문장에 대해서 의문을 제기하고 쉽게 풀어쓰는 문화가 최근들어 퍼지면서 점점 더 많은 사람들이 이해 가능한 형태의 지식 전파에 관심을 가지는 좋은 시대가 된 것 같음 공대만 해도 대학원생이 쓴 번역서 보느니 원서책을 보는게 더 이해가 잘 된다고 할정도로, 비문에 이해 안가는 문장들 투성이고, 교수들은 번역물에 학문적 인정을 받지 못하니 방치하다 시피해서 한국어로 쓰는 학술적 문장 문화 발전이 매우 느렸는데 최근들어서 이 채널 주인 같은 사람들이 많아지면서 발전하고 있는 것이 보여서 다행이라고 생각
수학학원에서 알바하는데 개인적으로 통계가 이처럼 정말 자주 쓰이는데 확률과 통계부분에서 경우의수와 확률에 대해서만 엄청나게 자세하게 배우고 정작 통계의 비중이 너무나도 작은게 아쉽습니다. 이름부터 확률과 통계인데 통계부분에 대해서 고등학교 교육과정이 더 개편되었으면 좋겠다는 생각이 드네요
잘 봤습니다. 일본쪽 번역어들을 그냥 수입해서 쓰던 과거 관행과 그때 만들어진 정보 때문에 여러 분야에서 도움이 되기는 커녕 오히려 학습에 어려움이 생기는 것 같아요. 과도하거나 잘못된 한자조어들을 버리고 현대적 일상어로 학술어들을 재서술 재번역하는 작업이 필요해보입니다. 한국에서 나무위키같은 사이트가 성장한 것도 이러한 이유가 한 몫을 했다고 봅니다. 기성 텍스트들이 거의 주문 수준으로 주절대고 있으니 구어적 정보를 제공하는 곳으로 몰리는 거죠. 많은 분야에서 막상 (가장 선진적이라는) 영어 텍스트를 보면 어렵게 설명할 내용이 아닌 경우가 태반입니다. 언제까지 19세기말 20세기초 소수 일본인이 멋대로 만든 비효율적이고 부정확한 한자조어들에 기대서 학습과 연구를 해야하는지 모르겠습니다. 인문계 이공계에 다 적용되는 공통사안인 것 같아요. 미래 어느 시점에 여러 학계가 동참해 각 분야에서 대대적 교정사업을 할 필요가 있다고 봅니다. 하다못해 일상적으로 문제의식을 갖고 교정할 필요가 있어보입니다.
박사님의 영상중에서 수학적 귀납법 영상을 보고 궁금증이 생겨서 댓글을 남기게 됐습니다. 수학적 귀납법이 k+1에서 k로 점점 축소시키는 논리이다 라는 주장을 중심으로 이를 뒷받침하기 위해서 수형도의 가지와 점의 개수 사이의 관계에 관하여 증명하셨습니다. 이때 저희가 꽤나 많이 접하는 논리적 오류는 k->k+1로 논리를 전개했기 때문이라고 하셨죠. 근데 제가 한 가지 궁금한 것은 그렇다면 왜 k->k+1로 논리를 전개했을 때 논리적으로 문제가 생겼을까 입니다. 이에 대해서 고민을 해봤는데, p->q라는 명제가 p와q의 포함관계로 표현될 수 있듯이, 잘못된 수학적 귀납법의 사용도 명제의 포함관계로 설명할 수 있을까 라는 생각이 들게 되었습니다. 이에 대해서 어떻게 생각하시는지 궁금해서 질문 드리고 싶습니다
4분 10초 경, p-value가 낮다는 말은 귀무가설이 [참이] 아닐 가능성이 크다고 말씀하시면서, p-value = 0.03이라는 논문 결과가 100개가 있으면 그 100개 중에 3개 정도는 귀무가설 (H0)이 맞을 수도 있겠다고 설명하셨습니다. P(H0 is true|Data) = 0.03이라고 말씀하신 게 맞나요? 만약 그렇다면 이는 p-value를 잘못 해석한 것으로 보입니다. p-value = P(Data|H0 is true)이지, P(H0 is true|Data)가 아니기 때문입니다. 제가 혹시 잘못 이해한 것인가 하여 여쭤봅니다.
p value의 수학적 정의는 P(H1 is true | H0)로 귀무가설이 참인데 모종의 이유로 대립가설이 타당하다는 결론을 내릴 확률입니다. 그니까 p value가 0.01이어서 대립가설을 채택한다는 것은 "혹시라도 귀무가설이 맞을 확률이 1%니까 그냥 대립가설이 맞다고 할래" 정도로 해석하면 됩니다. 여기서 "귀무가설이 참인데"라는 가정을 하는 이유는 기존의 통념이 보통 귀무가설이고 이 것을 부수려면 적어도 p value(잘못된 선택을 할 확률)가 a 미만이 되도록 해라. 입니다.
p값이 3%라는 게 우연하게 나왔을 확률이 3% (=가설이 틀렸을 확률이 97%) 라는 이야기는 아니죠. 가설이 옳다(우연하게 나왔다)는 가정 하에 이것보다 극단적인 값이 나올 확률이 3%라는 이야기니까요. 우연히 나왔을 경우 vs 영가설이 틀렸을 경우를 제대로 비교하려면 베이즈 팩터 등을 사용해야 하는데, 실제로 p값 3% 정도면 베이즈 팩터는 대개 5를 넘지 않는것 같더군요. 즉 대립가설의 likability가 영가설의 likability의 5배 이하니까 우연히 나왔을 확률은 적어도 16% 이상은 되겠네요.
제가 사용한 "우연하게 나왔다" 라는 표현자체가 엄밀성이 없는 자연어입니다. (그래서 정의를 이렇게 안하는 거겠죠.) 하지만 엄밀성을 포기하더라도 개념의 이해를 위해 자연어가 도움이 되는 경우들이 많습니다. 고등학교 과정에서 입실론 델타 논법을 사용하지 않고 한없이 가까워진다 같은 표현을 사용하는 것과 같은 맥락이죠.
엄밀하지 않은 자연어의 문제가 아니라, 개념적인 이야기를 하고 있는겁니다. p값은 우연하게 나올 확률에 대한 어떠한 정보를 제공해주지 않습니다. 단지 p값이 낮을 경우 영가설에서는 일반적으로 나오지 않는 희귀한 경우이므로 영가설을 기각하겠다고 이야기할 뿐이죠. 반대로 p값이 매우 높거나 극단적으로 1이 나온다 한들 우연히 나왔을 확률이 100%라고 이야기할 수는 없겠죠. 대립가설 하에서도 일정한 확률로 차이가 없을 가능성이 존재하니까요.
"p값이 낮을 경우 영가설에서는 일반적으로 나오지 않는 희귀한 경우이므로" 이걸 "우연하게 나왔다" 라고 저는 표현했다는 말이에요. 우연히 나왔다의 정의를 다르게 내리시고 제 말이 틀렸다고 하시기엔 우연히 나왔다라는 표현이 엄밀하지 않은 표현이라는 얘길 하고 있는 겁니다.