글로 정리된 곳: angeloyeo.gith... --- 커피 한 잔의 후원이 큰 힘이 됩니다. 후원하기(카카오페이): qr.kakaopay.co... 후원하기(송금) - 카카오뱅크 3333-15-3394161 (여동훈) - 우리은행 1002-036-488593 (여동훈) -- 영상에서 사용된 모든 MATLAB 코드는 아래의 github repo에서 받아가실 수 있습니다. github.com/ang...
안녕하세요. 말씀하신 내용은 p가 매우 작은 경우의 이항분포인데요. 이 경우에는 1또는 2의 선택이 있고 1이 선택될 확률은 1/100이겠네요. 이항분포는 말씀하신 대로 skewed되어 있구요(한쪽으로 치우침). 이항분포도 표본의 크기가 매우 커지면 정규분포를 따르는 것으로 알려져있습니다. 이 때 표본의 크기를 n이라고 하면 평균이 np, 분산이 np(1-p) 인 정규분포가 됩니다.
구체적으로 답변드릴게요. 말씀하신대로 100:1의 비율을 가지고 1과 2로 구성된 모집단이 있다고 하겠습니다. 잘못 생각하고 계신건 이 모집단의 평균값은 1.5가 아닌 1.01이라는 점이라는 점은 먼저 말씀드립니다. 어쨋든 1과 2의 사건의 발생 빈도는 100:1이므로 이항분포에서 말하는 p의 값은 0.01입니다. 알려지기로는 표본의 크기가 n이라 할 때 np > 5인 경우 정규분포를 따른다고 볼 수 있다고 하므로 우리는 표본의 크기가 500이상인 경우를 상정해서 시뮬레이션 해보겠습니다. 시뮬레이션에서는 모집단에서 1이라는 라벨을 가진 원소가 1백만개, 2라는 라벨을 가진 원소가 1만개 있다고 하겠습니다. 표본의 크기가 10,000이라고 하고, 500회 반복해서 표본을 추출해서 평균을 취해서 분포를 확인해보면 1.01을 중심으로 정규분포를 따릅니다. 아래의 페이지에서 그림 확인 부탁드릴게요. raw.githubusercontent.com/angeloyeo/gongdols/master/%ED%86%B5%EA%B3%84%ED%95%99/CLT/Y-Good_Question/pic.png 표본의 크기는 더 커질 수록 더 정규분포에 가까워집니다. 그리고 아래에 들어가시면 소스코드도 있으니 확인하실 수 있습니다. github.com/angeloyeo/gongdols/tree/master/%ED%86%B5%EA%B3%84%ED%95%99/CLT/Y-Good_Question
안녕하세요 선생님! 중심극한정리 개념 소개하는 영상에서 정규로 근사하는 것을 직접 시뮬레이션 하셔서 보여주셨는데요. 알려주신 링크타고 들어가면...1. 코드는 나오는데 실제로 구동을 해볼려면 어떻게 해야하나요? 2. MATLAB으로 구동하지 않고 그대로 코드를 파이썬에 넣어도 구동이 되나요?
1. 합(addition) 혹은 평균이라는 현상은 많은 자연 현상에서 보일 수 있는 것이므로 분포들을 정규분포로 가정하는 것은 꽤 합리적입니다. (물론 정규 분포 가정의 타당성을 확인하기 위한 테스트들도 많습니다.) 2. 정규분포의 형태 및 수식을 비롯한 여러가지 특성들이 연구되었기 때문에 유용합니다. 특히, 정규 분포를 가정하면 통계학에서 모수 기법(t-test, ANOVA 등)을 적용할 수 있습니다. 모수 기법은 오랜 기간 동안 연구되어 왔으므로 많은 연구자들이 사용하고 있어 갖추어진 시스템, 툴이 많고 기법이 타당하다고 입증된 경우가 많습니다.
이런 방법으로 정규분포 그래프나 중심극한정리를 실험과 직관으로 접근할 수 있군요 (이 동영상 왼쪽의 공은 각각의 키나 점수에 대한 사람 이고 이 동영상 오른쪽의 공은 표본을 뽑아서 평균 나온 값 공이고) 이 방법을 "표본평균 평균값 공들 누적시키기로 중심극한 그래프 유도 실험" 이라고 불러야 할 것 같은데 가우스적분으로 정규분포 그래프 식 유도나 이항분포 시행 횟수 증가에 의해 정규분포 그래프에 근사시키기 보다 더욱 더 직관적이고 기하학적이고 몸으로 체감되는 방법 !!!!!!!!!!!!!!!!!!! 충격입니다 ~~~~~~~~ 허수나 미적분과 달리 이상하게 친근감이나 열정이 안 가는 통계라 (지나치게 실용적 분야라 그런지) 좀처럼 공부나 동영상 보기도 안 하는데 이상한 힘에 의해 동영상을 보니 기상천외의 방법을 발견했습니다 !!!!!!!!! 감사합니다 ~~~~~ ㅎ !!!!!!!!!!!!!!! 가우스적분도 필요 없고 이항분포 평균, 표준편차도 필요 없고 일단 몸으로 먼저 느끼게 하는 방법 !!!!!!!!!!!!!!
오옷~ 통계학쪽을 보시다니~ 신선한 댓글 위치네요 ㅎㅎ 통계학은 저는 대단히 이론적이고 고리타분하다고 생각했었는데 ㅎㅎ 제가 생각했던 방식?과 반대네요 ㅎㅎ 통계학도 공부하다보면 재밌습니다 ㅎㅎ 중심극한정리는 모수통계법의 핵심이 되는 정규분포와 관련된 이론인데 시뮬레이션을 해 보면 좀 더 쉽게 이해되서 이 영상을 준비했었습니다 ㅎㅎ 제가 이해할 수 있을 정도가 되어야 다른 분들도 이해하실 것 같아서요 ㅎㅎ
좋은 영상 감사합니다. 한가지 중심극한정리를 배우면서 의문이 남는 점이 있어 질문을 드립니다. 중심극한정리는 분포에 상관없이 모집단에서 표본을 추출했을 때, 표본의 갯수가 n개가 넘어서면 표본 평균이 정규분포를 따른다고 알고 있습니다. 저는 이 말이 '표본의 평균이 정규분포를 따르는 것'이지 '각 표본들이 정규분포를 따르는 것은 아니다'라고 생각합니다. 하지만 많은 강의나 교재에서 '어떤 하나의 표본에서 X의 수가 충분하면(통상적으로 25~30개 이상) 중심극한정리에 의해 정규분포를 따른다'고 되어있습니다. 어떻게 해서 '표본의 평균이 정규분포를 따른다'에서 '표본이 정규분포를 따른다'가 되는지 궁금합니다. 아니면 표본 크기를 1로 30개의 표본을 추출했을 때, 각 X가 표본 평균이 되는 것으로 이해할 수 있으므로 표본 평균이 정규분포를 따른다로 이해하면 되는 것일까요?
전용재님 안녕하세요. 이해하신 내용이 맞다고 생각합니다. 애초에 모집단의 분포가 정규분포가 아니라면, 표본을 아무리 많이 뽑더라도 표본의 분포가 정규분포를 이루게 된다고 할 수는 없습니다. 아마 말씀하신 '어떤 하나의 표본에서 X의 수가 충분하면(통상적으로 25~30개 이상) 중심극한정리에 의해 정규분포를 따른다'라는 내용에서 ** ~ 표본 평균이 정규 분포를 따른다** 라고 설명한 것을 오해한 것은 아닐까하고 "조심스럽게" 추측해봅니다. 추론 통계학을 공부할 때 보통 표본평균부터 배우게 되는데, 그 때 중심극한정리에 대한 개념이 잘 잡혀있지 않은 상태에서 배우다보니 생기는 주된 오해 중 하나라고 생각합니다. 아래의 고등학교 수학교과서에도 전용재님이 말씀하신 내용이 명확히 명시되어 있습니다. bit.ly/2JLSmXq 언급드린 내용은 139페이지 하단의 부분에 있습니다.
강의 잘보았습니다 시뮬레이션으로 하니까 이해가 훨씬 와닿네요 구독하고가요 하나 질문이 있는데요 중심극한정리는 모집단의 분포에 상관없이 표본의 크기 n이 커질수록 표본평균의 분포가 정규분포에 가까워진다잖아요 이거랑 혹시 이항분포에서 시행횟수가 무한히 커지면 정규분포에 가까워진다는 것과 어떤 관련이 있나요? 제가 중심극한정리랑 Galton 보드가 관련이 있다고 필기를해놨는데 왜인지를 안써놔서 공부하다가 영상을 보게 되었어요 ... 근데 아무리봐도 둘 사이의 연관성을 못찾겠어서요
안녕하세요! 블로그와 함께 잘 보고있습니다. 감사합니다. 제가 알고 있는 것과 달라서 굉장히 헷갈리고 있어요. 제가 아는 것은 n이 크면 정규분포에 근사한다는 것인데, 공돌이님 영상을 보면 n=3명으로 굉장히 작은데 표본집단을 뽑는 횟수가 증가하는 것으로도 정규분포를 따르네요. 영상중간에 n이 커지면 더욱 잘 근사될 것이라 하시는데 여기서 더 헷갈려집니다. 표본집단을 뽑는 횟수가m 표본의 수가 n명일때 정규분포에 근사하도록 커져야하는것은 m인가요 n인가요? 아니면 둘다인가요? 미리 감사드립니다.! 자주 질문드리겠습니다.
안녕하세요. 1. 표본을 뽑는 횟수는 표본 평균이 어떤 분포를 따르는지와 관계가 없습니다. 다시 말해 정규 분포에 근사하도록 커져야 하는 것은 샘플 수 n이 맞습니다. 샘플링을 여러번 하는 것(m이 큰 경우)은 한번의 샘플링으로는 분포를 알 수 없기 때문에 최대한 여러번 추출해서 분포의 모양을 확인하기 위한 작업입니다. 2. 영상에서는 n=3일 때 표본 평균의 분포가 마치 정규분포를 따르는 것 같이 *시각적으로* 표현된 것 같습니다. ** 표본 평균은 모평균과 가까운 값이 많이 추출 되기 때문에 가운데가 볼록한 모양으로 분포가 나오긴 했습니다만**, 눈으로 종모양 분포처럼 보이는 분포를 얻었다고 해서 이것이 정규분포를 따른다고 보기는 어렵습니다. 그래서 추가 검사를 해서 정말 정규분포를 따르는지 보아야 합니다.
ㅎㅎ.. 중학생 고등학생 뿐만 아니라 대학원생도 와서 봅니다...ㅠ 좀 공부를 하다가 와서 다시 질문드려 봅니다. 표본평균의 분포가 종모양의 그래프로 수렴한다는 중심극한정리가 중요한 이유가 ... 그렇다면 통계적 분석에서 중심극한정리가 성립하니 정규성 조건을 충족하기 때문에 그렇다고 봐도 되나요? 근데 원 데이터의 분포가 정규성이 있는 거랑 표본평균의 분포가 정규성이 있는 거랑 같이 봐도 될지.. 궁금합니다. 읽어주셔서 감사합니다.
안녕하세요. 중심극한정리를 중요하게 생각하는 이유는... 1. 자연으로부터 얻는 특징들의 분포가 정규분포를 따르는 경우가 많고, 이를 토대로 성장한 통계 검정 테크닉들이 많다보니 중요한 것입니다. 2. 평균에 관한 비교가 빈번하게 이루어지기 때문입니다. 평균의 본래적 의미는 '합'인데, 많은 random variable들을 합한 것의 분포는 정규분포를 따르게 됩니다. 3. "근데 원 데이터의 분포가 정규성이 있는 거랑 표본평균의 분포가 정규성이 있는 거랑 같이 봐도 될지.." 이 말은 무슨 말씀이신지 잘 모르겠습니다.
그렇군요.. 중심극한정리의 관계를 지오지브라로 증명하는 활동을 했는데 대학에서 안배운다니 ㅠㅠ... AI 한테 물어보니 신호처리쪽과 연관성이 없지는 않다고 말하던데 구체적으로 이 정리가 신호처리에 쓰이는 경우 아시나요? 추후 탐구 계획을 작성하는데 대학에서 배울 내용과 연관시키고 싶어요. ㅠㅠ
@@AngeloYeo 생기부에 적으면 연계율이 떨어져서 안되겠네요ㅜㅜ 주제 찾기가 너무 힘들어서 늦은 시간에 마지막 질문 남겨용.. 고등학생 수준에 맞는 신호처리 확률과 통계 탐구 주제 추천해주실 수 있나요? 주변에 전문인이 없어서 생기부 채우기가 너무 힘드네요...관련 키워드라도 괜찮습니다ㅜ
다음 시간의 수학적 증명을 어떻게 하실건지 궁금해지네요ㅎㅎ 다양한 접근들이 있는데 저는 통계열역학에서 Random walk(dynamics)와 probability distribution에 대해 공부를 해보니 확률밀도함수의 수식 유도와 물리적(?)의미를 이해할 수 있었던 것 같습니다.