12년간 수학하면서 통계학을 세번씩이나 들으면서 서로다른 세 교수님께 여쭤봐도 그저 자유도때문에 그렇다, 평균이라는 자료를 하나 사용해서 그렇다, 그렇게 해야 값이 더 가깝다 등의 납득은 되지만 이해는 되지않는 대답 뿐이었는데 드디어 정확하게 왜 하필 n-1인지에 대한 이유를 알게 되었습니다. 좋은 영상 너무 감사합니다. 12년묵은 의문 해결!
@@Sehyun_Lee 저는 적절한 대학교의 적합한 수학과 수준밖에 안나와 박서준님께서 얼만큼의 좋은 대학에서 수학을 배웠는지는 모르겠으나 적어도 제가 배운 수학 전공과목에선 1학년 미적분학 선형대수 벡터해석학 이산수학 확률과 통계 2학년 집합론 기초해석학 정수론 3학년 복소해석학 미분기하학 추상대수학 위상수학 4학년 다양체기하학 편미분방정식 배우는동안에는 적어도 저에게 적합한 답변을 주는 교수님께서는 없었던 것 같습니다^^ 좋은 교수님들께 배우신것 같아 너무나 부럽네요
@@Sehyun_Lee 정훈님 상황과 별개로, 수학쪽만 전공하면 모를수도 있을 것 같네요. 서준님이 언급하신 위에 4가지 과목중에 제가 다니는 수학과에서는 확통이나 수리통계를 다루지 않고 (선형대수는 사실 왜 언급하신지도 모르겠습니다. 수학과에서 배우는 선형대수는 대수적인 구조에 집중하지 통계랑 연관짓지는 보통 않으니까요 기껏해야 LSA정도?), 확률해석학은 measure theroy 사용하는 확률론 말하시는 것 같은데 사실 기초 통계학을 제대로 배우지 않았다면 확률론을 배우면서 저 내용을 생각해볼 기회는 없겠죠. 결국 각 학교 수학과 커리큘럼 상의 차이인 것 같습니다. 저는 1학년때 교양 통계학에서 배웠는데요, 저도 그 때 통계학을 수강하지 않았다면 이 내용을 다시 만나기 전까지 굳이 증명까지 안해봤을 것 같네요. 애초에 저 내용을 다루는 수업을 안들으면 생각해볼 일이 없을 것 같아요.
수학교사입니다. 확률과 통계시간에 편차를 n-1개 알 때 나머지 편차도 알수 있다는 내용과 함께 자유도에 대한 설명까지 곁들여가면서 설명했었습니다. 학생들이 충분히 이해할 수 있을 정도로 설명했다 느꼈고 저도 이해한줄 알았는데, 정작 자유도로 왜 나누는가(그래야 값이 같으니까라는 설명 말고)에 대해 모르고 설명하고 있었네요. 고등학교 지도서나 전공책에도 불편성 어쩌구저쩌구만 써있거든요. 이게 간단한 계산으로 보여줄 수 있는것이었는지 몰랐네요... 올해 2학기에 다시 설명할 때는 간단하게 증명까지 곁들여봐야겠네요. 정말 감사합니다!!!
편차를 n-1개 알 때 나머지 편차도 알수 있어서 n-1로 나눈다는 설명은 잘못된 설명입니다. 애초에 그런 설명은 어느 수리통계학 책에도 나오지 않고 수학자가 아닌 사람이 집필한 경영통계 경제통계 생물통계 그런 책에서나 나오는 틀린 설명입니다. 유튜브 내용에서처럼 표본으로 모집단의 분산(및 표준편차)를 추정할 때 n-1로 하는 것이지, 모집단 전수조사해서 분산(및 표준편차)구할땐 n-1이 아니라 n으로 나누고, 또한 표본으로 모집단추정이 아니라 표본 자체의 분산(및 표준편차)을 구할때도 n-1이 아니라 n으로 나눕니다. 편차를 n-1개 알 때 나머지 편차도 알 수 있어서 n-1로 나눈다는 논리를 적용하면 모집단 전수조사해서 분산(및 표준편차)구할때도 n이 아니라 n-1로 계산해야 된다는건데 그렇지 않으니까요.
@@saemjjicouple 댓글 감사합니다! 뭔가 잘 아시는 분 같아서 한가지만 여쭤보려해요. n이 아닌 이유라면 어찌저찌 설명(영상처럼 표본의 분산은 원래보다 작게 나오게 되니까)할수있겠는데 정확히 n-1인 이유를 어떻게 설명해야할까요? 11월 즈음해서 올해도 수업해야하거든요. 참고로 통계학수업은 학부에서만 4학점 들었고 가지고있는 책이 두권(자유아카데미-통계학, 경문사-사범대생을 위한 확률과통계) 뿐인데 두권 모두 통계학 전공하신분들이 저자이고, 제가 말한대로 설명하고있네요. 자유도는 학부생에게 어려울거라 코멘트하면서 저처럼 얘기하고있는데, 막상 님께서 말씀하신 마지막 말씀의 얘기에 대한 대답을 모르겠네요.(좋은 책이 아니라고 하면 할말없지만 사범대생을 위해서 쉽게 쓰여져서 그런가봅니다..) 인터넷 찾아보니 불편추정량 뭐 이런게 있긴하던데 어려워보이네요 ㅎㅎ.
@@bbaa7696 이미 영상에 묻고계신부분에 대한 답이 다 나와있는데 저보고 대답해달라고하면 저도 영상과 똑같이 대답할 수 밖에 없습니다. 혹시 영상을 다 안보셨을까요? 아니면 영상에서 이해되지않는부분이 있으면 말씀해주세요. 그리고 통계전공자말고 수학전공자요. 학부는 경영학과나오고 대학원을 통계학과나오는 이런사람들 말고요. 통계학과가 학부이더라도 문과에 해당되는 통계학과출신들 말고요. 찐 수학자요. 기본적으로 분산(및 표준편차)은 편차의 제곱들의 평균을 구하는 것이기 때문에 n으로 나누는게 맞습니다. 그래서 모집단 전수조사를 해서 분산(및 표준편차)을 구한다면 모집단의 n으로 나누는거고, 마찬가지로 표본의 분산(및 표준편차)을 구할떄도 표본의 n으로 나누는겁니다. 문제는 우리는 모집단 전수조사를 하는게 현실적으로 불가능하고, 표본의 통계량을 알고싶은것도 아닙니다. 표본으로 모집단의 통계량을 알고싶다는게 바로 통계학의 핵심입니다. 즉 표본의 통계량으로 모집단의 통계량을 추정해야됩니다. 평균의 경우를 예를들어봅시다. 표본들을 뽑아 평균을 구합니다. 이 표본평균이 모평균인건 아닙니다. 표본평균으로 모평균을 추정해야죠. 그럼 모평균을 추정할 기준이 되는 값을 표본평균으로 이용하는데 왜 표본평균을 이용할까요? 수학적으로 계산해봤을때 표본평균에 기대값을 취하면 모평균에 수렴하기 때문입니다(극한값이니까 모평균이 된다는건 아닙니다). 마찬가지입니다. 표본의 분산으로 모집단의 분산을 추정하고 싶은데, 표본의 분산(분모가 표본의 n)을 기대값 취해 계산해봤더니 모분산(분모가 모집단의 n)에 수렴하지 않고 모분산의 (n-1)/n배(여기서의 n은 표본의 n입니다)에 수렴한다는걸 알수있습니다. 즉 바꿔말해 표본분산에 n/(n-1)배한 값을 기대값 취하면 모분산에 수렴한다는 것이죠. 그러면 표본분산(원래 n으로 나눴던)값에 n/(n-1)배를 한 값을 모분산추정에 이용하니 표본분산 분모가 n-1로 바뀌게 되는 것 뿐입니다. n-1개를 알아서 나머지 하나를 알기 때문에 n-1로 나눈다는 비논리적인 엉터리 설명을 적용한다면 애초부터(즉 표본으로 모집단을 추정하기 전부터) 분모를 n-1로 놓은 상태에서 계산해야된다는건데 그럼 결과가 n-1이 나오지도 않겠죠? 계산과정은 제 블로그에 이 유튜브 영상보다 더 과거에 올려놨었습니다 참고하세요 blog.naver.com/physicopianist/221079231724
@@saemjjicouple 영상보고 작년에도 설명했구요 당연히도 다른 직관적 방법이 있냐고 여쭤본거였어요. 너무 댓 다시는게 두번 다 공격적이셔서 좀 당황스럽긴한데... 질문 하나만 더할게요. 블로그마지막에 자유도가 잘못된개념이다. 계산과정에서 나온게 자유도와 n-1이 우연히(혹은 우연히가 아니라도 같은 이유가 아닌 다른 이유로)일치할뿐 자유도때문이 아니다 라고했는데, 예전 저희 교수님이나 위키피디아 그리고 유튜브(asdf 오터의 통계 님 혹은 이 영상에서 dukas george님의 댓글, 그외 다양한 영상 올린 교수님들)의 다양한 얘기를 종합해보면 좀더 고차원 혹은 일반적인 경우의 ANOVA 계산에서도 선형대수학 측면으로 생각했을때 자유도가 더 근본적이다 라고 얘기하고있거나 자유도개념이 곧 n-j로 나누는거라 얘기하고 있거든요. 결론적으로 님의견이 맞는거구 다른분들이 잘못알고있거나 쉽게 설명하기위해 교수학적 변환을 거친 거란 말씀이신거죠? 아님 제가 이해력이 부족하거나...
선생님 안녕하세요, 메일을 보낸 사람입니다. 정말 감사합니다. 이 같은 고민을 나눌수있다는것만으로도 감사하며, 아이들에게 많은 도움이 될것 같습니다. 배움은 늘 새롭고 끝이 없다는 것을 당연하지만 더욱 뼈저리게 느끼고 있었습니다. 저 또한 저의 위치에서 최선을 다하겠습니다.
전공수학은 교원임용시험 수준에서 끊겨 즐기지 못했는데, 덕분에 수학에 설레는 감정을 되찾고 있습니다. 학부생때는 그저 형식적 계산과정 차원으로만 이해하였는데, 처음 직관적 이해 설명부분을 듣고 망치로 맞은 느낌입니다. 아는 것을 가르치는게 결코 쉬운일이 아닌데 16분동안 설명 흐름이 정말 깔끔했습니다. 어떻게 설명해줄지를 얼마나 고심하여 준비했는지... 여러모로 열정을 심어주시네요 정말 감사드립니다.
직관적 설명&수식증명 다해주시네요. 최고의 선생님입니다. 수식은 고딩때 배운거네요. 대단한 설명 도대체 누구지 하면서 처음으로 소개영상까지 찾아보고 그럼그렇지 납득됨. 한가지 질문이요. 자유도 개념은 어떻게 연결할수 있을까요? 이 영상 보면 (n-1)을 설명하는데 통계학책에 그토록 많이 나오는 그 개념이 필요가 없네요.
표본의 분산이나 표준편차를 이용해서 모분산이나 모표준편차를 구하는 식에 대한 설명 7:54 과소추정하게 되는 이유에 대한 이해(표본은 극단값이 선택될 확률이 적기 때문) 10:05 n-1로 나누는 이유에 대한 대략적인 설명(과소추정되는 분산을 키우고 싶어서) 11:35 왜 n-1로 나누어야 하는지에 대한 수학적 설명 (변량-표본평균 제곱의 기댓값이 (n-1)모분산 이기 때문)
결과적으로 자유도만큼 나눈 게 되지만 원인과 결과를 도치시키면 안 됩니다. 자유도가 원인이라서 n-1로 나누는 게 절대 아니에요. 애초에 자유도랑은 수치만 같을 뿐, 유도과정을 보면 전혀 관계가 없어요. 물론 자유도와의 관계를 불라불라 설명할 수는 있겠죠. 그러나 그건 n-1이 자유도인 이유일뿐, 표본분산을 구할 때 n-1로 나누는 이유가 아닙니다.
@@Total_Syntheses 반대로 자유도가 더 근본적 입니다. n-1인 경우에는 직접 계산해서 나오지만 자유도가 n-d 인 경우에는 n-d로 나누기 위해 선형대수의 자유도(차원) 개념을 이용해야 증명을 할 수 있습니다. 자유도라는 개념을 선형대수를 모르는 상태에서 언급하는건 위험하지만요.
고등학생들과 같이 수학을 공부하고 있는 1인 입니다. 좋은 영상에 항상 감사드립니다. 비편향추정량에 대한 예를 들어해주신 설명이 참 감명깊습니다. 학생들과 같이 공부하다보면 표본의 통계량과 표본을 추출하여 얻은 표본값(통계값)의 구분을 어떻게 설명할지 항상 고민을 합니다. [표본값이나 통계값이라 표현하는것이 맞을지 모르겠습니다] 이 영상에서도 표본 X_i 가 통계량(확률변수)라는 인식이 조금 부족할 수도 있을 것 같고요 심지어는 저랑 비슷한 일을 하시는 분 중 어떤 분은 '표본평균이나 모평균이나 거기서 거기'라는 이야기를 했다는 것을 들었던 적도 있습니다(당황) 고교 교과서에서 표본의 통계량과 추출된 표본 표본값(통계값)의 구분도 모호할 뿐더러 대표적인 표본의 통계량인 표본평균, 표본분산, 표본표준편차를 왜 이런식으로 정의하는지에 대한 설명도 너무 부족한 것 같아 항상 아쉽습니다. (식의 구성방법에 대한 설명 등) 추측통계학의 많은 부분이 상당히 재미있는 아이디어들이 들어가 있다는 것은 대학에서 공부하며 조금씩 맛 보게 되었는데 그 출발점인 통계량의 정의부터 고교 수학에서는 너무 단편적이며 부족한 설명이 있기에 이 부분에 대한 쉽고 재미있는 설명은 어떻게 풀어나가실까 싶어서 이렇게 글을 남겨봅니다.
안녕하세요? 언제나 너무 좋은 내용을 잘 보고 배우고 있는 구독자입니다. 이번 표준편차 영상에 대해서 말씀드리고 싶은 점이 있습니다. 1. 표본 표준편차는 불편 추정량이 아닌 것에 대해서 많은 인터넷/유튜브 통계 강의에서 이 부분을 분명히 하고 있지 않은데, 이번 영상도 그럴 오해의 여지가 있다고 생각합니다. Bessel’s correction이 적용된 표본 분산s²은 모집단의 분산σ²을 가장 잘(best) 예측하는 불편 추정량입니다. E(s²) = σ². 하지만 표본 표준편차의 경우 n-1 correction을 적용하더라도 비선형성 때문에 여전히 모집단보다 underestimate(biased)되어 있습니다. 즉 E(s) ≠ σ 로서 표본 표준편차의 평균이 모집단의 표준편차와 일치하지 않습니다. 따라서 여러 표본셋이 있다고 하면, √(E(s²)) 을 사용하여야합니다. 불편 추정량으로서의 E(s’)=σ를 위해서는 unbiased estimation of standard deviation을 사용해야 하는데, 모집단의 분포에 따라 다르고 다소 복잡하기는 하지만 수학적 엄밀함이라는 측면에서 최소한 이런 것이 있다는 명시가 필요하다고 생각합니다. 2. 자유도를 이용한 표본분산 불편 추정량 증명방법 영상의 표본 분산 증명도 올바른 증명이긴 하지만 n-1에 대한 직관적인 이해를 얻기가 어렵다고 생각합니다.(제가 그랬습니다.) 성분 분해와 자유도를 이용한 증명이 n-1이 등장하는 이유를 더 잘 설명하지 않나 생각합니다. 특히 자유도에 대한 것은 정성적인 설명에는 아주 많이 나오지만, 실제로 명확하게 증명에 사용하는 것은 거의 보지 못했습니다. 간단히 소개하면 다음과 같습니다. x₁,…,xₙ이 독립 정규 무작위 변수(μ,σ²)일때 단위 벡터 u=(a₁,…,aₙ)ᵗ와의 내적을 x·u=a₁x₁+..+aₙxₙ이라고 하면, E(x·u)=a₁E(x₁)+…+aₙE(xₙ)이고 Var(x·u)=(a₁²+…+aₙ²)σ²=σ²이다. x₁,…,xₙ을 직교 분해하기 위해 다음과 같은 직교정규벡터를 사용하면, u₁=(1,..,1)ᵗ/√n u₂=(1,-1,0,…)ᵗ/√2 u₃=(1,1,-2,0,…)ᵗ/√6 uₙ=(1,…,1,-(n-1))ᵗ/√(n(n-1)) n차원 벡터 x는 다음과 같이 직교 분해할 수 있다. (u₂,…,uₙ의 선정은 임의적이며 다른 직교 벡터를 선택하더라고 결과는 같다.) x=(x·u₁)u₁+…+(x·uₙ)uₙ u₁ 성분의 평균과 분산은 다음과 같다. E(x·u₁)= √nμ이고 Var(x·u₁)=σ² 이다. (E[(x·u₁)²]=σ²+nμ²) 이 u₁ 방향의 성분은 모집합의 평균 μ를 추정하는데 사용된다. 평균을 추정하는 df(자유도degree of freedom)는 성분이 1개이므로 1이다. 모델 벡터라고도 부른다. x̄ = (x·u₁)u₁=(x₁+..+xₙ)/n (1,...,1)ᵗ 나머지 방향 u₂,..,uₙ 성분은 E(x·uᵢ)=0 이고 Var(x·uᵢ)=E[(x·uᵢ)²]=σ²으로서, 분산을 추정하는데 사용되며(best unbiased estimator), df는 n-1이다. (오류 벡터라고도 부른다.) 이러한 나머지 n-1개 독립 변수 성분의 평균으로 추정한 분산을 표본 분산이라고 부른다. s²=[(x·u₂)²+…+(x·uₙ)²]/(n-1) x - x̄ = (x·u₂)u₂+…+(x·uₙ)uₙ 이므로 표본분산은 다음과 같아진다. s² = |x-x̄|²/(n-1) = ∑(xᵢ-x̄)²/(n-1) 이 방법은 표본 분산의 의문을 해결한다. ∑(xᵢ-x̄)²의 항의 수는 n개인데 왜 n-1로 나누는가? 그것은 독립제곱성분인 (x·u₂)²+…+(x·uₙ)²의 원래 갯수는 n-1개이고 이것을 평균하기 때문이다. (긴 글 읽어주셔서 감사합니다.)
표준편차, 표본표준편차, 표본평균의표준편차, 표준오차 등등 어휘부터 헷깔려서 계속 찾아보고 있는데 이 영상이 개념적으로도 수식으로도 구체적인 논리와 설명이 다 나와있어서 반복해서 보면 이제는 이해할 수 있을거 같다는 희망이 생기네요 ! 여러번 돌려보고 정확히 이해할 수 있도록 하겠습니다. ```더 생각해보기 위한 개인용 댓글``` 9:17 에서 크기가 n인 표본을 추출하고, 이 표본의 표준편차들이 작게 도출되려면, 모집단의 분포가 정규분포에 근사하는 식으로 평균 근처에 변량들이 더 많이 분포한다는 전제가 있어야 하는 것 아닌가 ? (영상에 띄워진 화면 그림을 당연하다며 자동적용하면 맞지만, 말로 논리를 설명할 때는 포함되지 않았음) '전제가 없다면' 9:46의 설명만으론, 표집된 표본의 분포가 달랐다면 오히려 표본표준편차가 모표준편차보다도 증폭되는 경우도 발생하는데 이 빈도가 표본이라서 적게 발생한다고 할 수 있을거 같진 않다고 생각하는 중.
표본 표준편차-> 한 개체의 이유를 찾는다. 독특하게 튀는 값이 있다면 그걸 빼서 계산하는 하는 건가요.? 시험을 여러번 보게한다.->각 시험의 유형(같은 시험의 과목)이나 지식별로 난이도를 강화하거나 낮춘다.->시험을 계속 보게하되 오답과 점수를 말해주지 않는다.->추가적인 공부를 시키지 않는다.->튀는 이유를 찾는다.->시험은 계속 본다.->일반적인 표준 까지 산도가 평균적인 수준이 되는 이유를 찾기->떨어지는 사람들이 시험에서 점수가 어떻게 하면은 잘 나오는지 안 나오는지 판단 -> 아니 그냥 그 사람이 이해하고 모르는 부분을 찾는건데? 모집단 표준편차-> 잘 보는 사람과 못 보는 사람들의 케이스 맞나?
+)질문추가 선생님, 그런데 15:20에서는 σ²=E[Σ(Xn-Xbar)²/(n-1)] 인데, 15:25에서는 σ= √ (Xn-Xbar)²/(n-1)입니다. E[]가 왜 빠진건지, E[]가 빠졌는데 등식이 성립할 수 있나요? 대박이네요. 설마 이런 걸 자세하게 설명해주는 게 있겠어? 싶었는데 개념서에 대충 적힌 설명을 이렇게 정성껏 풀어주셔서 정말 감사합니다.
좋은 질문입니다. 제가 예시로 표본추출을 할때는 비복원추출처럼 설명을 드렸습니다만 (1,2,3중에 2개를 뽑을때 1을 두번 뽑는건 없는 케이스처럼) 기대값 계산을 할때는 복원추출로 (1을 두번 뽑는 것이 가능) 이해하고 계산했습니다. 표본을 n번 뽑는다고 하면 복원추출의 경우 모든 모집단이 안나오는 경우들이 있겠죠. 그때의 표준편차로 모표준편차를 추정할땐 여전히 n-1로 나누는 것이 맞을 것입니다.
이 부분에.대한.설명은 대학교 교재에서도 본 적이 없어서 예전에 외국 강의 사이트를 뒤져서 이해했었습니다.(영상과 동일한 방법) 믈론 제가 학교에서 고등학생들에게 자세한 설명을 하진 않습니다. 단지 그렇게 해야 오차가 줄어들기 때문이고, 기대값을 계산해보면 저리 나온다고 말해줄 뿐이죠. 아 물론 학생들은 관심이 없습니다. s는 시험에 거의 안나오니까요. 슬픈 일이죠.... 시험에 나오면 보고 시험에 안나오먄 안본다는게...
영상에서는 표준편차 식이 왜 2가지인지에 대한 깊은 이해를 제공해줬어요. 강의자가 각각의 식이 나오게 된 배경과 적용되는 상황을 자세하게 설명해주어서, 표준편차를 두 가지 식을 통해 더 효과적으로 이해할 수 있었습니다. 수학적인 내용이지만 완전히 이해할 수 있게 해준 좋은 강의였습니다.
안녕하세요 늘 유익한 영상 잘 보고 있습니다! 통계 관련하여 궁금한 것이 있어 여쭈어보고자 합니다. 분산을 편차 제곱에 대한 평균으로 정의하는데, 편차의 평균이 항상 0이 되기 때문으로 알고 있습니다. 그럼 제곱 대신 절댓값의 평균으로 정의하지 않는 이유가 궁금합니다. 특히나 분산에 루트를 씌어 값을 보정(?)하는 것 때문에 더욱 궁금했습니다!
절대값의 평균으로 산포도를 측정할 수도 있겠으나 분산이나 표준편차의 개념을 쓰지 않는 것은 상상하기 어렵습니다. 예를 들어, 정규분포를 표현하는 식에도 표준편차 시그마가 포함되고요. 분산은 제곱들의 평균에서 평균의 제곱을 뺀 것이니 "제곱의 평균" 개념이 포함되어 있는데, 분포의 대칭성을 측정하기 위해서는 skewness라고 하는 세제곱의 평균이 활용되기도 합니다. 모먼트 제너레이팅 펑션에 n제곱의 평균텀들이 쓰이기도 하고요. 분포의 성질을 이해하기 위해서는 제곱의 평균을 활용하는 것이 더 자연스럽습니다.
-이 댓글은 뇌피셜로 작성되었습니다-- 절댓값을 이용해 산포도를 측정하는 것도 아이디어가 될 수 있다고 생각합니다. 핵심은 절댓값으로 계산하는 것과 제곱으로 계산하는 것으로 말미암아 어떤 차이가 생기는지겠네요. 개인적으로 -2, -2, 2, 2와 -2, -2, 1, 3의 두 수집단을 생각해보면 어느 정도 납득이 가지 않을까 합니다. 어떤 변량이 평균값에서 멀리 떨어짐으로써 전체에 영향을 주는 정도를 편의상 '극단성'이라는 단어로 정의한다면 둘 다 평균이 0인 수집단이지만 후자의 경우 3이라는 좀 더 극단적인 변량이 있는데, 절댓값을 이용한 산포도는 둘 다 8로 똑같이 나와 이러한 극단성이 반영되지 않습니다. 극단적인 변량의 존재의미를 중요하게 따지는(재앙 예측 등) 자료의 경우까지도 의미있는 산포도이기 때문이지 않을까 생각해봅니다.
표본분산의 평균이 모분산이 되도록 하기 위해 n-1로 나누는 건 많은 책에 다 나와있습니다. 그리고 이때 표본표준편차의 평균은 모표준편차가 되지 않는다는 것도 알려져 있고요. 1. 왜 표본표준편차의 평균이 모표준편차가 되도록 하지 않고 표본분산의 평균이 모분산이 되도록 하는 걸까요? (루트 때문에 계산이 더 복잡해져서 그런걸까요?) 2. 표본표준편차의 평균이 모표준편차가 되도록 하려면 표본표준편차의 정의를 어떻게 해야 하는지 혹시 아시면 알려주시면 감사하겠습니다.
@@user-xp6fu5jv7u 1. 루트를 하고 안 하고 정도의 문제와 질문이 아니었습니다. 루트를 씌우는 게 그리 대단한 일이 아니라면, 표본표준편차의 기댓값, 즉 E(S)=sigma가 되도록 하기 위한 이때의 E의 정의를 어떻게 정할 수 있을 지에 대한 질문이었습니다. 2. 이 영상은 표본분산의 기댓값이 모분산이 된다는 것, 즉 E(S^2)=sigma^2을 소개하는 것이고요 ㅎ... 제 질문은 표본표준편차의 기댓값이 모표준편차가 되도록, 즉 E(S)=sigma가 되도록 하기 위한 E의 정의가 무엇일지에 대한 질문이었습니다. 영상과 질문을 꼼꼼히 봐주세요~
저랑 비슷한 고민을 하셨군요. 위키피디아에 따르면 모분산과 달리 모표준편차에 대한 불편추정량은 통계량이 가지는 분포에 따라 달라진다고 합니다. 따라서 표본분산처럼 분포와 상관없는 일반화된? 모표준편차에 대한 불편추정량 값은 없는듯합니다. 다만 특이 케이스로 통계량이 정규분포를 따를때 모표준편차에 대한 불편추정량을 계산할 수 있지만, 감마함수가 포함된 형태로 굉장히 복잡한 형태의 불편추정량을 가집니다.
사실 진실을 모르는 평균과 분산을 추정해야 되는데 무식한 추정이 아니다란 기준 중 하나인 한쪽으로 치우치지 않는다란 성질 (불편성)이 성립이 되게하기 위해 표본분산엔 n-1로 나누는거 같아요. 근데 자유도랑 불편성과도 관련이 있는지 궁금해요. 자유도가 말그대로 얼마나 자유하냐는 정도인데 그 자유가 무엇으로부터 자유한 건지도 궁금해요. 실제 단순선형회귀식의 경우 불편성을 만족하는 분산은 n-2로 나누거든요.(사실 우리가 아는 표본평균을 구하는 방식이 상수항+에러텀이 있는 식에서 상수항을 ols로 추정하는 것이죠) 요는 자유도가 무엇으로부터 자유한것인지를 나타내는지 이 자유도와 불편성과 왜 연관될 수 밖에 없는지 이게 궁금합니다
30년도 전에 degree of freedom배운 것 같은데, 아마도 강사가 도출은 안하고 그냥 넘어간 듯 합니다 --> 아직 기억나는 게 분산은 1을 줄여주고 그 뭐지 skewdness는 2인지 4인지를 빼준다... 뭐 이런건데, 맞나요?? 머리가 나빠서 왜 1빼ㅜ는지 부분은 못따라갔습니다만, 줄이는 이유는 알겠습니다. 감사합니다.