Лекция 5. Проверка статистических гипотез (теоретическое введение)

Подписаться 160 тыс.

Просмотров 47 тыс.

50% 1

compscicenter.ru/
Проверка статистических гипотез (теоретическое введение).
Гипотезы согласия, однородности, независимости, гипотезы о параметрах распределения.
Ошибки первого и второго рода, р-значение и уровень значимости, алгоритм проверки статистической гипотезы и интерпретация результатов. Гипотеза о нормальности распределения. Критерии Шапиро-Уилка и Колмогорова-Смирнова. Несущественные отклонения от нормальности. Сравнение выборок. Независимые и парные выборки. Выбор между t-критерием Стъюдента, критерием Манна-Уитни-Вилкоксона и критерием Муда. Разновидности t-критериев Стъюдента и сравнение дисперсий. Визуализация при сравнениях. Односторонние и двусторонние тесты.
Независимость. Коэффициенты корреляции Пирсона, Кендалла и Спирмена, типичные ошибки при изучении связи между двумя явлениями. Визуальная проверка выводов.
Лекция №5 в курсе "Анализ данных на Python в примерах и задачах. Часть 1" (весна 2018).
Преподаватель курса: Вадим Леонардович Аббакумов

Опубликовано:

15 авг 2018

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист

Посмотреть позже

Комментарии : 54

@TahhuVah 5 лет назад

Очень крутой преподаватель. 5 лекцию смотрю, не отрываясь. Заумь стала понятной.

@MegaZxzxzxzx 5 лет назад

Лучший набор лекций для людей не имеющих профильное образование. Спасибо, Вадим Леонардович!

@marokesh4560 4 года назад

Огромное спасибо! Самая лучшая подача информации, что я видел в жизни!

@ipanika 4 года назад

3:58 - Проверка статистических гипотез (Версия 3) 48:22 - Алгоритм проверки статистических гипотез 1:36:08 - Критерий Шапиро-Уилка 2:16:00 - Критерий Манна-Уитни

@demetriusabel947 2 года назад

I know I'm pretty randomly asking but does anyone know a good place to watch newly released movies online?

@demetriusabel947 2 года назад

@Nathan Ares thank you, I went there and it seems like they got a lot of movies there :D I really appreciate it!

@nathanares5233 2 года назад

@Demetrius Abel glad I could help xD

@user-kv2fh3lg6m 2 года назад

Мое почтение! Какой светлый человек!

@ivanolefirenko5508 Год назад

Это просто потрясающий лектор! Смотрю взахлёб. Чем-то напоминает Павла Виктора по физике) Спасибо, Вадим Леонардович!

@g.glechyan 8 месяцев назад

Рискну предположить, что потому что есть люди с 1 глазом и/или без глаз вообще. И в таком случае среднее получается меньше 2

@ivanolefirenko5508 8 месяцев назад

@@g.glechyan а ларчик просто открывался, спасибо!

@denisbaranoff 3 года назад

Хе.... тотальная вакцинация, особенно клёво это читать в апреле 2021

@user-zj6xb6sp8y 2 года назад

А как прикольно в августе...

@icanfast 5 лет назад

На моменте с экспоненциальным распределением и зачем оно нужно подумалось о законе Бенфорда)

@user-ul6yv9pr8e 11 месяцев назад

спасибо!

@user-io1ze3nl9o 3 года назад

Вадим Леонардович, а как быть в случае, когда нас интересует альтернативная гипотеза в виде EX > EY? Как я понял, в Питоне при проверке гипотез строго определено: основная гипотеза - равно, альтернативная - не равно.

@Vadim_Abbakumov 3 года назад

Гуглите "односторонняя гипотеза Критерий Стьюдента" Есть возможность пересчета результатов проверки двусторонней гипотезы в одностороннюю.

@user-io1ze3nl9o 3 года назад

@@Vadim_Abbakumov Большое спасибо.

@user-bl5lw7ho6s 4 года назад

1:59:28 Скажите, пожалуйста, а что Вы думаете по поводу использования моды в качестве центра распределения и типичного значения?

@Vadim_Abbakumov 4 года назад

Если переменная измерена в номинальной шкале, то используем моду. Если в количественной шкале, то очень редко. Мода неустойчива, небольшое увеличение выборки может очень сильно ее изменить...

@user-bl5lw7ho6s 4 года назад

@@Vadim_Abbakumov, спасибо за ответ и за лекции, Вы замечательно всё объясняете!

@sabbraxcaddabra 2 года назад

@@user-bl5lw7ho6s видел в интернете отличный пример на эту тему. Моду удобно использовать чтобы описать типичный размер обуви. В том смысле что шкала размеров чаще(вероятно почти всегда) дискретна и ограничена кол-вом размеров.Поэтому например, производитель обуви, когда задумается о том, какого размера ему нужно произвести больше пар, воспользуется модой и произведёт больше всего пар того размера, которого чаще всего покупают. Пример достаточно тривиальный, но по моему неплохо дополняет ответ Вадима Леонардовича об использовании моды, когда переменная номинальная(или ранговая как я привык называть)

@MinisterDorado Год назад

1:13:34 мне кажется с масштабом проблема. Было сказано, что дисперсия равна 1.

@Vadim_Abbakumov Год назад

У среднего арифметического дисперсия уже не 1.

@pavelbrudanov6701 4 года назад

Извините что беспокою. А можно узнать такую вещь: правило трех сигм работает только для нормального распределения? Или все таки его можно использовать как непараметрический метод, но учитывать, что туда попадет больше 1% наблюдений?

@Vadim_Abbakumov 4 года назад

Работает для величин, у которых гистограмма (на самом деле плотность распределения) имеет один пик. И в интервал попадет 95% наблюдений. А если пиков несколько (мультимодальное распределение), то наверное у нас смесь распределений, и надо с этим разбираться. И немного субъективного: не люблю применять правило трех сигм для несимметричных распределений вроде логнормального.

@pavelbrudanov6701 4 года назад

@@Vadim_Abbakumov а какими методами статистики кроме 3х сигм и межквартильного расстояния можно пользоватся для поиска аномалий? Данные примерно такие: набоюдения за три года, шкала от 0 до 100, наблюдаемые одни и теже, пик распределения смещен вправо. Разница междц максимальным и минимальным значением за три года от 0 до примерно 40. Около 10 групп наблюдений (это, что то вроде теста данного по разным психологическим конструктам). Я пробовал просто 3 сигмы, но по некоторым конструктам получил колоссальный пазброс порядка 30 баллов (3 сигмы) решил сделать по другому - взял разницу между максимальным и минимальным значением, тогда 3 сигмы сократились до 21. Но беспокоит во первых возможность обосновать такой подход, а во вторых его состоятельность в этой ситуации. Может быть отбросить конструкт который дает такой большой разброс и по остальным провести стандартные 3 сигмы? Или есть какой то метод о котором я не знаю? :)) Межквартильное расстояние дает еще более плохие результаты.

@Vadim_Abbakumov 4 года назад

@@pavelbrudanov6701 Методов очень много, всех не перечесть. Попробуйте методы, свободные от распределения. Например, вместо среднего - медиана, вместо линейной регрессии квантильную регрессию и так далее. И аномальные наблюдения перестанут быть проблемой

@RbWadim 4 года назад

@@pavelbrudanov6701 В пакете sklearn на Python есть Novelty and Outlier Detection scikit-learn.org/stable/modules/outlier_detection.html Там же есть ссылки на первоисточники, исходя из которых имплементировали алгоритмы.

@user-hg7he8iu2x 2 года назад

@@Vadim_Abbakumov скажите пожалуйста, у меня две выборки в каждой по 100000 наблюдений,которые распределены логнормально и я хочу проверить гипотезу о равенстве среднего. Мне нужно по критерию Стьюдента их сравнивать, как я привык, или, если я правильно понял вашу лекцию, есть только два других пути: Прологарифмировать или тест на равенство медиан? Совсем не нашел в интернете информации, как проверять такие гипотезы для логнормального, какие статистики искать.

@user-bq5dz8ke7m 4 года назад

Из википедии: Ошибки первого рода - «ложная тревога» (начали лечить, когда не нужно было). и ошибки второго рода - «пропуск цели» (не начали лечить, когда было нужно). Уточните пожалуйста, почему ошибка первого рода тяжелее по своим последствиям? Пересмотрел и предыдущий курс, там такое же утверждение.

@Vadim_Abbakumov 4 года назад

Потому что она ограничена маленьким числом, уровнем значимости. Процент каких ошибок Вы желаете ограничить? Более тяжелых по своим последствиям. А доля ошибок 2-го рода может быть большой, может превышать 0.5...

@qwqw2674 4 года назад

Тоже не сразу понял. В лекции за Н0 - взята гипотеза о том, что человек болен (нуждается в срочной операции), в Википедии же наоборот. Цитата оттуда: "принято считать, что нулевая гипотеза H0 соответствует состоянию «по умолчанию» (естественному, наиболее ожидаемому положению вещей) - например, что обследуемый человек здоров". Из-за этого путаница в интерпретации ошибок первого и второго рода.

@coolbrain 2 года назад

@@Vadim_Abbakumov тут ведь все зависит какую гипотезу за нулевую взять. Как обычно решение принимается , что нулевая гипотеза - человек болен а не здоров?

@svivanov123 2 года назад

Тяжелее/не тяжелее - от задачи зависит. Кредиты выдавать - одно, а атомными станциями управлять - совсем другое.

@little_spoon_of_love Год назад

@@qwqw2674 Присоединяюсь. С тяжестью ошибок внесена путаница. Для себя в качестве опоры уяснил пока, что вроде бы нулевая гипотеза всегда обозначает отсутствие различий. То есть с больными будет как-то так: что лечить, что не лечить один фиг, то есть он то ли здоров, то ли уже помер почти. А значит нам важнее уменьшить именно ошибку второго рода.

@ivanolefirenko5508 Год назад

Почему у человека в среднем меньше 2-х глаз? Пояснительную бригаду

@igorigor8128 5 лет назад

Непонятно с р-уровнем. Если мы задали уровень значимости 0.05 и получили р-значение 0.03, то с одной стороны мы отвергаем основную гипотезу т.к. 0.03 < 0.05, а с другой стороны, для уровня значимости 0.01, более строгого, мы нулевую гипотезу не отвергаем, т.к. 0.03 > 0.01 Как так-то ?!

@Vadim_Abbakumov 5 лет назад

Что значит "строго"?.. В случае перехода с 0.05 к 0.01 мы более строго относимся к идее "отвергнуть основную гипотезу" и отвергаем ее реже

@igorigor8128 5 лет назад

Спасибо@@Vadim_Abbakumov

@evilbat8205 Год назад

Думаю зависимость из Швеции заключается в том что птицы прилетают весной, а за этим идёт лето соответственно и сезон отпусков

@OlgaGalanina 2 месяца назад

Это лекции для студентов каких специальностей, факультетов? Это какой курс?

@Vadim_Abbakumov День назад

Это лекции для слушателей CSC...

@OlgaGalanina День назад

@@Vadim_Abbakumov ага, я сразу так и поняла) что такое csc?)))

@gbrs72 9 месяцев назад

:) майкельсон-морли не первые, кто измерял скорость света. С 17 века этим безобразием занимаются. Ну, и Плутон тогда не худеет ли? :)

@user-ul6yv9pr8e 11 месяцев назад

есть же нормальные преподаватели. почему мне с ними не везло. емае

@engeneerengeneer3986 2 года назад

смотрю до 32 минуты одно мыло.... можно было так долго не рассуссоливать. С 56:02 более по делу 1:08:25 примеры начались

@user-nq1ne7uq2t 2 года назад

вот, соглашусь, у этого лектора "воды" больше 50%, да еще и путаное объяснение. Скачет с мысли на мысль, с понятия на понятие. Я молчу про примеры из "мезозоя". Чтобы понять, что он транслирует, надо быть "очень в теме", иначе придется идти и искать иные объяснения.

@denisbaranoff 3 года назад

Печальное зрелище. Удивительный квалификации преподаватель и никто ничего не спрашивает. . .Смотря его предыдущие лекции - он реально потрясающий.

@user-nq1ne7uq2t 2 года назад

можно быть удивительно квалифицированным и удивительно непонятно объяснять. группа, очевидно, смешанная. студенты не понимают почти ничего, что он вещает. это же очевидно))) отсюда и молчание. иначе бы были вопросы. если студенты "нулевые", то подавать информацию надо было "на пальцах". любой препод бы понял, что студенты в ауте)) а он гнет свое и лишь спрашивает изредка "понятно, коллеги". понятно, что ничего непонятно. п/с/ они пишут про пререквизиты к курсу - знание теорвер, матанализ и тп. но в первой лекции он спросил, кто не знает, что такое квантиль, и студенты подняли руки)))) и что они сейчас должны спрашивать.

@sabbraxcaddabra 2 года назад

А бывают случаи когда проверка гипотезы о параметрах распределения и совпадении функции распределения выясняют одно и то же? Приведу пример из жизни. Имея некоторый набор данных я предположил, что случайная величина распределена по закону Вейбулла. Далее я используя возможности scipy.stats подобрал для этого распределения коэффициенты которые лучше подходят под данные. Как мне в таком случае проверить правильность подобранного распределения - проверить функцию с получившимися параметрами, или сами параметры распределения? Или это одно и то же ?

@Vadim_Abbakumov 2 года назад

Вспомним критерий Колмогорова-Смирнова. Если в тестовую статистику подставить оценку, то распределение статистики изменится. Проблему решает поправка Лилиефорса. Здесь так же, но надо гуглить, как подправлять.

@svivanov123 2 года назад

qq и pp биплоты нужно глазами смотреть. Стандартные тесты не особо надежны