Тёмный

Лекция 5. Проверка статистических гипотез (теоретическое введение) 

Computer Science Center
Подписаться 160 тыс.
Просмотров 47 тыс.
50% 1

compscicenter.ru/
Проверка статистических гипотез (теоретическое введение).
Гипотезы согласия, однородности, независимости, гипотезы о параметрах распределения.
Ошибки первого и второго рода, р-значение и уровень значимости, алгоритм проверки статистической гипотезы и интерпретация результатов. Гипотеза о нормальности распределения. Критерии Шапиро-Уилка и Колмогорова-Смирнова. Несущественные отклонения от нормальности. Сравнение выборок. Независимые и парные выборки. Выбор между t-критерием Стъюдента, критерием Манна-Уитни-Вилкоксона и критерием Муда. Разновидности t-критериев Стъюдента и сравнение дисперсий. Визуализация при сравнениях. Односторонние и двусторонние тесты.
Независимость. Коэффициенты корреляции Пирсона, Кендалла и Спирмена, типичные ошибки при изучении связи между двумя явлениями. Визуальная проверка выводов.
Лекция №5 в курсе "Анализ данных на Python в примерах и задачах. Часть 1" (весна 2018).
Преподаватель курса: Вадим Леонардович Аббакумов

Опубликовано:

 

15 авг 2018

Поделиться:

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист
Посмотреть позже
Комментарии : 54   
@TahhuVah
@TahhuVah 5 лет назад
Очень крутой преподаватель. 5 лекцию смотрю, не отрываясь. Заумь стала понятной.
@MegaZxzxzxzx
@MegaZxzxzxzx 5 лет назад
Лучший набор лекций для людей не имеющих профильное образование. Спасибо, Вадим Леонардович!
@marokesh4560
@marokesh4560 4 года назад
Огромное спасибо! Самая лучшая подача информации, что я видел в жизни!
@ipanika
@ipanika 4 года назад
3:58 - Проверка статистических гипотез (Версия 3) 48:22 - Алгоритм проверки статистических гипотез 1:36:08 - Критерий Шапиро-Уилка 2:16:00 - Критерий Манна-Уитни
@demetriusabel947
@demetriusabel947 2 года назад
I know I'm pretty randomly asking but does anyone know a good place to watch newly released movies online?
@demetriusabel947
@demetriusabel947 2 года назад
@Nathan Ares thank you, I went there and it seems like they got a lot of movies there :D I really appreciate it!
@nathanares5233
@nathanares5233 2 года назад
@Demetrius Abel glad I could help xD
@user-kv2fh3lg6m
@user-kv2fh3lg6m 2 года назад
Мое почтение! Какой светлый человек!
@ivanolefirenko5508
@ivanolefirenko5508 Год назад
Это просто потрясающий лектор! Смотрю взахлёб. Чем-то напоминает Павла Виктора по физике) Спасибо, Вадим Леонардович!
@g.glechyan
@g.glechyan 8 месяцев назад
Рискну предположить, что потому что есть люди с 1 глазом и/или без глаз вообще. И в таком случае среднее получается меньше 2
@ivanolefirenko5508
@ivanolefirenko5508 8 месяцев назад
@@g.glechyan а ларчик просто открывался, спасибо!
@denisbaranoff
@denisbaranoff 3 года назад
Хе.... тотальная вакцинация, особенно клёво это читать в апреле 2021
@user-zj6xb6sp8y
@user-zj6xb6sp8y 2 года назад
А как прикольно в августе...
@icanfast
@icanfast 5 лет назад
На моменте с экспоненциальным распределением и зачем оно нужно подумалось о законе Бенфорда)
@user-ul6yv9pr8e
@user-ul6yv9pr8e 11 месяцев назад
спасибо!
@user-io1ze3nl9o
@user-io1ze3nl9o 3 года назад
Вадим Леонардович, а как быть в случае, когда нас интересует альтернативная гипотеза в виде EX > EY? Как я понял, в Питоне при проверке гипотез строго определено: основная гипотеза - равно, альтернативная - не равно.
@Vadim_Abbakumov
@Vadim_Abbakumov 3 года назад
Гуглите "односторонняя гипотеза Критерий Стьюдента" Есть возможность пересчета результатов проверки двусторонней гипотезы в одностороннюю.
@user-io1ze3nl9o
@user-io1ze3nl9o 3 года назад
@@Vadim_Abbakumov Большое спасибо.
@user-bl5lw7ho6s
@user-bl5lw7ho6s 4 года назад
1:59:28 Скажите, пожалуйста, а что Вы думаете по поводу использования моды в качестве центра распределения и типичного значения?
@Vadim_Abbakumov
@Vadim_Abbakumov 4 года назад
Если переменная измерена в номинальной шкале, то используем моду. Если в количественной шкале, то очень редко. Мода неустойчива, небольшое увеличение выборки может очень сильно ее изменить...
@user-bl5lw7ho6s
@user-bl5lw7ho6s 4 года назад
@@Vadim_Abbakumov, спасибо за ответ и за лекции, Вы замечательно всё объясняете!
@sabbraxcaddabra
@sabbraxcaddabra 2 года назад
@@user-bl5lw7ho6s видел в интернете отличный пример на эту тему. Моду удобно использовать чтобы описать типичный размер обуви. В том смысле что шкала размеров чаще(вероятно почти всегда) дискретна и ограничена кол-вом размеров.Поэтому например, производитель обуви, когда задумается о том, какого размера ему нужно произвести больше пар, воспользуется модой и произведёт больше всего пар того размера, которого чаще всего покупают. Пример достаточно тривиальный, но по моему неплохо дополняет ответ Вадима Леонардовича об использовании моды, когда переменная номинальная(или ранговая как я привык называть)
@MinisterDorado
@MinisterDorado Год назад
1:13:34 мне кажется с масштабом проблема. Было сказано, что дисперсия равна 1.
@Vadim_Abbakumov
@Vadim_Abbakumov Год назад
У среднего арифметического дисперсия уже не 1.
@pavelbrudanov6701
@pavelbrudanov6701 4 года назад
Извините что беспокою. А можно узнать такую вещь: правило трех сигм работает только для нормального распределения? Или все таки его можно использовать как непараметрический метод, но учитывать, что туда попадет больше 1% наблюдений?
@Vadim_Abbakumov
@Vadim_Abbakumov 4 года назад
Работает для величин, у которых гистограмма (на самом деле плотность распределения) имеет один пик. И в интервал попадет 95% наблюдений. А если пиков несколько (мультимодальное распределение), то наверное у нас смесь распределений, и надо с этим разбираться. И немного субъективного: не люблю применять правило трех сигм для несимметричных распределений вроде логнормального.
@pavelbrudanov6701
@pavelbrudanov6701 4 года назад
@@Vadim_Abbakumov а какими методами статистики кроме 3х сигм и межквартильного расстояния можно пользоватся для поиска аномалий? Данные примерно такие: набоюдения за три года, шкала от 0 до 100, наблюдаемые одни и теже, пик распределения смещен вправо. Разница междц максимальным и минимальным значением за три года от 0 до примерно 40. Около 10 групп наблюдений (это, что то вроде теста данного по разным психологическим конструктам). Я пробовал просто 3 сигмы, но по некоторым конструктам получил колоссальный пазброс порядка 30 баллов (3 сигмы) решил сделать по другому - взял разницу между максимальным и минимальным значением, тогда 3 сигмы сократились до 21. Но беспокоит во первых возможность обосновать такой подход, а во вторых его состоятельность в этой ситуации. Может быть отбросить конструкт который дает такой большой разброс и по остальным провести стандартные 3 сигмы? Или есть какой то метод о котором я не знаю? :)) Межквартильное расстояние дает еще более плохие результаты.
@Vadim_Abbakumov
@Vadim_Abbakumov 4 года назад
@@pavelbrudanov6701 Методов очень много, всех не перечесть. Попробуйте методы, свободные от распределения. Например, вместо среднего - медиана, вместо линейной регрессии квантильную регрессию и так далее. И аномальные наблюдения перестанут быть проблемой
@RbWadim
@RbWadim 4 года назад
@@pavelbrudanov6701 В пакете sklearn на Python есть Novelty and Outlier Detection scikit-learn.org/stable/modules/outlier_detection.html Там же есть ссылки на первоисточники, исходя из которых имплементировали алгоритмы.
@user-hg7he8iu2x
@user-hg7he8iu2x 2 года назад
@@Vadim_Abbakumov скажите пожалуйста, у меня две выборки в каждой по 100000 наблюдений,которые распределены логнормально и я хочу проверить гипотезу о равенстве среднего. Мне нужно по критерию Стьюдента их сравнивать, как я привык, или, если я правильно понял вашу лекцию, есть только два других пути: Прологарифмировать или тест на равенство медиан? Совсем не нашел в интернете информации, как проверять такие гипотезы для логнормального, какие статистики искать.
@user-bq5dz8ke7m
@user-bq5dz8ke7m 4 года назад
Из википедии: Ошибки первого рода - «ложная тревога» (начали лечить, когда не нужно было). и ошибки второго рода - «пропуск цели» (не начали лечить, когда было нужно). Уточните пожалуйста, почему ошибка первого рода тяжелее по своим последствиям? Пересмотрел и предыдущий курс, там такое же утверждение.
@Vadim_Abbakumov
@Vadim_Abbakumov 4 года назад
Потому что она ограничена маленьким числом, уровнем значимости. Процент каких ошибок Вы желаете ограничить? Более тяжелых по своим последствиям. А доля ошибок 2-го рода может быть большой, может превышать 0.5...
@qwqw2674
@qwqw2674 4 года назад
Тоже не сразу понял. В лекции за Н0 - взята гипотеза о том, что человек болен (нуждается в срочной операции), в Википедии же наоборот. Цитата оттуда: "принято считать, что нулевая гипотеза H0 соответствует состоянию «по умолчанию» (естественному, наиболее ожидаемому положению вещей) - например, что обследуемый человек здоров". Из-за этого путаница в интерпретации ошибок первого и второго рода.
@coolbrain
@coolbrain 2 года назад
@@Vadim_Abbakumov тут ведь все зависит какую гипотезу за нулевую взять. Как обычно решение принимается , что нулевая гипотеза - человек болен а не здоров?
@svivanov123
@svivanov123 2 года назад
Тяжелее/не тяжелее - от задачи зависит. Кредиты выдавать - одно, а атомными станциями управлять - совсем другое.
@little_spoon_of_love
@little_spoon_of_love Год назад
@@qwqw2674 Присоединяюсь. С тяжестью ошибок внесена путаница. Для себя в качестве опоры уяснил пока, что вроде бы нулевая гипотеза всегда обозначает отсутствие различий. То есть с больными будет как-то так: что лечить, что не лечить один фиг, то есть он то ли здоров, то ли уже помер почти. А значит нам важнее уменьшить именно ошибку второго рода.
@ivanolefirenko5508
@ivanolefirenko5508 Год назад
Почему у человека в среднем меньше 2-х глаз? Пояснительную бригаду
@igorigor8128
@igorigor8128 5 лет назад
Непонятно с р-уровнем. Если мы задали уровень значимости 0.05 и получили р-значение 0.03, то с одной стороны мы отвергаем основную гипотезу т.к. 0.03 < 0.05, а с другой стороны, для уровня значимости 0.01, более строгого, мы нулевую гипотезу не отвергаем, т.к. 0.03 > 0.01 Как так-то ?!
@Vadim_Abbakumov
@Vadim_Abbakumov 5 лет назад
Что значит "строго"?.. В случае перехода с 0.05 к 0.01 мы более строго относимся к идее "отвергнуть основную гипотезу" и отвергаем ее реже
@igorigor8128
@igorigor8128 5 лет назад
Спасибо@@Vadim_Abbakumov
@evilbat8205
@evilbat8205 Год назад
Думаю зависимость из Швеции заключается в том что птицы прилетают весной, а за этим идёт лето соответственно и сезон отпусков
@OlgaGalanina
@OlgaGalanina 2 месяца назад
Это лекции для студентов каких специальностей, факультетов? Это какой курс?
@Vadim_Abbakumov
@Vadim_Abbakumov День назад
Это лекции для слушателей CSC...
@OlgaGalanina
@OlgaGalanina День назад
@@Vadim_Abbakumov ага, я сразу так и поняла) что такое csc?)))
@gbrs72
@gbrs72 9 месяцев назад
:) майкельсон-морли не первые, кто измерял скорость света. С 17 века этим безобразием занимаются. Ну, и Плутон тогда не худеет ли? :)
@user-ul6yv9pr8e
@user-ul6yv9pr8e 11 месяцев назад
есть же нормальные преподаватели. почему мне с ними не везло. емае
@engeneerengeneer3986
@engeneerengeneer3986 2 года назад
смотрю до 32 минуты одно мыло.... можно было так долго не рассуссоливать. С 56:02 более по делу 1:08:25 примеры начались
@user-nq1ne7uq2t
@user-nq1ne7uq2t 2 года назад
вот, соглашусь, у этого лектора "воды" больше 50%, да еще и путаное объяснение. Скачет с мысли на мысль, с понятия на понятие. Я молчу про примеры из "мезозоя". Чтобы понять, что он транслирует, надо быть "очень в теме", иначе придется идти и искать иные объяснения.
@denisbaranoff
@denisbaranoff 3 года назад
Печальное зрелище. Удивительный квалификации преподаватель и никто ничего не спрашивает. . .Смотря его предыдущие лекции - он реально потрясающий.
@user-nq1ne7uq2t
@user-nq1ne7uq2t 2 года назад
можно быть удивительно квалифицированным и удивительно непонятно объяснять. группа, очевидно, смешанная. студенты не понимают почти ничего, что он вещает. это же очевидно))) отсюда и молчание. иначе бы были вопросы. если студенты "нулевые", то подавать информацию надо было "на пальцах". любой препод бы понял, что студенты в ауте)) а он гнет свое и лишь спрашивает изредка "понятно, коллеги". понятно, что ничего непонятно. п/с/ они пишут про пререквизиты к курсу - знание теорвер, матанализ и тп. но в первой лекции он спросил, кто не знает, что такое квантиль, и студенты подняли руки)))) и что они сейчас должны спрашивать.
@sabbraxcaddabra
@sabbraxcaddabra 2 года назад
А бывают случаи когда проверка гипотезы о параметрах распределения и совпадении функции распределения выясняют одно и то же? Приведу пример из жизни. Имея некоторый набор данных я предположил, что случайная величина распределена по закону Вейбулла. Далее я используя возможности scipy.stats подобрал для этого распределения коэффициенты которые лучше подходят под данные. Как мне в таком случае проверить правильность подобранного распределения - проверить функцию с получившимися параметрами, или сами параметры распределения? Или это одно и то же ?
@Vadim_Abbakumov
@Vadim_Abbakumov 2 года назад
Вспомним критерий Колмогорова-Смирнова. Если в тестовую статистику подставить оценку, то распределение статистики изменится. Проблему решает поправка Лилиефорса. Здесь так же, но надо гуглить, как подправлять.
@svivanov123
@svivanov123 2 года назад
qq и pp биплоты нужно глазами смотреть. Стандартные тесты не особо надежны
Далее
СКУФИЗАЦИЯ ЗА 4 МЕСЯЦА
00:16
Просмотров 978 тыс.
6. Проверка гипотез: основы
1:29:22
Лекция 11. Random forest
50:12
Просмотров 19 тыс.
09-01 Проверка гипотез
12:40
Просмотров 9 тыс.