Тёмный

Открытое собеседование по статистике с Анатолием Карповым | karpov.courses 

karpov.courses
Подписаться 47 тыс.
Просмотров 38 тыс.
50% 1

Опубликовано:

 

29 сен 2024

Поделиться:

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист
Посмотреть позже
Комментарии : 62   
@ivanorlov165
@ivanorlov165 2 года назад
Всем привет, это "Associate Data Analyst из Krisp Иван", спасибо Анатолию за чудесное интервью! Несколько комментариев-уточнений/исправлений: 14:15 -- ошибся-заговорился: между 20 и 40 и 1000 и 2000 разница та же (корень из 2), просто для получения в первом случае пришлось добавить 20 измерений, а во втором -- 1000. Смысл в том, что при росте размера выборки нам приходится добавлять всё больше элементов для того же уменьшения дисперсии. 17:40 -- всё очень плохо, всё перепутал. Объяснение Анатолия гораздо лучше: В выборочной дисперсии (n-1) -- из-за переоценки выборочной дисперсии, потому что минимизирует числитель (сумму квадратов разностей) именно выборочное среднее, а истинное от него отклоняется -> числитель для истинной дисперсии (считаемой от истинного среднего) будет больше -> в формуле выборочной дисперсии нужно сделать поправку, которая увеличит её, отсюда и "небольшое уменьшение" знаменателя. 48:40 -- ошибки в размышлениях есть, но с выправлениями Анатолия мы вышли к правильному выводу: вместо "мы ничего не можем сказать", "мы можем сказать, что мы либо с вероятностью альфа не нашли существующее различие, либо различие меньше установленного порога". Ну и всем рекомендую посетить сайт krisp.ai (мне за это не платят, ну и ладно, хотя и жаль).
@НищебродАндрей
Слишком надменный ты. Неприятно слушать
@Constantine_Bones
@Constantine_Bones Год назад
ты кайфовый чел, на харизме
@nx4tl
@nx4tl 2 года назад
Толя находит время, чтобы делать контент даже при такой красоте сзади
@AlexxxeyS
@AlexxxeyS 2 года назад
Шикарная шевелюра. Контент тоже нормальный👍
@karpovcourses
@karpovcourses 2 года назад
Материалы, по которым соискатели готовились к собеседованию: Обзор системы сплитования (на примере Авито): habr.com/p/454164/ Краткий обзор по статистическим тестам: vkteam.medium.com/practitioners-guide-to-statistical-tests-ed2d580ef04f Пуассоновский бутстрап: ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-Zki9VMzxcFU.html Подсчёт MDE: medium.com/statistics-experiments/когда-останавливать-a-b-тест-часть-1-mde-7d39b668b488 (Часть 1) medium.com/statistics-experiments/когда-останавливать-a-b-тест-часть-2-monte-carlo-a342ba5b552c (Часть 2) Стратификация: habr.com/ru/company/X5Tech/blog/596279/ Методы сокращения дисперсии и зачем это нужно: ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-KvIJ8FCJzr4.html Увеличение чувствительности в A/B с помощью Cuped: ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-pZpUM08mv-E.html Про FPR, TPR, Statistical power и p-value: ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-XTcP4oo4JI4.html ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE--zps6hm0nX8.html ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-2nP_gcut7SU.html Канал для подготовки к интервью в сфере Data Science: ru-vid.com Лекция Нерсеса Багияна про A/B-тесты: ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-cWmS-ws4z9I.html Курс «Основы статистики»: stepik.org/course/76/syllabus Курс «Основы статистики. Часть 2»: stepik.org/course/524/syllabus Курс «Основы статистики. Часть 3»: stepik.org/course/2152/syllabus
@ilyin_sergey
@ilyin_sergey Год назад
Анатолий (и коллеги), можете поделиться статьями о "проблемах" p-value, почему нельзя сломя голову бежать и ему верить?
@mlpython1089
@mlpython1089 2 года назад
Спасибо парни за материал. Помог освежить знания и составить список пробелов.
@TheBeliever30
@TheBeliever30 2 года назад
Какой Иван хорошенький 😍
@johnMilton14
@johnMilton14 2 года назад
Из-за прически такое ощущение, что Анатолий Карпов ненастоящий ))
@ВенераКозлова-м8м
@ВенераКозлова-м8м 2 года назад
Я надеюсь, этот список вопросов не для джуна?😱
@krislis6645
@krislis6645 Год назад
Сама в шоке сижу слушаю😀
@LostMakaveli
@LostMakaveli Месяц назад
Не перестаю удивляться какой классный Анатолий учитель. Уважаю когда человек старается объяснить основные принципы простой понятной логикой, показать какой главный смысл. И все это в простых примерах. Я сам не могу понять вещь пока не пойму всю логику. Не могу тупо что-то зазубрить. А когда понимаешь логику, то все становится понятно и легко запоминается. Короч, респект
@ЯнаРомановская-н2я
Ой,блин,сколько ещё учить то надо,елки палки!/ Настроение упало после просмотра чуть)
@romanbond1060
@romanbond1060 9 дней назад
сколько собеседовался статистику не спрашивали нигде, было что то похожее типа проанализировать датасет, но там просто построить графики и дать общие определения, без всяких этих научных терминов. здесь скорее на продакт аналитика собес, да то большинству компаний это не уперлость, понимание воронок и умение строить метрики тогда, но опять же это продакт. для дата аналитика сиквел, пайтон, табло и вот это вот все... в последнее время уже требуют ETL, Airflow, Spark, построение витрин как минимум для мидла.
@ai-artistry-channel
@ai-artistry-channel 2 года назад
Анатолий, а вы обратили внимание, что у вас на фоне бимодальное распределение)
@grievingdad5848
@grievingdad5848 2 года назад
Вставить комментарий для демонстрации благодарности Анатолию за контент
@irker8220
@irker8220 2 года назад
Спасибо ведущему и собеседующего - очень много полезной информации. Отличный вариант, чтобы провериться себя. Отличная получилась беседа. Выпуск огонь! :)
@T_i_m_T_i_m
@T_i_m_T_i_m 2 года назад
Почему когда говорите о se, говорите что наверху в формуле дисперсия? Там же стандартное отклонение.
@СаенкоДенис-ь4е
@СаенкоДенис-ь4е 2 года назад
Получил интелектуальное удовольствие от ролика. Спасибо.
@malanius90
@malanius90 2 года назад
Nice hair, awesome view
@Alex_the_Great_86
@Alex_the_Great_86 Месяц назад
уже при усредненном n=4 распределение близко к нормальному, n=30 это уже явно перебор
@A_P___
@A_P___ 2 года назад
не очень понимаю зачем мне наизусть знать формулы?)
@gillan11
@gillan11 2 года назад
А какой подход обычно используют для множественного подглядывания в АБ? O’Brien-Fleming boundaries?
@vladimir7759
@vladimir7759 3 месяца назад
прежде всего спрашивают Excel, PowerQuery, PowerPivot, сводные, ВПР, SQL, PowerBI либо аналог, это основа на hh, и потом уже питон и аб тестирование и то не всегда, ничего такого на твоих курсов нет....
@Anonymous_starrrr
@Anonymous_starrrr 2 года назад
стоит ли идти глубже в аналитику и ds если ну очень не нравится статистика? с первого раза ниче не понятно. а формулы клонят в сон или это у всех так? или наоборот есть какие то гении которые феноменально легко и быстро понимают и интерпретируют статистику?
@bogdanns2
@bogdanns2 2 года назад
есть конечно гении, но в целом это вопрос вашей текущей подготовки, вначале всегда сложно, а дальше, чем больше вы будете понимать от нового материала, тем интереснее вам будет. так во многих ведь. ну а в целом, если вас любые формулы повергают в скуку, то идти в данные я бы не рекомендовал
@oeaoo
@oeaoo Год назад
Еще варик - примирение с математикой. Фаза принятия.
@АлибиНапалм
@АлибиНапалм Год назад
Сам курс платный?
@ivan51141
@ivan51141 2 года назад
Привет, Анатолий. Скажи пожалуйста, такой вопрос. Вот во втором интервью, вопрос был. Мол для ARPU какой тест финально выберешь ? И вы сошлись на бутстрапе и на пуасановском бутстрапе. Что нам мешает на достаточно больших выборках использовать z-test ? Статистика будет нормально распределена энивей - и бутстрап +- это же и покажет - давайте сразу использовать квантили нормального распределения?) Без бутстрапов.
@vlkharlamov
@vlkharlamov 2 года назад
Наверное, все таки речь идет про t-test (т.к. z-test предполагает известную дисперсию), ARPU достаточно скошенное распределение и для действия ЦПТ потребуется сильно больше наблюдений, чем для других возможных распределений, отсюда скорее всего следует что мощность у бутстрапа будет получше (в случае если t-test вообще будет корректно работать на таком объеме), но в любом случае можно сравнить t-test/bootstrap на ваших данных посимулировав A/A тесты и A/B тесты (те же A/A с эффектом в одной группе) и посмотреть, является ли t-test корректным, если да, то какая у него мощность относительно bootstrap'а.
@ivan51141
@ivan51141 2 года назад
z-test использует же цпт. И ему не нужно знать дисперсию. Цпт говорит что при достаточно большой выборке выборочное среднее будет иметь нормальное распределение с мат ожиданием распределения из которого ген совокупность и с дисперсией распределения ген совокупности, делённой на размер выборки. Дисперсию можно заменить на оценку - а именно на несмещенную выборочную дисперсию. А при больших n можно и просто на выборочную дисперсию. На практике большим n уже начинается с 1000 - 3000. Поэтому мне и интересно почему коллега из озона выбрал бутстрап.
@elenagavrilova3109
@elenagavrilova3109 7 месяцев назад
Интересные беседы, вторая часть с АБ тестами особо понравилась, узнала новое.
@f0kes32
@f0kes32 6 месяцев назад
Подскажите книжку почитать, если коммент мой увидите.
@bogdanns2
@bogdanns2 2 года назад
классно, такие толковые ребята 👍
@ВенераКозлова-м8м
@ВенераКозлова-м8м 2 года назад
👍🤗
@INX_1
@INX_1 Год назад
Где найти его курсы на степике?
@numaki2506
@numaki2506 Год назад
Не узнал Толю
@IvanFedkevich
@IvanFedkevich 2 года назад
А это предполагается как собес по статистике на позицию какого уровня? Джун+/Мидл?
@karpovcourses
@karpovcourses 2 года назад
Первая часть джун, вторая мидл и выше.
@ЮраНовослугин
@ЮраНовослугин 2 года назад
Здравствуйте! Скажите ,пожалуйста, будет подобное видео, но на тему data engineer?
@karpovcourses
@karpovcourses 2 года назад
Думаю, сделаем!
@ЯМоя-ш7х
@ЯМоя-ш7х 2 года назад
@@karpovcourses ждём! И сразу вопрос. В октябре не успеваю, а когда следующий набор обучения на инженеров?
@karpovcourses
@karpovcourses 2 года назад
@@ЯМоя-ш7х Стартуем каждый месяц :)
@КаналСупермастерА
Топ!
@old_bedouin
@old_bedouin 2 года назад
Анатолий, разберёте как-нибудь пуассоновский бутсреп на практике?
@vlkharlamov
@vlkharlamov 2 года назад
В приложенных материалах есть. Пуассоновский бутстрап: ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-Zki9VMzxcFU.html
@clockfixer5049
@clockfixer5049 Год назад
@@vlkharlamov Привет! А можешь, пожалуйста, отослать к материалу, где доказывается или ярко демонстрируется, почему t-test перестаёт корректно работать на ratio метриках. Я не очень пока понимаю, на каком этапе появляется зависимость наблюдений и какие конкретно изменения самой метрики (появление числителя и знаменателя) ведут к поломке t-test’а?
@vlkharlamov
@vlkharlamov Год назад
@@clockfixer5049 т тест требует астмптотическую нормальность которая достигается за счёт цпт, а цпт требует независимость наблюдений, но вот подневная (ratio) будет сильно зависеть друг от друга
@МаксимПершин-й4ш
@МаксимПершин-й4ш 2 года назад
Анатолий, а как можно к Вам на интервью попасть?))
@karpovcourses
@karpovcourses 2 года назад
А в каком предмете вы хотите себя попробовать?)
@МаксимПершин-й4ш
@МаксимПершин-й4ш 2 года назад
@@karpovcourses С удовольствием бы попробовал себя в тервере, матстате, SQL, ну и задачки по pandas какие-нибудь(сейчас перечислил и понял, что в общем-то во всём стеке продуктового аналитика :) ) Так что по факту что угодно))
@antwithhook8975
@antwithhook8975 Год назад
Про n - 1. Подскажите, пожалуйста, правильно ли я понял. Мы вычитаем один для увеличения дисперсии, так как принимаем во внимание, что дисперсия нашей выборки может быть меньше, чем в генеральной совокупности, но больше быть не может чисто с логической точки зрения, за рамки не выйдешь. Поэтому мы даем "небольшую фору" в дисперсии для выборки.
@karpovcourses
@karpovcourses Год назад
Все так!
@2korzhik
@2korzhik Год назад
По моему опыту, я месяц собеседовался дата аналитиком в разные компании и крупные и маленькие и то что на видео ни имеет НИЧЕГО ОБЩЕГО с реальностью. Как оказалось статистика мало кого волнует. Больше инетресует понимаение продуктовых меткрик. Но самая мякотка в том что зарплаты у аналитиков сильно ниже любого зачуханного программиста.
@bricotel
@bricotel Год назад
А что ещё спрашивают? Хочу через полгода собеседоваться и мне очень интересно, в какую сторону крен делать.
@2korzhik
@2korzhik Год назад
@@bricotel знание питона, алгоритмы и структуры данных (хз зачем), SQL. Это на первом этапе. Только в двух местах был кодинг с pandas (джойны, группировки, выбросы, визуализация) и выбор стат критерия. А так везде на последнем этапе больше волнует знание воронки продуктовых метрик. Просят придумать метрики для новой фичи. Бред какой то
@2korzhik
@2korzhik Год назад
Тервер тоже только в одном месте был. Просили решить задачку
@bricotel
@bricotel Год назад
@@2korzhik спасибо за ответ! В целом люди видят разницу между аналитиком данных и тем же продуктовым аналитиком? Много собесов уже прошел?
@2korzhik
@2korzhik Год назад
@@bricotel мне кажется если и видят, то все равно хотят больше уклона в продуктовую аналитику. Чисто за дата аналитику похоже не готовы платить, либо все эти задачи уже решены, и остаётся только развивать продукт.
Далее
Bearwolf - GODZILLA Пародия Beatrise
00:33
Просмотров 140 тыс.
Трудности СГОРЕВШЕЙ BMW M4!
49:41
Просмотров 1,5 млн
Встреча на практикуме
2:09:15