Всем привет, это "Associate Data Analyst из Krisp Иван", спасибо Анатолию за чудесное интервью! Несколько комментариев-уточнений/исправлений: 14:15 -- ошибся-заговорился: между 20 и 40 и 1000 и 2000 разница та же (корень из 2), просто для получения в первом случае пришлось добавить 20 измерений, а во втором -- 1000. Смысл в том, что при росте размера выборки нам приходится добавлять всё больше элементов для того же уменьшения дисперсии. 17:40 -- всё очень плохо, всё перепутал. Объяснение Анатолия гораздо лучше: В выборочной дисперсии (n-1) -- из-за переоценки выборочной дисперсии, потому что минимизирует числитель (сумму квадратов разностей) именно выборочное среднее, а истинное от него отклоняется -> числитель для истинной дисперсии (считаемой от истинного среднего) будет больше -> в формуле выборочной дисперсии нужно сделать поправку, которая увеличит её, отсюда и "небольшое уменьшение" знаменателя. 48:40 -- ошибки в размышлениях есть, но с выправлениями Анатолия мы вышли к правильному выводу: вместо "мы ничего не можем сказать", "мы можем сказать, что мы либо с вероятностью альфа не нашли существующее различие, либо различие меньше установленного порога". Ну и всем рекомендую посетить сайт krisp.ai (мне за это не платят, ну и ладно, хотя и жаль).
Материалы, по которым соискатели готовились к собеседованию: Обзор системы сплитования (на примере Авито): habr.com/p/454164/ Краткий обзор по статистическим тестам: vkteam.medium.com/practitioners-guide-to-statistical-tests-ed2d580ef04f Пуассоновский бутстрап: ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-Zki9VMzxcFU.html Подсчёт MDE: medium.com/statistics-experiments/когда-останавливать-a-b-тест-часть-1-mde-7d39b668b488 (Часть 1) medium.com/statistics-experiments/когда-останавливать-a-b-тест-часть-2-monte-carlo-a342ba5b552c (Часть 2) Стратификация: habr.com/ru/company/X5Tech/blog/596279/ Методы сокращения дисперсии и зачем это нужно: ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-KvIJ8FCJzr4.html Увеличение чувствительности в A/B с помощью Cuped: ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-pZpUM08mv-E.html Про FPR, TPR, Statistical power и p-value: ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-XTcP4oo4JI4.html ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE--zps6hm0nX8.html ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-2nP_gcut7SU.html Канал для подготовки к интервью в сфере Data Science: ru-vid.com Лекция Нерсеса Багияна про A/B-тесты: ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-cWmS-ws4z9I.html Курс «Основы статистики»: stepik.org/course/76/syllabus Курс «Основы статистики. Часть 2»: stepik.org/course/524/syllabus Курс «Основы статистики. Часть 3»: stepik.org/course/2152/syllabus
Не перестаю удивляться какой классный Анатолий учитель. Уважаю когда человек старается объяснить основные принципы простой понятной логикой, показать какой главный смысл. И все это в простых примерах. Я сам не могу понять вещь пока не пойму всю логику. Не могу тупо что-то зазубрить. А когда понимаешь логику, то все становится понятно и легко запоминается. Короч, респект
сколько собеседовался статистику не спрашивали нигде, было что то похожее типа проанализировать датасет, но там просто построить графики и дать общие определения, без всяких этих научных терминов. здесь скорее на продакт аналитика собес, да то большинству компаний это не уперлость, понимание воронок и умение строить метрики тогда, но опять же это продакт. для дата аналитика сиквел, пайтон, табло и вот это вот все... в последнее время уже требуют ETL, Airflow, Spark, построение витрин как минимум для мидла.
Спасибо ведущему и собеседующего - очень много полезной информации. Отличный вариант, чтобы провериться себя. Отличная получилась беседа. Выпуск огонь! :)
прежде всего спрашивают Excel, PowerQuery, PowerPivot, сводные, ВПР, SQL, PowerBI либо аналог, это основа на hh, и потом уже питон и аб тестирование и то не всегда, ничего такого на твоих курсов нет....
стоит ли идти глубже в аналитику и ds если ну очень не нравится статистика? с первого раза ниче не понятно. а формулы клонят в сон или это у всех так? или наоборот есть какие то гении которые феноменально легко и быстро понимают и интерпретируют статистику?
есть конечно гении, но в целом это вопрос вашей текущей подготовки, вначале всегда сложно, а дальше, чем больше вы будете понимать от нового материала, тем интереснее вам будет. так во многих ведь. ну а в целом, если вас любые формулы повергают в скуку, то идти в данные я бы не рекомендовал
Привет, Анатолий. Скажи пожалуйста, такой вопрос. Вот во втором интервью, вопрос был. Мол для ARPU какой тест финально выберешь ? И вы сошлись на бутстрапе и на пуасановском бутстрапе. Что нам мешает на достаточно больших выборках использовать z-test ? Статистика будет нормально распределена энивей - и бутстрап +- это же и покажет - давайте сразу использовать квантили нормального распределения?) Без бутстрапов.
Наверное, все таки речь идет про t-test (т.к. z-test предполагает известную дисперсию), ARPU достаточно скошенное распределение и для действия ЦПТ потребуется сильно больше наблюдений, чем для других возможных распределений, отсюда скорее всего следует что мощность у бутстрапа будет получше (в случае если t-test вообще будет корректно работать на таком объеме), но в любом случае можно сравнить t-test/bootstrap на ваших данных посимулировав A/A тесты и A/B тесты (те же A/A с эффектом в одной группе) и посмотреть, является ли t-test корректным, если да, то какая у него мощность относительно bootstrap'а.
z-test использует же цпт. И ему не нужно знать дисперсию. Цпт говорит что при достаточно большой выборке выборочное среднее будет иметь нормальное распределение с мат ожиданием распределения из которого ген совокупность и с дисперсией распределения ген совокупности, делённой на размер выборки. Дисперсию можно заменить на оценку - а именно на несмещенную выборочную дисперсию. А при больших n можно и просто на выборочную дисперсию. На практике большим n уже начинается с 1000 - 3000. Поэтому мне и интересно почему коллега из озона выбрал бутстрап.
@@vlkharlamov Привет! А можешь, пожалуйста, отослать к материалу, где доказывается или ярко демонстрируется, почему t-test перестаёт корректно работать на ratio метриках. Я не очень пока понимаю, на каком этапе появляется зависимость наблюдений и какие конкретно изменения самой метрики (появление числителя и знаменателя) ведут к поломке t-test’а?
@@clockfixer5049 т тест требует астмптотическую нормальность которая достигается за счёт цпт, а цпт требует независимость наблюдений, но вот подневная (ratio) будет сильно зависеть друг от друга
@@karpovcourses С удовольствием бы попробовал себя в тервере, матстате, SQL, ну и задачки по pandas какие-нибудь(сейчас перечислил и понял, что в общем-то во всём стеке продуктового аналитика :) ) Так что по факту что угодно))
Про n - 1. Подскажите, пожалуйста, правильно ли я понял. Мы вычитаем один для увеличения дисперсии, так как принимаем во внимание, что дисперсия нашей выборки может быть меньше, чем в генеральной совокупности, но больше быть не может чисто с логической точки зрения, за рамки не выйдешь. Поэтому мы даем "небольшую фору" в дисперсии для выборки.
По моему опыту, я месяц собеседовался дата аналитиком в разные компании и крупные и маленькие и то что на видео ни имеет НИЧЕГО ОБЩЕГО с реальностью. Как оказалось статистика мало кого волнует. Больше инетресует понимаение продуктовых меткрик. Но самая мякотка в том что зарплаты у аналитиков сильно ниже любого зачуханного программиста.
@@bricotel знание питона, алгоритмы и структуры данных (хз зачем), SQL. Это на первом этапе. Только в двух местах был кодинг с pandas (джойны, группировки, выбросы, визуализация) и выбор стат критерия. А так везде на последнем этапе больше волнует знание воронки продуктовых метрик. Просят придумать метрики для новой фичи. Бред какой то
@@bricotel мне кажется если и видят, то все равно хотят больше уклона в продуктовую аналитику. Чисто за дата аналитику похоже не готовы платить, либо все эти задачи уже решены, и остаётся только развивать продукт.