Открытое собеседование по статистике с Анатолием Карповым | karpov.courses

karpov.courses

Подписаться 47 тыс.

Просмотров 38 тыс.

50% 1

Видео Поделиться Скачать Добавить в

Опубликовано:

29 сен 2024

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист

Посмотреть позже

Комментарии : 62

@ivanorlov165 2 года назад

Всем привет, это "Associate Data Analyst из Krisp Иван", спасибо Анатолию за чудесное интервью! Несколько комментариев-уточнений/исправлений: 14:15 -- ошибся-заговорился: между 20 и 40 и 1000 и 2000 разница та же (корень из 2), просто для получения в первом случае пришлось добавить 20 измерений, а во втором -- 1000. Смысл в том, что при росте размера выборки нам приходится добавлять всё больше элементов для того же уменьшения дисперсии. 17:40 -- всё очень плохо, всё перепутал. Объяснение Анатолия гораздо лучше: В выборочной дисперсии (n-1) -- из-за переоценки выборочной дисперсии, потому что минимизирует числитель (сумму квадратов разностей) именно выборочное среднее, а истинное от него отклоняется -> числитель для истинной дисперсии (считаемой от истинного среднего) будет больше -> в формуле выборочной дисперсии нужно сделать поправку, которая увеличит её, отсюда и "небольшое уменьшение" знаменателя. 48:40 -- ошибки в размышлениях есть, но с выправлениями Анатолия мы вышли к правильному выводу: вместо "мы ничего не можем сказать", "мы можем сказать, что мы либо с вероятностью альфа не нашли существующее различие, либо различие меньше установленного порога". Ну и всем рекомендую посетить сайт krisp.ai (мне за это не платят, ну и ладно, хотя и жаль).

@НищебродАндрей Год назад

Слишком надменный ты. Неприятно слушать

@Constantine_Bones Год назад

ты кайфовый чел, на харизме

@nx4tl 2 года назад

Толя находит время, чтобы делать контент даже при такой красоте сзади

@AlexxxeyS 2 года назад

Шикарная шевелюра. Контент тоже нормальный👍

@karpovcourses 2 года назад

Материалы, по которым соискатели готовились к собеседованию: Обзор системы сплитования (на примере Авито): habr.com/p/454164/ Краткий обзор по статистическим тестам: vkteam.medium.com/practitioners-guide-to-statistical-tests-ed2d580ef04f Пуассоновский бутстрап: ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-Zki9VMzxcFU.html Подсчёт MDE: medium.com/statistics-experiments/когда-останавливать-a-b-тест-часть-1-mde-7d39b668b488 (Часть 1) medium.com/statistics-experiments/когда-останавливать-a-b-тест-часть-2-monte-carlo-a342ba5b552c (Часть 2) Стратификация: habr.com/ru/company/X5Tech/blog/596279/ Методы сокращения дисперсии и зачем это нужно: ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-KvIJ8FCJzr4.html Увеличение чувствительности в A/B с помощью Cuped: ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-pZpUM08mv-E.html Про FPR, TPR, Statistical power и p-value: ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-XTcP4oo4JI4.html ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE--zps6hm0nX8.html ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-2nP_gcut7SU.html Канал для подготовки к интервью в сфере Data Science: ru-vid.com Лекция Нерсеса Багияна про A/B-тесты: ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-cWmS-ws4z9I.html Курс «Основы статистики»: stepik.org/course/76/syllabus Курс «Основы статистики. Часть 2»: stepik.org/course/524/syllabus Курс «Основы статистики. Часть 3»: stepik.org/course/2152/syllabus

@ilyin_sergey Год назад

Анатолий (и коллеги), можете поделиться статьями о "проблемах" p-value, почему нельзя сломя голову бежать и ему верить?

@mlpython1089 2 года назад

Спасибо парни за материал. Помог освежить знания и составить список пробелов.

@TheBeliever30 2 года назад

Какой Иван хорошенький 😍

@johnMilton14 2 года назад

Из-за прически такое ощущение, что Анатолий Карпов ненастоящий ))

@ВенераКозлова-м8м 2 года назад

Я надеюсь, этот список вопросов не для джуна?😱

@krislis6645 Год назад

Сама в шоке сижу слушаю😀

@LostMakaveli Месяц назад

Не перестаю удивляться какой классный Анатолий учитель. Уважаю когда человек старается объяснить основные принципы простой понятной логикой, показать какой главный смысл. И все это в простых примерах. Я сам не могу понять вещь пока не пойму всю логику. Не могу тупо что-то зазубрить. А когда понимаешь логику, то все становится понятно и легко запоминается. Короч, респект

@ЯнаРомановская-н2я Год назад

Ой,блин,сколько ещё учить то надо,елки палки!/ Настроение упало после просмотра чуть)

@romanbond1060 9 дней назад

сколько собеседовался статистику не спрашивали нигде, было что то похожее типа проанализировать датасет, но там просто построить графики и дать общие определения, без всяких этих научных терминов. здесь скорее на продакт аналитика собес, да то большинству компаний это не уперлость, понимание воронок и умение строить метрики тогда, но опять же это продакт. для дата аналитика сиквел, пайтон, табло и вот это вот все... в последнее время уже требуют ETL, Airflow, Spark, построение витрин как минимум для мидла.

@ai-artistry-channel 2 года назад

Анатолий, а вы обратили внимание, что у вас на фоне бимодальное распределение)

@grievingdad5848 2 года назад

Вставить комментарий для демонстрации благодарности Анатолию за контент

@irker8220 2 года назад

Спасибо ведущему и собеседующего - очень много полезной информации. Отличный вариант, чтобы провериться себя. Отличная получилась беседа. Выпуск огонь! :)

@T_i_m_T_i_m 2 года назад

Почему когда говорите о se, говорите что наверху в формуле дисперсия? Там же стандартное отклонение.

@СаенкоДенис-ь4е 2 года назад

Получил интелектуальное удовольствие от ролика. Спасибо.

@malanius90 2 года назад

Nice hair, awesome view

@Alex_the_Great_86 Месяц назад

уже при усредненном n=4 распределение близко к нормальному, n=30 это уже явно перебор

@A_P___ 2 года назад

не очень понимаю зачем мне наизусть знать формулы?)

@gillan11 2 года назад

А какой подход обычно используют для множественного подглядывания в АБ? O’Brien-Fleming boundaries?

@vladimir7759 3 месяца назад

прежде всего спрашивают Excel, PowerQuery, PowerPivot, сводные, ВПР, SQL, PowerBI либо аналог, это основа на hh, и потом уже питон и аб тестирование и то не всегда, ничего такого на твоих курсов нет....

@Anonymous_starrrr 2 года назад

стоит ли идти глубже в аналитику и ds если ну очень не нравится статистика? с первого раза ниче не понятно. а формулы клонят в сон или это у всех так? или наоборот есть какие то гении которые феноменально легко и быстро понимают и интерпретируют статистику?

@bogdanns2 2 года назад

есть конечно гении, но в целом это вопрос вашей текущей подготовки, вначале всегда сложно, а дальше, чем больше вы будете понимать от нового материала, тем интереснее вам будет. так во многих ведь. ну а в целом, если вас любые формулы повергают в скуку, то идти в данные я бы не рекомендовал

@oeaoo Год назад

Еще варик - примирение с математикой. Фаза принятия.

@АлибиНапалм Год назад

Сам курс платный?

@ivan51141 2 года назад

Привет, Анатолий. Скажи пожалуйста, такой вопрос. Вот во втором интервью, вопрос был. Мол для ARPU какой тест финально выберешь ? И вы сошлись на бутстрапе и на пуасановском бутстрапе. Что нам мешает на достаточно больших выборках использовать z-test ? Статистика будет нормально распределена энивей - и бутстрап +- это же и покажет - давайте сразу использовать квантили нормального распределения?) Без бутстрапов.

@vlkharlamov 2 года назад

Наверное, все таки речь идет про t-test (т.к. z-test предполагает известную дисперсию), ARPU достаточно скошенное распределение и для действия ЦПТ потребуется сильно больше наблюдений, чем для других возможных распределений, отсюда скорее всего следует что мощность у бутстрапа будет получше (в случае если t-test вообще будет корректно работать на таком объеме), но в любом случае можно сравнить t-test/bootstrap на ваших данных посимулировав A/A тесты и A/B тесты (те же A/A с эффектом в одной группе) и посмотреть, является ли t-test корректным, если да, то какая у него мощность относительно bootstrap'а.

@ivan51141 2 года назад

z-test использует же цпт. И ему не нужно знать дисперсию. Цпт говорит что при достаточно большой выборке выборочное среднее будет иметь нормальное распределение с мат ожиданием распределения из которого ген совокупность и с дисперсией распределения ген совокупности, делённой на размер выборки. Дисперсию можно заменить на оценку - а именно на несмещенную выборочную дисперсию. А при больших n можно и просто на выборочную дисперсию. На практике большим n уже начинается с 1000 - 3000. Поэтому мне и интересно почему коллега из озона выбрал бутстрап.

@elenagavrilova3109 7 месяцев назад

Интересные беседы, вторая часть с АБ тестами особо понравилась, узнала новое.

@f0kes32 6 месяцев назад

Подскажите книжку почитать, если коммент мой увидите.

@bogdanns2 2 года назад

классно, такие толковые ребята 👍

@ВенераКозлова-м8м 2 года назад

👍🤗

@INX_1 Год назад

Где найти его курсы на степике?

@numaki2506 Год назад

Не узнал Толю

@IvanFedkevich 2 года назад

А это предполагается как собес по статистике на позицию какого уровня? Джун+/Мидл?

@karpovcourses 2 года назад

Первая часть джун, вторая мидл и выше.

@ЮраНовослугин 2 года назад

Здравствуйте! Скажите ,пожалуйста, будет подобное видео, но на тему data engineer?

@karpovcourses 2 года назад

Думаю, сделаем!

@ЯМоя-ш7х 2 года назад

@@karpovcourses ждём! И сразу вопрос. В октябре не успеваю, а когда следующий набор обучения на инженеров?

@karpovcourses 2 года назад

@@ЯМоя-ш7х Стартуем каждый месяц :)

@КаналСупермастерА 2 года назад

Топ!

@old_bedouin 2 года назад

Анатолий, разберёте как-нибудь пуассоновский бутсреп на практике?

@vlkharlamov 2 года назад

В приложенных материалах есть. Пуассоновский бутстрап: ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-Zki9VMzxcFU.html

@clockfixer5049 Год назад

@@vlkharlamov Привет! А можешь, пожалуйста, отослать к материалу, где доказывается или ярко демонстрируется, почему t-test перестаёт корректно работать на ratio метриках. Я не очень пока понимаю, на каком этапе появляется зависимость наблюдений и какие конкретно изменения самой метрики (появление числителя и знаменателя) ведут к поломке t-test’а?

@vlkharlamov Год назад

@@clockfixer5049 т тест требует астмптотическую нормальность которая достигается за счёт цпт, а цпт требует независимость наблюдений, но вот подневная (ratio) будет сильно зависеть друг от друга

@МаксимПершин-й4ш 2 года назад

Анатолий, а как можно к Вам на интервью попасть?))

@karpovcourses 2 года назад

А в каком предмете вы хотите себя попробовать?)

@МаксимПершин-й4ш 2 года назад

@@karpovcourses С удовольствием бы попробовал себя в тервере, матстате, SQL, ну и задачки по pandas какие-нибудь(сейчас перечислил и понял, что в общем-то во всём стеке продуктового аналитика :) ) Так что по факту что угодно))

@antwithhook8975 Год назад

Про n - 1. Подскажите, пожалуйста, правильно ли я понял. Мы вычитаем один для увеличения дисперсии, так как принимаем во внимание, что дисперсия нашей выборки может быть меньше, чем в генеральной совокупности, но больше быть не может чисто с логической точки зрения, за рамки не выйдешь. Поэтому мы даем "небольшую фору" в дисперсии для выборки.

@karpovcourses Год назад

Все так!

@2korzhik Год назад

По моему опыту, я месяц собеседовался дата аналитиком в разные компании и крупные и маленькие и то что на видео ни имеет НИЧЕГО ОБЩЕГО с реальностью. Как оказалось статистика мало кого волнует. Больше инетресует понимаение продуктовых меткрик. Но самая мякотка в том что зарплаты у аналитиков сильно ниже любого зачуханного программиста.

@bricotel Год назад

А что ещё спрашивают? Хочу через полгода собеседоваться и мне очень интересно, в какую сторону крен делать.

@2korzhik Год назад

@@bricotel знание питона, алгоритмы и структуры данных (хз зачем), SQL. Это на первом этапе. Только в двух местах был кодинг с pandas (джойны, группировки, выбросы, визуализация) и выбор стат критерия. А так везде на последнем этапе больше волнует знание воронки продуктовых метрик. Просят придумать метрики для новой фичи. Бред какой то

@2korzhik Год назад

Тервер тоже только в одном месте был. Просили решить задачку

@bricotel Год назад

@@2korzhik спасибо за ответ! В целом люди видят разницу между аналитиком данных и тем же продуктовым аналитиком? Много собесов уже прошел?

@2korzhik Год назад

@@bricotel мне кажется если и видят, то все равно хотят больше уклона в продуктовую аналитику. Чисто за дата аналитику похоже не готовы платить, либо все эти задачи уже решены, и остаётся только развивать продукт.