Тёмный

Лекция 1. Описательные статистики. Квантили, квартили. Гистограммы 

Computer Science Center
Подписаться 163 тыс.
Просмотров 149 тыс.
50% 1

Опубликовано:

 

29 окт 2024

Поделиться:

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист
Посмотреть позже
Комментарии : 92   
@dmitriy7192
@dmitriy7192 Год назад
Авторизировался на RU-vid только для того, чтобы поставить "лайк" лекциям! Спасибо большое Вадим Леонардович за ваши лекции, смотрел на одном дыхании, как сериал с Netflix)
@Vadim_Abbakumov
@Vadim_Abbakumov Год назад
Спасибо!
@АлександрПыдрин
@АлександрПыдрин 4 года назад
Лучшее, чем можно заняться в самоизоляции
@Gamezz-y9d
@Gamezz-y9d 3 года назад
Крутое видео! Посмотри лучший канал с понятным объяснением сложных задач🤓❤️ ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-MlxMJRZs3zg.html
@ivanaaa6049
@ivanaaa6049 6 лет назад
Большое спасибо за лекции! Уже думал, что придется статистику с помощью R изучать, а этот лектор уже курс и на Python создал! Очень хорошо, что есть возможность использовать современные быстро- развивающиеся технологии.
@АнтонТеплов-д3ч
@АнтонТеплов-д3ч 4 года назад
Очень приятный преподаватель, слушаю с невероятным интересом и советую всем друзьям, видео этого лектора.
@СветланаСаа
@СветланаСаа Год назад
И умный, и добрый, и остроумный))) слушать лекцию - одно удовольствие)) спасибо
@ОбуховАлександр-ш6м
Обе части лекций просто великолепны. Да, код местами неоптимален, но не это главное. Главное - потрясающее об'яснение, чувство материала на кончиках пальцев и отдельное спасибо за интеллигентный, питерский юмор - разобран на цитаты ))
@Vadim_Abbakumov
@Vadim_Abbakumov 2 года назад
Спасибо
@charozetta
@charozetta 6 месяцев назад
Первый раз в жизни я с реальным интересом слушаю лекции по статистике....
@sfffq7236
@sfffq7236 4 года назад
Пожалуй, один из лучших лекторов, которых я слышал в жизни. Говорит просто о сложных вещах.
@МаксимТолстобров-и5в
Если пробуете на Pyton 3.8+ то строка "AH['SalePrice'].hist(bins=60, normed=1);" выдаст ошибку. Для получения результата замените normed на density.
@Vadim_Abbakumov
@Vadim_Abbakumov 3 года назад
Спасибо
@dicloniusN35
@dicloniusN35 6 дней назад
Нравится преподаватель, не то что некоторые в универах))
@ЮлияГраница-н3р
@ЮлияГраница-н3р 3 года назад
Про ядерные оценки плотности на мой взгляд можно почетче. и Вообще наверное можно все тоже самое и побыстрее, однако, это ведь запись лекции. Лектору огромное спасибо, что выкладывает в общий доступ материалы.
@ИгорьПодройкин
@ИгорьПодройкин 3 года назад
Нет слов, это просто клад.
@nicko6815
@nicko6815 5 лет назад
Благодарности за Ваш труд!!!
@ЕвгенийАндреев-з2э
Супер лектор, вообще класс) Смотрел с удовольствием
@shandi1241
@shandi1241 4 года назад
"эти люди часто делают ошибки, они этим в основном и занимаются" хех :-D
@Irades
@Irades 3 года назад
Потрясающий лектор, спасибо!)
@JestZastrelshik
@JestZastrelshik 3 года назад
Спасибо, Вадим! Прекрасно объясняете!
@mariekey913
@mariekey913 3 года назад
Спасибо за лекцию! Все было понятно и хорошо объяснено, с примерами из жизни
@СергейМедведев-р8л
Большое спасибо за материал. Очень интересно.
@georgemichael6884
@georgemichael6884 2 года назад
лектор отличный!только ради его манеры изложения стоит смотреть!
@dmitriyhd5630
@dmitriyhd5630 5 лет назад
Бомба! Большое спасибо за Лекции!
@YuriyGontar
@YuriyGontar 2 года назад
Прекрасная лекция, спасибо! Снимайте еще!
@ВячеславПетров-ф8ъ
Всем привет, а где можно взять файлы которые он использует в лекциях ?
@Uni-Coder
@Uni-Coder 4 года назад
26:00 Пример с рулеткой шикарен. Согласен чуть более чем полностью. Если вы точно знаете, что распределение 50/50 - не имеет значения, на что ставить. Если у вас нет априорной информации о распределении, и всё, что у вас есть - это накопленная статистика, ставьте на красное. -Но как объяснена ядерная оценка плотности, мне не понравилось.-
@Vadim_Abbakumov
@Vadim_Abbakumov 4 года назад
Не надо так загадочно... Что не понравилось с ядерными оценками? Логические ошибки, скрипт, цыканье зубом?...
@Uni-Coder
@Uni-Coder 4 года назад
@@Vadim_Abbakumov Если посмотреть внимательно и вдумчиво, то всё нормально. Просто очень непривычно :)
@gogetcha5430
@gogetcha5430 2 года назад
Спасибо за лекцию!
@Dmitrykholodov
@Dmitrykholodov 3 года назад
Очень интересно послушать. Спасибо!
@UnitXXVII
@UnitXXVII Год назад
Вадим Леонардович, а можете поделиться ноутбуками из лекций или хотя бы датафреймами?
@ivanvekhov6743
@ivanvekhov6743 4 года назад
вопрос первый, Где кнопка "Поставить лектору пивас?". второй вопросец: какие 2-3 основные книжки стоит читать как учебники/доп, литературу к такому курсу?
@Vadim_Abbakumov
@Vadim_Abbakumov 4 года назад
Hastie, Tibshirani, Friedman The Elements of Statistical Learning: Data Mining, Inference, and Prediction 2 edition Бесплатно, есть русский перевод (за деньги) Goodfellow, Bengio, Courville Deep Learning Бесплатно, есть русский перевод (за деньги) Geron Hands-On Machine Learning with Scikit-Learn and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems 2 edition Есть русский перевод (за деньги)
@powerquerypowerbi7808
@powerquerypowerbi7808 Год назад
спасибо!
@СергейНазаров-з3о
Подскажите, пожалуйста, а где взять все эти датасеты - продажа домов в Айове и тд?
@ДмитрийЖ-п8ж
@ДмитрийЖ-п8ж 3 года назад
пару секунд вспоминал что такое R`n`B, время летит конечно)))
@Voronza
@Voronza 4 месяца назад
9я минута. Кроме перечисленных шкал есть ещё абсолютная.
@Voronza
@Voronza 4 месяца назад
И шкала равных отношений
@МаксимБ-з3ю
@МаксимБ-з3ю 5 лет назад
Подскажите, пожалуйста, если один из предикторов имеет бимодальное распределение ,то стоит ли строить 2 разные модели ,разбив предиктор на 2 унимодальных интервала ?
@Vadim_Abbakumov
@Vadim_Abbakumov 5 лет назад
В моем примере с фордом Мустанг обязательно. если пики гистограммы не интерпретируемы, то иногда нет...
@МаксимБ-з3ю
@МаксимБ-з3ю 6 лет назад
Подскажите,пожалуйста, зачем нам нужно стандартизировать данные при использовании линейных алгоритмов машинного обучения? Нужно ли стандартизировать данные при анализе одной гистограммы?
@Vadim_Abbakumov
@Vadim_Abbakumov 6 лет назад
В линейной регрессии, наивном байесе и дискриминантном анализе не надо. В гистограммах не надо. После стандартизации наблюдения перестают быть независимыми, это плохо. Иногда (кластерный анализ, нейронные сети) стандартизация - неизбежное зло.
@СергейМельников-л8ъ
@@Vadim_Abbakumov простите, а где про это можно прочитать на русском, или дальше в лекциях будет о том, почему перестают быть независимыми? Просто интуитивно совсем непонятно, почему от простого изменения масштаба пропадает независимость [стандартизация это ведь просто перевести всё в один масштаб?]
@СергейМельников-л8ъ
ой, перепутал, видимо имеется в виду приведение выборки к такой, у которой выборочное среднее 0 и разброс 1, но все равно если честно непонятно, как такое преобразование может сделать независимые величины зависимыми?
@СергейМельников-л8ъ
@@Vadim_Abbakumov не подскажете? Так и не нашел нигде про это...
@Cyrill_Murashev
@Cyrill_Murashev Год назад
@@СергейМельников-л8ъ, всё просто. При стандартизации по методу z-score используются выборочные средние и стандартные отклонения. Они зависят от всех наблюдений. Следовательно, при вычислении z-меток для отдельных наблюдений используются данные о всей выборке, т.е. количественный признак отдельного наблюдения уже не "сам по себе", а функция от значений всех набюлюдений выборки.
@MrZlobec
@MrZlobec 6 лет назад
Добрый день! Отличный курс. Правильно ли я понимаю что Автор видит Python как более перспективный язык для анализа данных по сравнению с R?
@Vadim_Abbakumov
@Vadim_Abbakumov 6 лет назад
Нет. IMHO на сегодняшний день выбор однозначен: и R и Python одновременно. Что-то лучше реализовано в R (например прогнозирование). В Python намного лучше Deep Learning. Если все же выбирать что-то одно, то R лучше. Для знающих Python заметно больше вакансий.
@viacheslavspitsyn2995
@viacheslavspitsyn2995 6 лет назад
@@Vadim_Abbakumov Но если вакансий больше для знающих Python, то почему нужно выбирать R?
@Vadim_Abbakumov
@Vadim_Abbakumov 6 лет назад
Для задач продвинутой аналитики в питоне мало процедур, и они часто плохого качества. В этих случаях лучше использовать R. @@viacheslavspitsyn2995
@какаяразница-х3щ
@какаяразница-х3щ 4 года назад
@@Vadim_Abbakumov Как сказал один очень уважаемый человек, если вы статист и хотите немного программировать - выбирайте R. Если вы больше программист и немного статистик - выбирайте питон
@Uni-Coder
@Uni-Coder 4 года назад
Думаю, через несколько лет от R будет полный отказ. Синтаксис этого языка ужасен. Но пока он нужен, потому что на нём действительно есть ВСЁ. Приходится иногда самостоятельно разрабатывать кластеризацию, случайный лес и т. п,. и тут R служит тестовой базой, чтобы было на чём протестировать свои алгоритмы.
@Booogieman
@Booogieman 4 года назад
лайк за взломанный Total Commander!
@nikolaisalikov1257
@nikolaisalikov1257 3 года назад
Зашел написать этот комментарий.
@igorpadalko3907
@igorpadalko3907 4 года назад
Здравствуйте, А есть ответы по заданиям которые были в курсе? Для самопроверки. Заранее ОГРОМНОЕ СПАСИБО!
@Vadim_Abbakumov
@Vadim_Abbakumov 4 года назад
Нет. Многие задачи имеют несколько решений...
@juliakorovkina1663
@juliakorovkina1663 2 года назад
Где взять самую первую базу данных? Как скачать?
@Vadim_Abbakumov
@Vadim_Abbakumov 2 года назад
Как называется файл? ameshousing Ну так гуглите это слово...
@МихаилИванов-я4й9д
Здравствуйте Вадим Леонардович! Вы говорили что делали коммерческие работы по кластеризации для разных организаций. Был ли экономический эффект от вашей работы и если да, то можно ли его выразить в цифрах?
@Vadim_Abbakumov
@Vadim_Abbakumov 3 года назад
Нельзя выразить в цифрах. У меня кластеризация - промежуточный (хотя и важный) этап решения большой задачи, обычно маркетинговой. Эффект легко оценить для всей задачи, а не ее этапа. Когда модель построена, теоретически можно провести эксперимент, и посмотреть, что будет, если исключить этап с кластеризации. Но на практике кто будет этим заниматься. Как, например, Вы будете оценивать экономический эффект от предварительной стандартизации переменных?
@МихаилИванов-я4й9д
@@Vadim_Abbakumov спасибо огромное за ответ. Просто я уже давно занимаюсь автоматизация бизнеса и хочется выйти за рамки банальных задач. Поэтому изучаю в том числе по Вашим лекциям различные статистические методы и нейронные сети. Но сложно идёт, по несколько раз пересматриваю и переслушиваю лекции
@МихаилИванов-я4й9д
@@Vadim_Abbakumov тогда короткий вопрос. Я по старой статистике определил кластеры клиентов. А далее у меня появляется новый клиент у которого не достаёт некоторых данных (средний чек, количество покупок). Я хочу спрогнозировать в какой кластер он попадет(я вычисляют расстояния) и в итоге он оказывается в 3-х кластерах. А далее я вывожу вероятность попадания в тот или иной кластер из 3-х, на основании количества покупателей(попавших туда при обучении) в каждом кластере. Такая модель имеет права на жизнь? Или есть какой то принципиальный изъян?
@Vadim_Abbakumov
@Vadim_Abbakumov 3 года назад
@@МихаилИванов-я4й9д Поздравляю. Вы независимо изобрели нечеткую кластеризацию (fuzzy clustering, C-means). Дальше гуглите сами, те, кто придумал метод до Вас продвинулись далеко.
@МихаилИванов-я4й9д
@@Vadim_Abbakumov спасибо Вам за ответы.
@ivanaaa6049
@ivanaaa6049 6 лет назад
Можно где- то "ноутбуки" с лекции найти?
@romanshpilev767
@romanshpilev767 6 лет назад
Вот здесь compscicenter.ru/courses/data-mining-python/2018-spring/classes/ Не ко всем заданиям ноутбуки прикрепили, но есть слайды и датасеты
@ivanaaa6049
@ivanaaa6049 6 лет назад
Спасибо!
@oplesser
@oplesser 6 лет назад
Добрый день! Спасибо за Ваши лекции! Скажите пожалуйста, а почему так разнится время лекций? Часть лекций больше одного часа (есть даже больше двух часов) а часть лекций около 20-30 минут....
@Vadim_Abbakumov
@Vadim_Abbakumov 6 лет назад
Видеозаписи переклеены так, чтобы на лекцию приходилась одна тема от начала до конца. Мне показалось, что многим неудобно, когда интересующая их тема начинается в середине лекции.
@oplesser
@oplesser 6 лет назад
Понял, спасибо!
@nx8wh
@nx8wh 2 месяца назад
это что за универ
@MinisterDorado
@MinisterDorado Год назад
19:40 Те люди, кто парсят сайты делают много ошибок, они этим в основном и занимаются. LOL
@yellowknife4111
@yellowknife4111 3 года назад
у меня было +27 ставок подряд
@gadkiy_designer
@gadkiy_designer Год назад
Вот мне интересно с первых секнд лекций - какого хрена преподают на примере домов в айове, а не на данных наших рынков? Нет что ли на наших примерах задач?
@Vadim_Abbakumov
@Vadim_Abbakumov 8 месяцев назад
В том-то и дело, что нет...
@vladodl3445
@vladodl3445 4 года назад
Я как понял,курс не для новичков?
@Vadim_Abbakumov
@Vadim_Abbakumov 4 года назад
Для новичков в анализе данных. С базовым владением питоном
@vladodl3445
@vladodl3445 4 года назад
@@Vadim_Abbakumov спасибо,а не подскажишь годный курс по питону?)
@Vadim_Abbakumov
@Vadim_Abbakumov 4 года назад
@@vladodl3445 не особенно в теме... курс Лебедева хороший, но он не для новичков
@Gamezz-y9d
@Gamezz-y9d 3 года назад
@@Vadim_Abbakumov Крутое видео! Посмотри лучший канал с понятным объяснением сложных задач🤓❤️ ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-MlxMJRZs3zg.html
@АленаВзорова
@АленаВзорова 2 года назад
Некоторые обьяснения очень путаные. Квантиль обьяснял так, что только запутал. Нет чтобы нарисовать распределение и показать. Слушатели знают основы статистики? Если квантили не знают, то, видимо, не сильно знают. Если нет, то обьяснения никуда не годятся. Диаграмму зачем строят? Не прозвучало даже слово "нормальное распределение"... Вообще, глаголит путано, скачет с одного понятия на другое...ерунда, а не лекция.
@Arian_9615
@Arian_9615 Год назад
Полностью согласен, я сам знаю что такое квантиль, но мне было сложно понять по его объяснению, из всех возможных объяснений, лектор выбрал самое сложное непонятное.
@_meta_data_9992
@_meta_data_9992 4 года назад
Анализ данных с нуля, data science, python: ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-qWBNK0ydGUM.html
@ostrov11
@ostrov11 4 года назад
препод давно был в Айове ??? и был ли вообще ???
@TTYY-ml7rb
@TTYY-ml7rb 4 года назад
И к чему это?
@ostrov11
@ostrov11 4 года назад
@@TTYY-ml7rb к тому же, к чему и Айова
@dariaarkhipova5419
@dariaarkhipova5419 4 года назад
Зря вы так, лектор шикарен
Далее
skibidi army returns (skibidi toilet 77)
00:49
Просмотров 2,3 млн