Анализ данных в Pandas | Вебинар Анатолия Карпова | karpov.courses

Подписаться 47 тыс.

Просмотров 51 тыс.

50% 1

Курс «Аналитик данных»: bit.ly/3NApIIY
Мы продолжаем наши открытые вебинары для всех, кто интересуется анализом данных! В этот раз сделаем акцент на инструментах и поговорим о библиотеке Pandas. Будет полезно и тем, кто только начинает знакомиться с питоном, и более опытным пользователям, так как разберем различные продвинутые и необычные приемы и лайфкаки.
Домашние задания и дополнительные материалы можете найти на нашем курсе на Stepik: stepik.org/cou...
Учитесь Data Science с нами: karpov.courses/

Опубликовано:

30 сен 2024

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист

Посмотреть позже

Комментарии : 70

@НатальяНосова-с7я Год назад

Анатолий, у меня нет слов, в этом видео есть ответы на любой вопрос, я возвращаюсь к просмотру снова и снова. Спасибо, за труд.

@ВенераКозлова-м8м 2 года назад

Этого человека хочется слушать часами, жаль, что видео кончается😁Пойду рыть дальше по каналу))

@asfasf6729 3 года назад

Скажите, где взять этот файл data_csv?

@U_H-t7w 5 месяцев назад

Online Retail Dataset (UCI Machine Learning Repository)

@fordmustang511 2 года назад

@Karpov.Courses подскажи где можно найти данные из урока?

@a.shilov 3 года назад

Хороший стрим, готов каждую неделю встречаться на таких стримах.

@aidartimerbayev9600 10 месяцев назад

Доброе время суток, Анатолий! Не совсем согласен, что без background в программировании, возможно хорошо ориентироваться в Pandas в аналитике. Неплохо разобраться ещё в SQL. Огромное спасибо за вебинар.

@worldtech2770 2 года назад

Спасибо! подскажите пожалуйста, как сделать так что бы в pandas отображались оригинальные числа которые я открыл с файла .csv добавляются лишние 0 и в некоторых столбцах не на том месте точка стоит. Вот оригинал строки: 82; 1; 40.79326147; 354064; 0.1637; 5.12; 5000000000 Вот что показывает pandas: 82 1.000000 40.793261 3.540640e+05 0.16370 1 5.120000 5.000000e+09

@АлександрСудиловский-ж4й 3 года назад

Ребят, а ссылки на материалы и код уже не найти?)

@U_H-t7w 5 месяцев назад

Online Retail Dataset (UCI Machine Learning Repository)

@tarasst6887 2 года назад

Ты с такой радостью расказываешь про пандас но ведь у R это все есть из коробки, почему отказался от Рки ? Сделай видео..

@ИринаБабинцева-к9в Год назад

Спасибо за Ваш труд, очень интересно! Четкая, быстрая подача материала, приятно слушать!

@ПахомийУшастый 2 месяца назад

В excel помедленнее будет все равно, даже если юзать dax and PQ

@sergelyamin Год назад

Видео начинается на 2:40

@МихайлоНіколаєвський 3 года назад

я в восторге - это самое полезное и понятное видео по Pandas за все время моего обучения Data Science, чувствую, я еще не раз буду к нему возвращаться за подсказками) браво, Анатолий!

@lochlanira2589 3 года назад

i dont mean to be so off topic but does anybody know of a method to log back into an Instagram account..? I was dumb forgot my password. I would love any tips you can give me!

@billydariel9140 3 года назад

@Lochlan Ira instablaster ;)

@Keefear 2 года назад

Топ лекция.🔥🔥🔥 Спасибо огромное. 👍 Записывайте ещё ↗️

@dradik16 3 года назад

Спасибо за видео. В самом начале все очень ясно, потом вдруг вы резко переходите на сложносочиненные строки вместо отдельных рубленных команд. Новичкам второй вариант синтаксиса гораздо более удобен для восприятия.

@IdeasStrongest Год назад

Очень доходчиво объясняете по каждому моменту. Спасибо за видео

@AliyevAydin 3 года назад

Я группирую данные по месяцам и есть такие месяцы которые не содержат данные,но почему-то python автоматичесски добавляет этот месяц и перераспределяет данные с предыдущего месяца в результате данные искажаются.Плз помогите

@benoeksionev8025 Год назад

Обалдеть какое крутое видео, автор просто мастер в этой теме, спасибо большое целую в лобик

@constantinews 3 года назад

Пожалуйста, напишите ссылку на jupyter notebook из видео?

@U_H-t7w 5 месяцев назад

Online Retail Dataset (UCI Machine Learning Repository)

@АлексейКомаров-ф8к 10 месяцев назад

Отрицательный unit-price (например, -1000) говорит о том, что сналача была покупка на 1000 рублей, при которой транзакция не прошла по любой причине. Поэтому ее пришлось отменить и вычесть эти 1000 рублей из статы. Отсюда и -1000 рублей. И если вы убираете этот отрицательный unit-price из статы, то, как я думаю, нужно также убрать и unit-price с аналогичной суммой со знаком +. Иначе выходит, что вы учитываете в стате продажу, которая на самом деле не прошла. Такое может быть?

@Dmitrii-Zhinzhilov Год назад

Благодарю! Отличный урок! Нашёл датасет из этого вебинара и кодил за видео. Всё отлично, теперь у меня есть отличный конспект с пометками в jupyter notebook, к которому можно в любое время вернуться и экспериментировать.

@БогданСкачко-о1ю Год назад

А где нашел датасет?

@Dmitrii-Zhinzhilov Год назад

@@БогданСкачко-о1ю, мой комментарий со ссылкой удаляется ((( увы

@delkaaaa Год назад

стоп стоп стоп))) а че это из экселя ничего нельзя? а олдскул ВБА? ))))))

@ZhansDoIT 2 года назад

Сам чемпион мира преподает

@numaki2506 3 года назад

Скиньте, пожалуйста, ссылку на код и данные

@U_H-t7w 5 месяцев назад

Online Retail Dataset (UCI Machine Learning Repository)

@LisTyrist 5 месяцев назад

Благодарю за этот вэбинар. Найду работу, с первой же зп после испытательного приду к вам на курс)

@Руслан-ю9г5ж 3 года назад

А когда будет анонс программы для джуниор/мидл аналитиков? В видео сказано, что в конце лета, но анонса до сих не было, я так понимаю

@karpovcourses 3 года назад

В разработке!)

@bloodmaze 11 месяцев назад

Я думал сначала что это Шелдон из теории большого взрыва

@ЕвгенийГолощапов-й2и Год назад

Можно получить дата сет и потренироваться? Так как на степике ссылки не работают?

@fedorok12345 2 года назад

Мне кажется несколько вульгарным трактовка похожих элементов в pandas по типу обращения к данным через .query() и [ ]. Как я понимаю разница все же есть, с точки зрения того, как это работает и чем это обусловлено. В моем представлении .query() должен возвращать копию объекта в переменную, в то время как обращение через [ ] вернет нам ссылку на объект в датафрейме. В таком случае если мы будем менять данные, через .query наш датафрейм не измениться а через [ ] должен поменяться. По аналогии со списками в python. Вероятно я не прав, но на мой взгляд различия должны быть. Все же одно метод который возвращает данные, а другое хитрый фильтр (если ничего не путаю).

@pazakharov 2 года назад

в защиту экселя следует сказать, что с использованием модели данных он вполне годно переваривает датасеты на 10+кк строк с разными объемными вычислениями. И он удобен для пользования конечными юзерами.

@ДаняМорозов-ю1ж Год назад

В excel всего 1 048 576 строк, что чуть больше 1кк строк Как он может переварить 10+кк строк, если это примерно в 10 раз больше, чем в нем есть ?

@pazakharov Год назад

@@ДаняМорозов-ю1ж с использованием power pivot. В обычном экселе уже на 300-400к строках будет тупняк.

@Leha_from_Zavod Год назад

@@pazakharov зависит насколько у тебя сильные нужны в науке данных, если это все сводится к базам анализа данных, то условно все можно делать связкой SQL+excel, но я бы поспорил относительно комфорта

@ТаинственныйНезнакомец-п8й 3 года назад

Спасибо большое Анатолий, за понятное объяснение, и вообще за все!, можно вопрос, я понимаю что поздновато, а вот если надо провести агрегирование но 2 факторам 1-й из которых время а 2-й какая-то качественная переменная, пол, цвет волос, как тогда посмотреть динамику в разрезе этой переменной!

@karpovcourses 3 года назад

Я бы построил просто графики по изменению метрики во времени для каждого фактора.

@ТаинственныйНезнакомец-п8й 3 года назад

@@karpovcourses это то понятно, но я наверное не про то пусть у меня есть время и столбец продажи по филиалам (пусть n) и мне надо провести агрегацию по времени в разрезе этих филиалов

@ShvetsAG 2 месяца назад

Очень интересно, спасибо

@evgkaff2867 2 года назад

Пользуясь случаем передаю привет всем ученикам скиллбокса на Data Science,которые сейчас проходят или будут экзаменационный тест))НУ и конечно респект скиллбоксу,уникальная база знаний,ага.

@elenabareysha9232 Год назад

Супер-видео! От простого к сложному, как быстро что-то проанализировать и даже сохранить табличный новый файл для коллег и начальства

@toxic_not9447 2 года назад

Тот момент , когда ты 2 минуты смотришь заставку и думаешь, что видео встало )

@ИИванов-ь6с Год назад

Плохо когда нет тайм кодов!

@AliyevAydin 3 года назад

Супер

@Имяифамилия-з4ю Год назад

Кайф - подписался

@hinomuratomisaburo4901 2 года назад

Супер круто !!! Спасибо вам за контент практический

@sosinboxru Год назад

количество обрабатываемых данных у меня от 20 тыс до 3 мил, excel на 20 тыс уже плохо себя чувствует, а если записей под миллион, то вообще дохнет.

@vladimir7759 Год назад

оперативы добавь

@vladimir7759 Год назад

для экселя лям перебор ставь бд

@vusalagaev1861 3 года назад

Анатолий лучший

@Ybuotue 3 года назад

Огонь. Прям полезно.

@ДенисТ-ю9я 2 года назад

ребят, объясните пжл. зачем нужно это все если я могу выполнить sql запрос и в powerBI уже достроить как мне нужно графики??? или тут можно творить чудеса??

@DeAsonpositive 2 года назад

Просто дело в том что пандас он для автоматизации нежели для ежедневного написания кода. Например можно сделать скрипт где он выгружает данные с сайта, чистит данные (колонки в sql где указано not null) и сохраняет все это и в Excell файле и загружает в SQL и всё это за минуту. И таких операций много, так же удобно делать скрипт с рассылкой чтобы каждый раз не отправлять вручную и т.д

@dazdess 2 года назад

Как же круто, когда понимаю синтаксис питона)

@dazdess 2 года назад

Двоеточие - это присваивание, есть ещё крутой оператор :=

@alisanotsleep 2 года назад

Спасибо за видео, но у меня часто возникает вопрос зачем это делать в python? Пользуюсь pandas, но для другого - собрать data frame. А уже с собранным df работаю в excel/power bi. В Excel давно есть Power Qwery, который может работать с миллионами строк. И подобные задачи в разы быстрее делать. Всё это делается просто кнопками, даж код писать не надо. Зачем это делать в pandas, сохранять в csv и открывать в excel, если можно сделать сразу в excel, еще и автоматизировать? А в Pbi и вовсе можно сразу python скрипт писать.

@ivanbaraban3086 2 года назад

Ну вообще-то Excel больше миллиона строк не сможет записать

@rawwwr19 2 года назад

Насколько я понимаю, питон позволяет выполнить весь цикл работы с данными в одно ноутбуке: и почистить, и объединить датасеты, и визуализировать, и провести A/B тесты. Думаю, спору нет, что писать код это более гибкий инструмент, однако сложнее в освоении. Я новичок, но с Эксель у меня возникала такая проблема: при построении боксплота не хватало кастомизации. Вот мне нужно было сгруппировать две категории на одной оси повторить такой график для разных продуктов. А Эксель не принимает на вход сводную таблицу.

@n0rmaLman 3 года назад

В excel скользящее среднее есть в о встроенной надстройке "пакет анализа", она еще и погрешность сама посчитает. Или можно использовать линию тренда, там тоже настройки есть. А если не лень, то можно просто формулу прописать. Так что возни со скользящим средним в excel не больше чем в pandas.