Тёмный

Анализ данных в Pandas | Вебинар Анатолия Карпова | karpov.courses 

karpov.courses
Подписаться 47 тыс.
Просмотров 51 тыс.
50% 1

Курс «Аналитик данных»: bit.ly/3NApIIY
Мы продолжаем наши открытые вебинары для всех, кто интересуется анализом данных! В этот раз сделаем акцент на инструментах и поговорим о библиотеке Pandas. Будет полезно и тем, кто только начинает знакомиться с питоном, и более опытным пользователям, так как разберем различные продвинутые и необычные приемы и лайфкаки.
Домашние задания и дополнительные материалы можете найти на нашем курсе на Stepik: stepik.org/cou...
Учитесь Data Science с нами: karpov.courses/

Опубликовано:

 

30 сен 2024

Поделиться:

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист
Посмотреть позже
Комментарии : 70   
@НатальяНосова-с7я
Анатолий, у меня нет слов, в этом видео есть ответы на любой вопрос, я возвращаюсь к просмотру снова и снова. Спасибо, за труд.
@ВенераКозлова-м8м
@ВенераКозлова-м8м 2 года назад
Этого человека хочется слушать часами, жаль, что видео кончается😁Пойду рыть дальше по каналу))
@asfasf6729
@asfasf6729 3 года назад
Скажите, где взять этот файл data_csv?
@U_H-t7w
@U_H-t7w 5 месяцев назад
Online Retail Dataset (UCI Machine Learning Repository)
@fordmustang511
@fordmustang511 2 года назад
@Karpov.Courses подскажи где можно найти данные из урока?
@a.shilov
@a.shilov 3 года назад
Хороший стрим, готов каждую неделю встречаться на таких стримах.
@aidartimerbayev9600
@aidartimerbayev9600 10 месяцев назад
Доброе время суток, Анатолий! Не совсем согласен, что без background в программировании, возможно хорошо ориентироваться в Pandas в аналитике. Неплохо разобраться ещё в SQL. Огромное спасибо за вебинар.
@worldtech2770
@worldtech2770 2 года назад
Спасибо! подскажите пожалуйста, как сделать так что бы в pandas отображались оригинальные числа которые я открыл с файла .csv добавляются лишние 0 и в некоторых столбцах не на том месте точка стоит. Вот оригинал строки: 82; 1; 40.79326147; 354064; 0.1637; 5.12; 5000000000 Вот что показывает pandas: 82 1.000000 40.793261 3.540640e+05 0.16370 1 5.120000 5.000000e+09
@АлександрСудиловский-ж4й
Ребят, а ссылки на материалы и код уже не найти?)
@U_H-t7w
@U_H-t7w 5 месяцев назад
Online Retail Dataset (UCI Machine Learning Repository)
@tarasst6887
@tarasst6887 2 года назад
Ты с такой радостью расказываешь про пандас но ведь у R это все есть из коробки, почему отказался от Рки ? Сделай видео..
@ИринаБабинцева-к9в
Спасибо за Ваш труд, очень интересно! Четкая, быстрая подача материала, приятно слушать!
@ПахомийУшастый
@ПахомийУшастый 2 месяца назад
В excel помедленнее будет все равно, даже если юзать dax and PQ
@sergelyamin
@sergelyamin Год назад
Видео начинается на 2:40
@МихайлоНіколаєвський
я в восторге - это самое полезное и понятное видео по Pandas за все время моего обучения Data Science, чувствую, я еще не раз буду к нему возвращаться за подсказками) браво, Анатолий!
@lochlanira2589
@lochlanira2589 3 года назад
i dont mean to be so off topic but does anybody know of a method to log back into an Instagram account..? I was dumb forgot my password. I would love any tips you can give me!
@billydariel9140
@billydariel9140 3 года назад
@Lochlan Ira instablaster ;)
@Keefear
@Keefear 2 года назад
Топ лекция.🔥🔥🔥 Спасибо огромное. 👍 Записывайте ещё ↗️
@dradik16
@dradik16 3 года назад
Спасибо за видео. В самом начале все очень ясно, потом вдруг вы резко переходите на сложносочиненные строки вместо отдельных рубленных команд. Новичкам второй вариант синтаксиса гораздо более удобен для восприятия.
@IdeasStrongest
@IdeasStrongest Год назад
Очень доходчиво объясняете по каждому моменту. Спасибо за видео
@AliyevAydin
@AliyevAydin 3 года назад
Я группирую данные по месяцам и есть такие месяцы которые не содержат данные,но почему-то python автоматичесски добавляет этот месяц и перераспределяет данные с предыдущего месяца в результате данные искажаются.Плз помогите
@benoeksionev8025
@benoeksionev8025 Год назад
Обалдеть какое крутое видео, автор просто мастер в этой теме, спасибо большое целую в лобик
@constantinews
@constantinews 3 года назад
Пожалуйста, напишите ссылку на jupyter notebook из видео?
@U_H-t7w
@U_H-t7w 5 месяцев назад
Online Retail Dataset (UCI Machine Learning Repository)
@АлексейКомаров-ф8к
@АлексейКомаров-ф8к 10 месяцев назад
Отрицательный unit-price (например, -1000) говорит о том, что сналача была покупка на 1000 рублей, при которой транзакция не прошла по любой причине. Поэтому ее пришлось отменить и вычесть эти 1000 рублей из статы. Отсюда и -1000 рублей. И если вы убираете этот отрицательный unit-price из статы, то, как я думаю, нужно также убрать и unit-price с аналогичной суммой со знаком +. Иначе выходит, что вы учитываете в стате продажу, которая на самом деле не прошла. Такое может быть?
@Dmitrii-Zhinzhilov
@Dmitrii-Zhinzhilov Год назад
Благодарю! Отличный урок! Нашёл датасет из этого вебинара и кодил за видео. Всё отлично, теперь у меня есть отличный конспект с пометками в jupyter notebook, к которому можно в любое время вернуться и экспериментировать.
@БогданСкачко-о1ю
А где нашел датасет?
@Dmitrii-Zhinzhilov
@Dmitrii-Zhinzhilov Год назад
@@БогданСкачко-о1ю, мой комментарий со ссылкой удаляется ((( увы
@delkaaaa
@delkaaaa Год назад
стоп стоп стоп))) а че это из экселя ничего нельзя? а олдскул ВБА? ))))))
@ZhansDoIT
@ZhansDoIT 2 года назад
Сам чемпион мира преподает
@numaki2506
@numaki2506 3 года назад
Скиньте, пожалуйста, ссылку на код и данные
@U_H-t7w
@U_H-t7w 5 месяцев назад
Online Retail Dataset (UCI Machine Learning Repository)
@LisTyrist
@LisTyrist 5 месяцев назад
Благодарю за этот вэбинар. Найду работу, с первой же зп после испытательного приду к вам на курс)
@Руслан-ю9г5ж
@Руслан-ю9г5ж 3 года назад
А когда будет анонс программы для джуниор/мидл аналитиков? В видео сказано, что в конце лета, но анонса до сих не было, я так понимаю
@karpovcourses
@karpovcourses 3 года назад
В разработке!)
@bloodmaze
@bloodmaze 11 месяцев назад
Я думал сначала что это Шелдон из теории большого взрыва
@ЕвгенийГолощапов-й2и
Можно получить дата сет и потренироваться? Так как на степике ссылки не работают?
@fedorok12345
@fedorok12345 2 года назад
Мне кажется несколько вульгарным трактовка похожих элементов в pandas по типу обращения к данным через .query() и [ ]. Как я понимаю разница все же есть, с точки зрения того, как это работает и чем это обусловлено. В моем представлении .query() должен возвращать копию объекта в переменную, в то время как обращение через [ ] вернет нам ссылку на объект в датафрейме. В таком случае если мы будем менять данные, через .query наш датафрейм не измениться а через [ ] должен поменяться. По аналогии со списками в python. Вероятно я не прав, но на мой взгляд различия должны быть. Все же одно метод который возвращает данные, а другое хитрый фильтр (если ничего не путаю).
@pazakharov
@pazakharov 2 года назад
в защиту экселя следует сказать, что с использованием модели данных он вполне годно переваривает датасеты на 10+кк строк с разными объемными вычислениями. И он удобен для пользования конечными юзерами.
@ДаняМорозов-ю1ж
В excel всего 1 048 576 строк, что чуть больше 1кк строк Как он может переварить 10+кк строк, если это примерно в 10 раз больше, чем в нем есть ?
@pazakharov
@pazakharov Год назад
@@ДаняМорозов-ю1ж с использованием power pivot. В обычном экселе уже на 300-400к строках будет тупняк.
@Leha_from_Zavod
@Leha_from_Zavod Год назад
@@pazakharov зависит насколько у тебя сильные нужны в науке данных, если это все сводится к базам анализа данных, то условно все можно делать связкой SQL+excel, но я бы поспорил относительно комфорта
@ТаинственныйНезнакомец-п8й
Спасибо большое Анатолий, за понятное объяснение, и вообще за все!, можно вопрос, я понимаю что поздновато, а вот если надо провести агрегирование но 2 факторам 1-й из которых время а 2-й какая-то качественная переменная, пол, цвет волос, как тогда посмотреть динамику в разрезе этой переменной!
@karpovcourses
@karpovcourses 3 года назад
Я бы построил просто графики по изменению метрики во времени для каждого фактора.
@ТаинственныйНезнакомец-п8й
@@karpovcourses это то понятно, но я наверное не про то пусть у меня есть время и столбец продажи по филиалам (пусть n) и мне надо провести агрегацию по времени в разрезе этих филиалов
@ShvetsAG
@ShvetsAG 2 месяца назад
Очень интересно, спасибо
@evgkaff2867
@evgkaff2867 2 года назад
Пользуясь случаем передаю привет всем ученикам скиллбокса на Data Science,которые сейчас проходят или будут экзаменационный тест))НУ и конечно респект скиллбоксу,уникальная база знаний,ага.
@elenabareysha9232
@elenabareysha9232 Год назад
Супер-видео! От простого к сложному, как быстро что-то проанализировать и даже сохранить табличный новый файл для коллег и начальства
@toxic_not9447
@toxic_not9447 2 года назад
Тот момент , когда ты 2 минуты смотришь заставку и думаешь, что видео встало )
@ИИванов-ь6с
@ИИванов-ь6с Год назад
Плохо когда нет тайм кодов!
@AliyevAydin
@AliyevAydin 3 года назад
Супер
@Имяифамилия-з4ю
Кайф - подписался
@hinomuratomisaburo4901
@hinomuratomisaburo4901 2 года назад
Супер круто !!! Спасибо вам за контент практический
@sosinboxru
@sosinboxru Год назад
количество обрабатываемых данных у меня от 20 тыс до 3 мил, excel на 20 тыс уже плохо себя чувствует, а если записей под миллион, то вообще дохнет.
@vladimir7759
@vladimir7759 Год назад
оперативы добавь
@vladimir7759
@vladimir7759 Год назад
для экселя лям перебор ставь бд
@vusalagaev1861
@vusalagaev1861 3 года назад
Анатолий лучший
@Ybuotue
@Ybuotue 3 года назад
Огонь. Прям полезно.
@ДенисТ-ю9я
@ДенисТ-ю9я 2 года назад
ребят, объясните пжл. зачем нужно это все если я могу выполнить sql запрос и в powerBI уже достроить как мне нужно графики??? или тут можно творить чудеса??
@DeAsonpositive
@DeAsonpositive 2 года назад
Просто дело в том что пандас он для автоматизации нежели для ежедневного написания кода. Например можно сделать скрипт где он выгружает данные с сайта, чистит данные (колонки в sql где указано not null) и сохраняет все это и в Excell файле и загружает в SQL и всё это за минуту. И таких операций много, так же удобно делать скрипт с рассылкой чтобы каждый раз не отправлять вручную и т.д
@dazdess
@dazdess 2 года назад
Как же круто, когда понимаю синтаксис питона)
@dazdess
@dazdess 2 года назад
Двоеточие - это присваивание, есть ещё крутой оператор :=
@alisanotsleep
@alisanotsleep 2 года назад
Спасибо за видео, но у меня часто возникает вопрос зачем это делать в python? Пользуюсь pandas, но для другого - собрать data frame. А уже с собранным df работаю в excel/power bi. В Excel давно есть Power Qwery, который может работать с миллионами строк. И подобные задачи в разы быстрее делать. Всё это делается просто кнопками, даж код писать не надо. Зачем это делать в pandas, сохранять в csv и открывать в excel, если можно сделать сразу в excel, еще и автоматизировать? А в Pbi и вовсе можно сразу python скрипт писать.
@ivanbaraban3086
@ivanbaraban3086 2 года назад
Ну вообще-то Excel больше миллиона строк не сможет записать
@rawwwr19
@rawwwr19 2 года назад
Насколько я понимаю, питон позволяет выполнить весь цикл работы с данными в одно ноутбуке: и почистить, и объединить датасеты, и визуализировать, и провести A/B тесты. Думаю, спору нет, что писать код это более гибкий инструмент, однако сложнее в освоении. Я новичок, но с Эксель у меня возникала такая проблема: при построении боксплота не хватало кастомизации. Вот мне нужно было сгруппировать две категории на одной оси повторить такой график для разных продуктов. А Эксель не принимает на вход сводную таблицу.
@n0rmaLman
@n0rmaLman 3 года назад
В excel скользящее среднее есть в о встроенной надстройке "пакет анализа", она еще и погрешность сама посчитает. Или можно использовать линию тренда, там тоже настройки есть. А если не лень, то можно просто формулу прописать. Так что возни со скользящим средним в excel не больше чем в pandas.
Далее
Катаю тележки  🛒
08:48
Просмотров 606 тыс.
DAXSHAT!!! Avaz Oxun sahnada yeg'lab yubordi
10:46
Просмотров 449 тыс.
Шоколадная девочка
00:23
Просмотров 303 тыс.
Зачем нужны даталейки (Data Lake)
35:59
Катаю тележки  🛒
08:48
Просмотров 606 тыс.