Тёмный
Аналитик данных Виктория Юферева
Аналитик данных Виктория Юферева
Аналитик данных Виктория Юферева
Подписаться
Это канал для всех желающих погрузиться в мир анализа данных. Меня зовут Виктория Юферева. Я стала аналитиком уже после 30 лет, проработав до этого более 10 лет в сфере высшего образования.

Сейчас я работаю ведущим аналитиком в ГБУ «Моя карьера» и вместе с супругом воспитываю дочь. В свободное время записываю обучающие ролики, в которых рассказываю о различных инструментах, помогающих аналитику решать рабочие задачи. В каждом уроке я стараюсь подробно раскрывать обозначенную тему - объясняю так, как хотела бы, чтобы объясняли мне.

Видео этого канала лягут в основу онлайн-курса для начинающих аналитиков. На данный момент в свободном доступе есть плейлист «Pandas для начинающих», работа над которым все еще продолжается.

Буду рада, если проделанная работа найдёт отклик у зрителей этого канала, и полученные здесь знания окажутся полезными.
Комментарии
@alyonastarling8881
@alyonastarling8881 Месяц назад
Спасибо! Приятно Вас слушать и все понятно
@DataAnalystVictoria
@DataAnalystVictoria Месяц назад
И Вам спасибо за обратную связь!
@user-Nachum
@user-Nachum 4 месяца назад
Как же вовремя , как раз хотел объединять данные по акциям с курсом USD, но к сожалению не смотря на одинаковые временные промежутки размерности всегда разные
@user-ol8cd3lv5w
@user-ol8cd3lv5w 4 месяца назад
Было полезно в части ошибок при цепном присваивании. Буду теперь использовать loc. Спасибо!
@analyst_from_ufa
@analyst_from_ufa 7 месяцев назад
В целом всё круто, только не услышал про применение параметра "duplicates", по которому искал информацию 🙂
@DataAnalystVictoria
@DataAnalystVictoria 7 месяцев назад
Спасибо за комментарий. С параметром duplicates все довольно просто. Если вы в bins передаете список неуникальных значений (например, вот такой код: s = pd.Series(np.array([2, 4, 6, 8, 10]), index=['a', 'b', 'c', 'd', 'e'] pd.cut(s, [0, 2, 4, 6, 10, 10], labels=False, retbins=True, right=False)), и при этом у вас параметр duplicates стоит в позиции по умолчанию, то вы получите ошибку "ValueError: Bin edges must be unique: array([ 0, 2, 4, 6, 10, 10]). You can drop duplicate edges by setting the 'duplicates' kwarg", что значит, что краевые точки интевалов (передаваемые числа) должны быть уникальными, и вы можете автоматически удалить повторяющиеся элементы, если присвоите параметру duplicates значение drop: pd.cut(s, [0, 2, 4, 6, 10, 10], labels=False, retbins=True, right=False, duplicates='drop'), то есть метод cut c параметром duplicates='drop' сам удалит дубликаты, если они имеются.
@Mishurova.Analyst
@Mishurova.Analyst 8 месяцев назад
Очень крутое видео об использовании query! Все четко и без воды, помогло разобраться!
@nartoomeon9378
@nartoomeon9378 9 месяцев назад
Хмммм, регексы для аналитиков? Я думал только комп. лингвистов.
@DataAnalystVictoria
@DataAnalystVictoria 9 месяцев назад
Аналитики даже лемматизацию используют периодически. Задачи бывают очень интересными )
@nartoomeon9378
@nartoomeon9378 9 месяцев назад
@@DataAnalystVictoria, в принципе, если датасет текстовый, то вроде как неудивительно. Думал вы только числовые обрабатываете.
@svetaonopa6341
@svetaonopa6341 9 месяцев назад
Спасибо большое! Очень помогли разобраться в этой теме!
@DataAnalystVictoria
@DataAnalystVictoria 9 месяцев назад
И Вам спасибо за обратную связь! 😉
@paveltimofeev5686
@paveltimofeev5686 Год назад
Спасибо огромное за видео! Пожалуйста, не останавливайтесь. Есть люди, кому вы очень помогаете.
@DataAnalystVictoria
@DataAnalystVictoria Год назад
Благодарю за Ваш комментарий, Павел! Приятно осознавать свою полезность ) Останавливаться не собираюсь. Более того, сейчас готовлю материалы для открытого онлайн-курса на платформе Stepik по pandas. В его основу лягут видео этого канала + ссылки на ноутбуки видеолекций + упражнения. Всех своих подписчиков и зрителей канала обязательно приглашу на данный курс.
@user-Nachum
@user-Nachum Год назад
Отлично ! Хотелось бы увидеть какими способами можно сменить нули на np.nan в дата фрейме
@DataAnalystVictoria
@DataAnalystVictoria Год назад
Обязательно сниму видео про пропуски в данных. Заменить нули на np.nan можно с помощью метода replace: df[‘col’] = df[‘col’].replace(0, np.nan)
@nadezhdamishurova6975
@nadezhdamishurova6975 Год назад
Отличное видео!