Аналитик данных Виктория Юферева

Аналитик данных Виктория Юферева

29
2 668

Подписаться

Это канал для всех желающих погрузиться в мир анализа данных. Меня зовут Виктория Юферева. Я стала аналитиком уже после 30 лет, проработав до этого более 10 лет в сфере высшего образования.

Сейчас я работаю ведущим аналитиком в ГБУ «Моя карьера» и вместе с супругом воспитываю дочь. В свободное время записываю обучающие ролики, в которых рассказываю о различных инструментах, помогающих аналитику решать рабочие задачи. В каждом уроке я стараюсь подробно раскрывать обозначенную тему - объясняю так, как хотела бы, чтобы объясняли мне.

Видео этого канала лягут в основу онлайн-курса для начинающих аналитиков. На данный момент в свободном доступе есть плейлист «Pandas для начинающих», работа над которым все еще продолжается.

Буду рада, если проделанная работа найдёт отклик у зрителей этого канала, и полученные здесь знания окажутся полезными.

Методы DUPLICATED и DROP_DUPLICATES. Поиск и удаление дубликатов из структуры DataFrame

6:10

Методы DUPLICATED и DROP_DUPLICATES. Поиск и удаление дубликатов из структуры DataFrame

Месяц назад

Метод DROP. Удаление строк и столбцов из структуры DataFrame

10:25

Метод DROP. Удаление строк и столбцов из структуры DataFrame

Месяц назад

Функции WHERE & SELECT библиотеки numpy. Изменение DataFrame по нескольким условиям.

5:04

Функции WHERE & SELECT библиотеки numpy. Изменение DataFrame по нескольким условиям.

2 месяца назад

Методы APPLY, MAP и REPLACE. Преобразование и замена значений структур Series и DataFrame.

8:00

Методы APPLY, MAP и REPLACE. Преобразование и замена значений структур Series и DataFrame.

2 месяца назад

Как заменить значения в колонке DataFrame по условию. Методы WHERE, MASK, LOC - аналоги ЕСЛИ Excel

8:59

Как заменить значения в колонке DataFrame по условию. Методы WHERE, MASK, LOC - аналоги ЕСЛИ Excel

3 месяца назад

Комбинирование перекрывающихся данных. Метод combine_first(). Заполняем NaN значениями

6:59

Комбинирование перекрывающихся данных. Метод combine_first(). Заполняем NaN значениями

3 месяца назад

Подробный разбор MERGE, JOIN & CONCAT. Типы объединения таблиц и Database-style подход в pandas.

35:21

Подробный разбор MERGE, JOIN & CONCAT. Типы объединения таблиц и Database-style подход в pandas.

4 месяца назад

Изменение имен столбцов DataFrame. RENAME, REPLACE + SKIMPY (clean_columns)

4:49

Изменение имен столбцов DataFrame. RENAME, REPLACE + SKIMPY (clean_columns)

6 месяцев назад

Методы ASSIGN, INSERT, CONCAT. Добавление и изменение столбцов и строк DataFrame

12:58

Методы ASSIGN, INSERT, CONCAT. Добавление и изменение столбцов и строк DataFrame

6 месяцев назад

Методы SORT_VALUES & SORT_INDEX. Сортировка значений и индексов/имен строк и столбцов DataFrame

14:45

Методы SORT_VALUES & SORT_INDEX. Сортировка значений и индексов/имен строк и столбцов DataFrame

7 месяцев назад

Чтение больших файлов в pandas. Использование параметра chunksize в read_csv

15:41

Чтение больших файлов в pandas. Использование параметра chunksize в read_csv

7 месяцев назад

Поиск целочисленной позиции метки строки или столбца DataFrame

5:08

Поиск целочисленной позиции метки строки или столбца DataFrame

7 месяцев назад

Изменение структуры DataFrame с помощью loc и iloc

13:27

Изменение структуры DataFrame с помощью loc и iloc

8 месяцев назад

Метод FILTER. Фильтрация DataFrame по именам строк и столбцов

9:02

Метод FILTER. Фильтрация DataFrame по именам строк и столбцов

8 месяцев назад

Запрос данных с помощью метода QUERY (EVAL) в pandas

16:34

Запрос данных с помощью метода QUERY (EVAL) в pandas

8 месяцев назад

Извлечение данных с помощью строковых методов STR.CONTAINS, STR.STARTSWITH, STR.ENDSWITH, STR.MATCH

16:45

Извлечение данных с помощью строковых методов STR.CONTAINS, STR.STARTSWITH, STR.ENDSWITH, STR.MATCH

9 месяцев назад

Извлечение данных по условию. Булева индексация. Метод ISIN

12:27

Извлечение данных по условию. Булева индексация. Метод ISIN

9 месяцев назад

Методы CUT и QCUT в pandas. Разделяем набор числовых данных на интервалы и категории

31:21

Методы CUT и QCUT в pandas. Разделяем набор числовых данных на интервалы и категории

10 месяцев назад

Тип данных CATEGORY в pandas. Создание объекта класса CATEGORICAL. Категориальные данные в DataFrame

17:17

Тип данных CATEGORY в pandas. Создание объекта класса CATEGORICAL. Категориальные данные в DataFrame

11 месяцев назад

Как скопировать таблицу с сайта или из файла сразу в DataFrame (методы read_html и read_clipboard)

6:10

Как скопировать таблицу с сайта или из файла сразу в DataFrame (методы read_html и read_clipboard)

11 месяцев назад

Типы данных в pandas. Изменение и выборка типа данных (DTYPE, ASTYPE, TO_NUMERIC, TO_DATETIME)

12:41

Типы данных в pandas. Изменение и выборка типа данных (DTYPE, ASTYPE, TO_NUMERIC, TO_DATETIME)

11 месяцев назад

Чтение и запись файлов формата CSV (READ_CSV, READ_TABLE, TO_CSV). Курс "Pandas для начинающих"

8:58

Чтение и запись файлов формата CSV (READ_CSV, READ_TABLE, TO_CSV). Курс "Pandas для начинающих"

11 месяцев назад

LOC, ILOC, TAKE - подробный разбор подходов и методов для доступа к данным Series и DataFrame

48:04

LOC, ILOC, TAKE - подробный разбор подходов и методов для доступа к данным Series и DataFrame

Год назад

Доступ к данным Series и DataFrame через атрибуты INDEX, COLUMNS, VALUES, AXES + SHAPE, SIZE и INFO

10:21

Доступ к данным Series и DataFrame через атрибуты INDEX, COLUMNS, VALUES, AXES + SHAPE, SIZE и INFO

Год назад

Как преобразовать Series в DataFrame - часть 2. Курс "Pandas для начинающих"

8:46

Как преобразовать Series в DataFrame - часть 2. Курс "Pandas для начинающих"

Год назад

Как преобразовать Series в DataFrame - часть 1. Курс "Pandas для начинающих"

5:34

Как преобразовать Series в DataFrame - часть 1. Курс "Pandas для начинающих"

Год назад

Создание Series. Курс "Pandas для начинающих"

9:43

Создание Series. Курс "Pandas для начинающих"

Год назад

Создание DataFrame - часть 1, 2, 3. Курс "Pandas для начинающих".

20:04

Создание DataFrame - часть 1, 2, 3. Курс "Pandas для начинающих".

Год назад

Комментарии

@alyonastarling8881 Месяц назад

Спасибо! Приятно Вас слушать и все понятно

@DataAnalystVictoria Месяц назад

И Вам спасибо за обратную связь!

@user-Nachum 4 месяца назад

Как же вовремя , как раз хотел объединять данные по акциям с курсом USD, но к сожалению не смотря на одинаковые временные промежутки размерности всегда разные

@user-ol8cd3lv5w 4 месяца назад

Было полезно в части ошибок при цепном присваивании. Буду теперь использовать loc. Спасибо!

@analyst_from_ufa 7 месяцев назад

В целом всё круто, только не услышал про применение параметра "duplicates", по которому искал информацию 🙂

@DataAnalystVictoria 7 месяцев назад

Спасибо за комментарий. С параметром duplicates все довольно просто. Если вы в bins передаете список неуникальных значений (например, вот такой код: s = pd.Series(np.array([2, 4, 6, 8, 10]), index=['a', 'b', 'c', 'd', 'e'] pd.cut(s, [0, 2, 4, 6, 10, 10], labels=False, retbins=True, right=False)), и при этом у вас параметр duplicates стоит в позиции по умолчанию, то вы получите ошибку "ValueError: Bin edges must be unique: array([ 0, 2, 4, 6, 10, 10]). You can drop duplicate edges by setting the 'duplicates' kwarg", что значит, что краевые точки интевалов (передаваемые числа) должны быть уникальными, и вы можете автоматически удалить повторяющиеся элементы, если присвоите параметру duplicates значение drop: pd.cut(s, [0, 2, 4, 6, 10, 10], labels=False, retbins=True, right=False, duplicates='drop'), то есть метод cut c параметром duplicates='drop' сам удалит дубликаты, если они имеются.

@Mishurova.Analyst 8 месяцев назад

Очень крутое видео об использовании query! Все четко и без воды, помогло разобраться!

@nartoomeon9378 9 месяцев назад

Хмммм, регексы для аналитиков? Я думал только комп. лингвистов.

@DataAnalystVictoria 9 месяцев назад

Аналитики даже лемматизацию используют периодически. Задачи бывают очень интересными )

@nartoomeon9378 9 месяцев назад

@@DataAnalystVictoria, в принципе, если датасет текстовый, то вроде как неудивительно. Думал вы только числовые обрабатываете.

@svetaonopa6341 9 месяцев назад

Спасибо большое! Очень помогли разобраться в этой теме!

@DataAnalystVictoria 9 месяцев назад

И Вам спасибо за обратную связь! 😉

@paveltimofeev5686 Год назад

Спасибо огромное за видео! Пожалуйста, не останавливайтесь. Есть люди, кому вы очень помогаете.

@DataAnalystVictoria Год назад

Благодарю за Ваш комментарий, Павел! Приятно осознавать свою полезность ) Останавливаться не собираюсь. Более того, сейчас готовлю материалы для открытого онлайн-курса на платформе Stepik по pandas. В его основу лягут видео этого канала + ссылки на ноутбуки видеолекций + упражнения. Всех своих подписчиков и зрителей канала обязательно приглашу на данный курс.

@user-Nachum Год назад

Отлично ! Хотелось бы увидеть какими способами можно сменить нули на np.nan в дата фрейме

@DataAnalystVictoria Год назад

Обязательно сниму видео про пропуски в данных. Заменить нули на np.nan можно с помощью метода replace: df[‘col’] = df[‘col’].replace(0, np.nan)

@nadezhdamishurova6975 Год назад

Отличное видео!