Тёмный

ВВЕДЕНИЕ В PYSPARK И SPARKSQL / ОЛЕГ АГАПОВ 

DataLearn
Подписаться 17 тыс.
Просмотров 28 тыс.
50% 1

На вебинаре хочу рассказать про появление Apache Spark, его применение в современном стеке дата-инструментов, а также на практике показать как запустить Spark на своём компьютере и написать первый ETL пайплайн!
🔔 План:
📌 Как и почему появился Apache Spark
📌 Какие задачи решает
📌 Основные концепции
📌 Практика 1 - установка и запуск PySpark локально
📌 SparkSQL API
📌 Практика 2 - делаем ETL в PySpark
📌 Q&A
🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить новые видео и ставьте лайки!
📕 Записывайтесь и проходите курс Инженера Данных.
⚠️ КУРС БЕСПЛАТНЫЙ!
🔗 Записаться вы можете на нашем портале datalearn.ru/
👍🏻 Запись на курс даст вам возможность не только просматривать видео, но и получить доступ к закрытым материалам, а также возможность выполнять домашние задания, отдавать их на проверку и получить сертификат прохождения курса.

Опубликовано:

 

30 сен 2024

Поделиться:

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист
Посмотреть позже
Комментарии : 53   
@illiakaltovich
@illiakaltovich Год назад
Отличная вводная лекция по Spark 🙂 Таймкоды: 1:38 - План вебинара 3:05 - Для кого этот вебинар 3:48 - О спикере 5:00 - Начало. Пример задачи, под которую заточен Spark 11:59 - Что такое Spark? 17:36 - Модель распределенных вычислений в Spark 22:40 - Нужен ли Spark’y Hadoop? 22:25 - Практика. Установка Spark локально 27:04 - Установка Pyspark из pip 35:15 - Запуск Spark из Docker 38:26 - Запуск Spark в Google Colab 45:35 - Обзор собранной статистики о слушателях 46:00 - Q&A сессия 51:08 - Про режимы работы Spark 54:02 - Что можно делать в PySpark? 56:24 - Компоненты PySpark приложения 1:05:54 - Подробнее о DataFrame 1:08:41 - Читаем данные в DataFrame 1:15:08 - О трансформации данных 1:17:26 - О записи данных 1:18:54 - SQL в Spark 1:23:26 - Практика. DataFrame API 2:24:39 - DataFrame API: основные методы в использовании 2:25:36 - SQL functions: основные методы в использовании 2:27:40 - Общие принципы Spark приложения 2:34:08 - Q&A сессия
@annicioua
@annicioua Год назад
Спасибо тебе добрый человек =)
@annicioua
@annicioua Год назад
Как жаль, что ведущий вебинара не рассказал, что просто так ты не заинсталлишь Spark через pip install , если не создашь специальные системные переменные среды, а у лектора всё уже готовенько, а у него pyspark к моменту записи вебинара уже давно установлен был..
@Vanzer77
@Vanzer77 2 года назад
Отличное видео для начала работы с PySpark! Есть вопрос по части, где нужно посчитать статистики по полю manufacturer_name. Из моего опыта с СУБД и Pandas, очень плохой тон делать группировки по текстовым полям - они работают значительно медленнее чем по целочисленным полям / датам. Понимаю, что в видео поле manufacturer_name было выбрано для примера, но как в целом у спарка обстоят дела с группировкой по тестовым колонкам?
@ManticoreRoko
@ManticoreRoko Год назад
Великолепный материал для тех кто только начинает погружаться в PySpark. Благодарности ведущему и основателям канала
@olegzaba4756
@olegzaba4756 2 года назад
вообще классно всё объяснил - 3 часа как одно мгновение ... очень жду продолжение!
@АлександрДергилёв-п8х
Сильный спикер, спасибо!
@Юрий-б2ф4з
@Юрий-б2ф4з 2 года назад
Лучшая вводная лекция, которую я видел. Но, ребята, что за звук? 2021й год и треск микрофона?! Вы серьезно?)
@volodink
@volodink 6 месяцев назад
А ссылку на гитхаб в коменты скиньте пожалуйста😅
@sergeystrikanov2302
@sergeystrikanov2302 2 года назад
Большое спасибо! Очень круто для понимания и знакомства с PySpark.
@Egor-sm4bl
@Egor-sm4bl 2 года назад
Хм, а у меня сразу сохранило в одном файле json.... Что-то не так сделал?
@maksimkuznetsov2132
@maksimkuznetsov2132 Год назад
Спасибо большое! По ETL вообще мало чего есть в русскоязычном сегменте ютуба. На мой взгляд лучший способ передачи опыта - видео. Питон немного изучал. Сейчас я PL/SQL разработчик, но думаю смещаться в ETL. Дико привык к SQL. И все эти методы кажатся извращением. Вообще БД-шные спецы плюются на спарк и ORM
@529aff
@529aff 7 месяцев назад
в spark можно писать и на sql
@Asylum_M
@Asylum_M 2 года назад
Спасибо, а когда продолжение? На ютубе одни вводные лекции для pyspark, а хотелось бы более глубокого погружения.
@maksimkuznetsov2132
@maksimkuznetsov2132 8 месяцев назад
Привет. Кстати, как успехи с пайспарком? Вообще мне показалось, что всего, что тут есть хватит для старта карьеры в этом стэке. Сейчас пытаюсь стартовать в этом имея за плечами большой опыт на SQL и материал этого видео. ))
@254598
@254598 2 года назад
Ребята вы лучшие! Купила курс на gb, в итоге модуль про спарк изучаю по вашему видео)
@anastasiyaivanova6992
@anastasiyaivanova6992 3 года назад
Спасибо, очень полезная информация для ознакомления с PySpark. Как раз то что было нужно.
@vandriichuk
@vandriichuk 3 года назад
Спасибо. Для меня очень полезный материал. Особенно ценно, что на русском.
@НикитаКульков-м5ф
@НикитаКульков-м5ф 3 года назад
Спасибо, долго искал что-то подобное на ру-ресусрах)
@qweras79
@qweras79 Год назад
Привет. Спасибо большое за видео. Можно вопрос, будь ласка? я попробовала работать в сессии Спарка прямо из Визуал Студио Код - єто очень неудобно по ряду причин. Установила взяла отдельно Юпитер. но сессия Спарка в Юпитера не запускается. Єто невозможно или я что-то делаю не так?
@antonboiko788
@antonboiko788 Год назад
Драйвер не распределяет данные между экзекьюторами, это делает Cluster manager
@maksimsvirskiy6828
@maksimsvirskiy6828 2 года назад
Огромное спасибо - было очень понятно! а где посмотреть презентацию и ссылки все на гит и т.д.?!
@Frezer911
@Frezer911 Год назад
В чатике трансляции
@АндрейКадетов-н3р
@АндрейКадетов-н3р Месяц назад
Прекрасная лекция, спасибо огромное!
@denisbaranoff
@denisbaranoff 2 года назад
Прекрасно, это прям ну очень просится па мастеркласс по пайспар в какой- нибудб юдеми👍👍👍
@petrodyak
@petrodyak 2 года назад
Thanks for the introduction to the PySpark! It was very useful.
@maksimkuznetsov2132
@maksimkuznetsov2132 Год назад
Интересно было бы ещё узнать, где чаще всего бывают затыки по производительнсти.
@lex83641
@lex83641 2 года назад
Отличный доклад! Гораздо лучше всяких индусов
@ДмитрийВолишевский
Кайфовый вэбик. Вы как всегда на уровне бог. Спасибо Олегу!
@igorbulenko6335
@igorbulenko6335 2 года назад
Спасибо, очень круто, хотелось бы продолжения ))
@bbbkkk930
@bbbkkk930 11 месяцев назад
хороший эфир ... авторам спасибо
@aliaksandrsiamenau9922
@aliaksandrsiamenau9922 2 года назад
Замечательный стрим, спасибо
@gpankov
@gpankov 9 месяцев назад
лучшее объяснение!
@faizalimuhammadzoda4731
@faizalimuhammadzoda4731 2 года назад
Спасибо за хороший контент.
@salivona
@salivona 2 года назад
Очень здорово, спасибо!
@nikitakrutikov9697
@nikitakrutikov9697 2 года назад
Респектище, помогло очень
@lerosh7894
@lerosh7894 Год назад
вебинар огонь
@imoldpirate
@imoldpirate Год назад
норм
@itrunner
@itrunner 2 года назад
Очень крутой доклад!
@ДмитрийАверьянов-щ4г
Шикарно
@dmitryanoshin8004
@dmitryanoshin8004 3 года назад
Очень круто! Добавим к модулю 7 DE-101!
@anton108
@anton108 2 года назад
ты забыл вставить ссылку в GIT
@cozyfootball
@cozyfootball 10 месяцев назад
Очень много водяных рассуждений ни о чем. Очень много бэ, мэ, эээ. "Я рассказываю так быстро" - ты серьзно?
@529aff
@529aff 7 месяцев назад
запишешь лучше?
Далее
КАК БОМЖУ ЗАРАБОТАТЬ НА ТАЧКУ
1:36:32
Очень кратко про Hadoop и Spark
4:03
Просмотров 30 тыс.
МИТАП: «Spark или pandas? Spark и pandas!»
1:43:33
Введение в LLM
54:26
Просмотров 374