Тёмный

DATALEARN | DE - 101 | МОДУЛЬ 7-3 НАЧАЛО РАБОТЫ В APACHE SPARK 

DataLearn
Подписаться 17 тыс.
Просмотров 3,6 тыс.
50% 1

Apache Spark является самый популярным инструментом среди инженеров данных, аналитиков и инженеров машинного обучения. Его главная задача это обработка данных. С помощью Spark можно подключаться к любому источнику данных, читать большие данные и обрабатывать их в оперативной памяти с использованием распределенного вычисления (distributed computing).
В этом видео:
📌 Скачаем и запустим Apache Spark
📌 Посмотрим как запустить Spark на Windows
📌 Посмотрим на Spark UI
📌 Узнаем про основные компоненты Spark
📌 Начнем использовать PySpark
Запустим Spark программу с помощью spark-submit
В качестве лабораторной работы мы возьмем готовый код про конфеты M&Ms и запустим его локально, используя Spark Submit, а потом запустим тот же код в ноутбуке Databricks, где мы сможем посмотреть как выполняется код частями в интерактивном режиме.
=====
В 7м модуле мы познакомимся с open source решением для аналитики и инжиниринга данных - Apache Spark и его коммерческой версией Databricks и аналгоми Amazon Glue и Azure Synapse. Вы узнаете примеры использования в индустрии и популярные use cases. Я расскажу о своем опыте с Apache Spark в Амазоне и Майкрософт и научу вас работать с данными с помощью PySpark и Spark SQL, покажу вам лучшие книги и материалы по Spark.
🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить остальные части и ставьте лайки!
📕 Записывайтесь и проходите курс Инженера Данных.
⚠️ КУРС БЕСПЛАТНЫЙ!
🔗 Записаться вы можете на нашем портале datalearn.ru/
👍🏻 Запись на курс даст вам возможность не только просматривать видео, но и получить доступ к закрытым материалам, а также возможность выполнять домашние задания и получить сертификат прохождения курса.
🔥Самые актуальные новости про аналитику в Telegram канале: t.me/rockyourdata

Опубликовано:

 

3 окт 2024

Поделиться:

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист
Посмотреть позже
Комментарии : 9   
@andrey_m0s
@andrey_m0s Год назад
Дима, спасибо огромное на эту лекцию. У тебя классная неакадемическая манера изложения материала. В твоем изложении как-то лучше чувствуешь, как это работает.
@smbsmn324
@smbsmn324 Год назад
Золотой ты человек, Дмитрий. Взял и рассказал, как на винду спарк установить. Даже не верится, что на моём домашнем ноуте с вин-10 это хипстота завелась. Мегареспект. Думал уже пытаться на виртуалку с линухом его доставлять, а тут как раз твое видео.
@datalearn4398
@datalearn4398 Год назад
Ничего, еще потом в докере повторим!
@MagellanLG
@MagellanLG Год назад
@@datalearn4398 Дмитрий, приветствую) Есть желание стать Data-инженером, хотел бы рекомендации по Roadmap to Data от Вас, над чем нужно поработать чтобы в дальнейшем трудоустроиться?
@АлександрБакаев-ц3я
Выкручиваю звук наполную все равно не слышно(
@MrAlexandrYZ
@MrAlexandrYZ Год назад
После добавления переменных среды, не забудьте перезагрузить Windows.
@datalearn4398
@datalearn4398 Год назад
хм, у меня и так вроде работал. Может достаточно просто командную строку переоткрыть.
@ikunin
@ikunin Год назад
Почему у многих выступающих в айти манера каждые две минуты пить из бутылки или банки? Лекторы в университетах как-то справляются без этого. Выглядит и звучит крайне неприятно и неуважительно. И можно было бы хоть как-то понять, начнись это хотя бы в середине видео, так тут с самого начала идёт.
@datalearn4398
@datalearn4398 Год назад
Ну с какой стороны посмотреть, у меня была обратная задумка))
Далее
Iran launches wave of missiles at Israel
00:43
Просмотров 1,4 млн
When Goalkeepers Get Bored 🤯 #3
00:27
Просмотров 2,4 млн
Apache Spark Executor Tuning | Executor Cores & Memory
44:35
Iran launches wave of missiles at Israel
00:43
Просмотров 1,4 млн