Тёмный
SmartData
SmartData
SmartData
Подписаться
SmartData - конференция по инженерии данных (Conference on Data Engineering).

Конференция для дата-инженеров и тех, кто работает с большими данными. Эксперты из различных компаний обсуждают техническую конкретику по всем темам - от отказоустойчивости до MLOps.

Ближайшая конференция - SmartData 2024, 4 сентября · online
8-9 сентября · Москва
Подробнее о конференции - jrg.su/TIQNFm

Основные темы:
- MMP СУБД и хранилища данных
- SMP и специализированные СУБД
- Архетектура дата-платформ
- Data Processing
- DataOps
- Database Internals
- Data Management
- Cloud Solutions
- Миграция с одних инструментов и хранилищ в другие
- Дата-инженерия не для дата-инженеров
Игра «Своя пирамида»
33:30
14 часов назад
Комментарии
@matt-zt1ky
@matt-zt1ky День назад
Отличный доклад, спасибо)
@Влад-о5щ
@Влад-о5щ 2 дня назад
Уффф, офигенно вышло Ты лучший, без шууток Я тҽбҽ 𝓬дҽлαю ρҽƙ1лαᙏყ Ԩα 𝓬ßσҽᙏ 𝓬тρиᙏҽ бҽ𝓬плαтԨσ, Ԋαбҽρҽ1ᙏ тҽбҽ пσдпи𝓬чиƙσß! 3αйди Ԋα этσт ƙαԨαл ყßидиɯƄ ᙏσи дßα ƙαԨαлα - пσдпиɯи𝓬Ƅ Ԩα Ԋиχ! А я тебе пожелаю удачи! :)
@valeriymogilnitskiy9692
@valeriymogilnitskiy9692 7 дней назад
18 минут из 30 не про маге
@pavelgalkin8565
@pavelgalkin8565 9 дней назад
Отличный доклад!
@SergeyTarabara
@SergeyTarabara 13 дней назад
Такое ощущение, что на Flink написали NiFi)
@vladaleshin5028
@vladaleshin5028 14 дней назад
Является ли CDC/Debezium альтернативным решением в случае с небольшим количеством сообщений и несложными трансформациями?
@DAJakaRedAries
@DAJakaRedAries 18 дней назад
Жаль, что цель доклада - реклама форка, который уже заброшен 😢
@user-rt4uy1dn6u
@user-rt4uy1dn6u 21 день назад
И ещё какая тварь RU-vid замедляет, руки бы обломать...
@pavlovi4100
@pavlovi4100 22 дня назад
Отличный доклад
@alesyuzefovich115
@alesyuzefovich115 23 дня назад
Спасибо Владимиру за отличный рассказ
@bananasba
@bananasba Месяц назад
бэ, мэ, ненужный выпендреж и шуточки, по существу не много
@alexcoast9102
@alexcoast9102 Месяц назад
есть русское слово - применить, зачем долгое имплементировать ? )))))
@eletenkov
@eletenkov Месяц назад
очень много воды
@alexzir
@alexzir Месяц назад
Много не по теме. А так очень интересно Спасибо
@levkolosovikb-9363
@levkolosovikb-9363 Месяц назад
Да блин, запускаю тот же самый код и работает иначе всё
@thghtfl
@thghtfl Месяц назад
Понравилась первая часть выступления, которая не относилась к Mage, вот эта рефлексия с позиции менеджера. Как только перешли к демо по непосредственной теме, все стало очень скомканно, что-то в streamlit показал, запустил пайплайн в mage, что получил, для чего - непонятно. Может быть, стоило строить доклад не вокруг конкретного тула, а до конца описать преобразования, которые с командой удалось осуществить. От себя скажу про Mage. Он расширяет возможности оркестратора, позволяя смотреть на результаты трансформаций в jupyter-like интерфейсе и даже передавать датасеты между тасками. Также он ест меньше памяти в сравнении с Airflow, особенно в idle state. Но! В прод мы так и не решились с ним идти - он все-таки еще очень сырой, какие-то нечитаемые ошибки, баги и т.п.
@evevideo100
@evevideo100 Месяц назад
ЭЭ а как же запрет работы из-за границы ?
@emild579
@emild579 Месяц назад
Интересно, ожидал, что на Data Lens перейдут
@dataengineer735
@dataengineer735 Месяц назад
Добрый день. А мне, как кандидату, не понравилось интервью. Создалось впечатление, что нанимающие менеджеры живут в своей придуманной ими реальности. Что нужно сделать чтобы % был больше: перестать искать сферического коня в вакууме, идеала(с нереальными скилами), а опираться на реальных людей, которые приходят на рынок. И речь идет не о том, что нужно брать не грамотных, а о том, чтобы опираться на опыт людей+потребности компании. Если нанимающий менеджер даже резюме не читает - по мне это говорит о том, что он не заинтересован в человеке, а хочет найти функцию. Позиция соискателя: 1. Все знать невозможно, по причине огромного количества информации и технологий, тем более, что они устаревают. 2. за свою карьеру я работал в разных компаниях, и удивительно: то, что меня спрашивали на собесах по технологиям, в реальных проектах было не более 20% 3. считаю, что умение осваивать и учиться новому гораздо более важно, чем знания на текущий момент, однако не все компании это понимают. 4. лайф-кодинг по python на собесах для DE считаю бесполезной штукой, поскольку сейчас очень много информации по python, для написания дагов airflow не нужно сверхзнаний, а если пишешь на nifi, там вообще nocode. Гораздо важнее понимание процессов, как работает та или иная технология, принципы проектирования БД, обработка данных, знание нюансов конкретной СУБД, в которой работаешь. У меня в опыте по DE и даже когда я был разработчиком, ни разу не было задач по алгоритмам. Разве что в институте. Зачем это спрашивают - я не понимаю. 5. Софт-скиллы важны, это да. Однако когда нанимающий менеджер даже резюме не читает, это занавес. Мне скажут, что он очень занят, это отговорки, поскольку если нанимают по месяцам(то на это время, конечно же есть). Найм - это обоюдный процесс. 6. Мне очень понравилась идея спрашивать человека об его опыте. Это честно и вызывает уважение. И по сути верно. О чужом опыте гораздо труднее разговаривать. А про знания - я написал выше. Вывод: маленький % по найму на мой взгляд из-за того, что компании хотят найти идеального под себя кандидата. Идеалы недостижимы, они есть, но только в наших головах, а реальность другая.
@alieszhar8163
@alieszhar8163 Месяц назад
Здравствуйте, а видео из дискуссионной зоны пишется?
@SmartDataConf
@SmartDataConf Месяц назад
Здравствуйте! Дискуссии после активностей не записываются, принять в них участие можно только непосредственно во время проведения конференции 🙃
@Jealosy-fu3kj
@Jealosy-fu3kj Месяц назад
А embedded остается такой же? У суперсет насколько я понимаю embeded достаточно ограничен
@Jealosy-fu3kj
@Jealosy-fu3kj Месяц назад
Уже вторая половина 2024, где open source))
@maximsenin2641
@maximsenin2641 Месяц назад
Суперсет - огонь!
@gabordugov
@gabordugov Месяц назад
послушал, сложилось впечатление, что все по сути озвучили, что проблемой найма является дефицит высококвалифицированных низкооплачиваемых специалистов. Но выходы почему то все пытаются найти где-то в нематериальной стороне
@mikhaillermontov8228
@mikhaillermontov8228 Месяц назад
что за журнал ВАК в части DE ?
@ivansimkin1380
@ivansimkin1380 Месяц назад
Катя молодчина, в цель с правдой в резюме. Реально нет гиперсложных технологий, но поняв как хорошо кандидат знает то, что он написал в резюме, получается полный портрет. Кажется, что только с помощью резюме можно максимально быстро понять когнитивный потенциал и мотивацию.
@alexeyandreevich4115
@alexeyandreevich4115 Месяц назад
HR неприятное впечатление оставляет, понты понтами с "международной компанией" и из релокантов-соевиков в Грузии и Армении
@AntonBukreev
@AntonBukreev Месяц назад
так а многие так выглядят "международные компании"
@alesyuzefovich115
@alesyuzefovich115 Месяц назад
Если кто то, видя слова "международная компания", сам для себя читает это как "транснациональная корпорация", то что ж тут скажешь, кроме как читать внимательнее и не домысливать
@bananasba
@bananasba Месяц назад
Ниочем
@alesyuzefovich115
@alesyuzefovich115 Месяц назад
Отличный доклад! Ну, первая половина, за что спасибо Александру! Ну а вторая - ммм, больше про хохотнуть с метафор) ну и самый первый довод, где с гордостью было заявлено про то, что человек мыслит бинарно... Ох, спасибо, но нет 😅
@drillman86
@drillman86 Месяц назад
2023?
@illiakaltovich
@illiakaltovich Месяц назад
Презентация отдает 404. Поправьте, пожалуйста
@SmartDataConf
@SmartDataConf Месяц назад
Здравствуйте, спасибо, что сообщили! Поправили ссылку на презентацию 🙃
@sshks10
@sshks10 Месяц назад
Все четко !
@olegrozum4630
@olegrozum4630 2 месяца назад
elt on spark ? did you hear about informatica or similar products?
@olegrozum4630
@olegrozum4630 2 месяца назад
It's stupid to write etl with select * from table and then with a wise face prove different life hacks of consequences resolution 😂
@alesyuzefovich115
@alesyuzefovich115 2 месяца назад
Спасибо! Классный доклад
@user-pv8dx4kb6n
@user-pv8dx4kb6n 2 месяца назад
Крутейший проект, странно что так мало интереса
@user-hs2qu9hz9c
@user-hs2qu9hz9c 2 месяца назад
Интересно почему всё не на YTsaurus сделали вместо ГП? И можно ли сейчас делать детальный слой на YTsaurus
@paulfunigga
@paulfunigga 2 месяца назад
Я предпочитаю spark+trino+iceberg для data lakehouse
@map3uk
@map3uk 2 месяца назад
спасибо за доклад, а чем библиотека astronomer cosmos для связки Airflow + dbt не подошла?)
@ilsaffff
@ilsaffff 2 месяца назад
ты про то что они использовали BashOperator вместо DbtOperator из либы cosmos?
@eugenebazhin8204
@eugenebazhin8204 2 месяца назад
Господи, какая ужасная не поставленная речь. Друзья вы хоть консультантов нанимайте, филологов.
@thghtfl
@thghtfl 2 месяца назад
Метрики не усложнились, они всегда были сложными. Как ты оценишь эффективность наружной рекламы, которая существует уже очень давно? Люди будут ходить мимо нее и сегодня, завтра, и через год. И бизнес понимает это и допускает в подобного рода данных какой-то уровень неопределенности. Но он точно не будет сидеть 50 лет и ждать, когда к нему дойдут все события, он подпишется на какой-то контракт, как ты и сам сказал. Поэтому график с завершением джобы все еще нагляднее, чем график прихода событий, поскольку он дает тебе понять, что в рамках твоего контракта он до тебя данные довел.
@denismasalsky6798
@denismasalsky6798 2 месяца назад
крч данные могут меняться, а в особенности продуктовые метрики, которые меняются долго. Поэтому нужно вводить на данные контракты. Нужно для того чтобы не вызывать иллюзии полноты данных у аналитиков и топ менеджмента
@gzhegow
@gzhegow 2 месяца назад
Как вы заебали со своей метафизикой. Полчаса искал что-то что перевернет мой взгляд, нашел только трепло которое наплело контекстов и выступило на сцене. Хочешь преподавать - преподавай лично. Хочешь заработать - выходи на сцену.
@Ptfndr_brz
@Ptfndr_brz 2 месяца назад
Максим - прекрасный рассказчик, спасибо за доклад. Первые 10 минут не перематывайте - весьма занимательно и позволяет целиком окунуться в проблематику
@SergiusBfg
@SergiusBfg 2 месяца назад
Первые 10 минут ни о чем... Перематываем
@thghtfl
@thghtfl 2 месяца назад
точно, собрал какую-то солянку из посторонних тем
@sql-ninja
@sql-ninja 2 месяца назад
шикааарно! спасибо ^__^
@prosto7586
@prosto7586 3 месяца назад
фирменное "ихние"😄
@glebbondarenko67
@glebbondarenko67 3 месяца назад
я не понял причину следственную связь: нет транзакций == теряются данные я представляю что транзакции нужны если ты записываешь несколько связанных сущностей одной операцией. Я так понимаю это не тот случай тогда остается вариант что может репликация там несинхронная Поясните пожалуйста что имело ввиду.
@user-fv2qi7ce5w
@user-fv2qi7ce5w 3 месяца назад
Классный доклад, с множеством технических деталей и честностью/откровенностью!
@JIJI-zv1qp
@JIJI-zv1qp 3 месяца назад
а перенос данных из вашего postgres в greenplum делаете через airbyte?