Тёмный

Comment design une architecture Data avec Snowflake/DBT ? (Data Engineer System design interview) 

Data From Scratch - Willis
Подписаться 12 тыс.
Просмотров 2,2 тыс.
50% 1

Dans cette nouvelle vidéo, je te prépare pour les entretiens de type System design, pour Data Engineer
✅ Abonne-toi en cliquant ici : www.youtube.com/@DataFromScra...
🎁 Cadeau gratuit - Résumé de toute cette vidéo et toutes les compétences pour travailler dans le monde de la data (Data Engineer, Data Scientist, Data Analyst) : shorturl.at/kHZ37
🚀 Prends RDV pour un coaching en Data Engineering : calendly.com/willis-nana
🔥 QUI SUIS-JE ? 🔥
Je m’appelle Willis, Sr Data Engineer et Coach en Data Engineering, habitant au Canada 🇨🇦 (Montréal).
Bienvenue sur ma chaine ! Je parle de Data Engineering, de carrière en Tech et de voyage ! 🖥️✈️
🧪 Travaillant dans le monde de la data depuis plus de 10 ans, je t'aide à booster ta carrière en Data en partageant mon expertise ! 🔥
Music from Uppbeat (free for Creators!):
uppbeat.io/t/avbe/night-in-kyoto
License code: AWYRBAO3W2C2GGO0

Наука

Опубликовано:

 

11 мар 2024

Поделиться:

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист
Посмотреть позже
Комментарии : 23   
@potaryx4281
@potaryx4281 Месяц назад
Merci beaucoup Willis ❤😊
@kouassirodrigueahoussou72
@kouassirodrigueahoussou72 2 месяца назад
Infiniment Merci pour la Video
@soul67
@soul67 3 месяца назад
C'est un banger cette vidéo, MERCI !
@Davy016
@Davy016 4 месяца назад
T'es le meilleur. Thks !
@docteurcoincoin6216
@docteurcoincoin6216 4 месяца назад
Cette vidéo est géniale !
@BigQueyrie
@BigQueyrie 3 месяца назад
Bonne vidéo. De mon côté, j'aurais plutôt utilisé Scala et le framework Spark pour la partie transformation "technique" réalisée par des Data Engineers, et dbt pour les transformations impliquant une logique métier par les Analytics Engineers/Data Analysts. Cela rajoute une couche, mais permet de mieux répartir la charge et scinder les périmètres. Et pour la partie liée à la qualité de données, tu peux effectivement utiliser Great Expectations et/ou la librarie dbt-expectations qui évite de rédiger des macros custom 😉 Il faudrait aussi que je creuse les outils OS de dashboarding (evidence, Rill...) car Tableau coûte une blinde 😂
@user-ry2lb7zd2x
@user-ry2lb7zd2x 2 месяца назад
Hello Willis je ne peux pas te répondre pour DBT de mon côté je gère la partie transformation avec Semarchy xdi et quant à ta question concernant sa capacités à gérer de fortes volumétrie cela dépend totalement de la capacités mémoires du runtime et de la performance du SGBD. Donc par exemple si tu es sur un linux on premises bases Postgres tu vas avoir de gros soucis par rapport à un runtime déployé sur GCP qui attaque une base bigquery, mais la contrepartie sera alors le coup de requetage sur bigquery.
@MaxTheKing289
@MaxTheKing289 4 месяца назад
Super vidéo Willis est ce que tu aurais des ressources pour les entretiens de System Design mais pour ML Engineer
@didjo94
@didjo94 3 месяца назад
niveau data transformation on peut utiliser databricks aussi pour les gros volumes de donnée c'est nickel
@YannManUtd
@YannManUtd 4 месяца назад
Merci beaucoup! J’adore vraiment le format. Juste curieux, pour la partir data Storage, pourquoi stores-tu les données en tant que flat files, au lieu de choisir une base de donnée e.g. sql server ?
@user-wn1ne2pt3w
@user-wn1ne2pt3w 4 месяца назад
Je me permets de donner mon avis. S3 est probablement meilleur pour les raisons suivantes: permet de garder les donnes brutes au contraire d une BDD(schema on write), on parle d injecter 80TB par jour donc SQL server n est pas adapte pour ce type de scenario ( c est d ailleurs pour ca il choisit Snowflake entre autre)
@azobensadio260
@azobensadio260 4 месяца назад
Toujours concis et précis dans tes explications, un grand big up à toi 😉😉.Une question pourrais-tu nous faire une prez sur les BD Vectorielles et les cas d'usages? merci d'avance
@DataFromScratchWillis
@DataFromScratchWillis 4 месяца назад
Merci pour le commentaire ! C'est noté !
@stefen_taime
@stefen_taime 4 месяца назад
Par contre je rajouterai trino en dessus de dbt pour interagir avec s3 ^^ à moins que dans ton airflow tu fais un COPY STAGE de s3 vers snowflake
@akotchayebatcho1285
@akotchayebatcho1285 4 месяца назад
Merci bcp Willis , je comprends mieux l'architecture data. Quel est l'intérêt de faire une présentation à partir des données récupérées dans snowflake, vu que la transformation se fait avec dbt? Merci.
@dhjgj1412
@dhjgj1412 4 месяца назад
Par présentation il veut dire visualisation. Une fois les données nettoyé, il faut les présenter sous formes de graphiques afin d’aider à la prise de décision
@ruddynzita1540
@ruddynzita1540 4 месяца назад
Du coup les données dans S3 vont être importées dans snowflake et c’est la qu’on utilisera dbt non?
@DataFromScratchWillis
@DataFromScratchWillis 4 месяца назад
Oui, dbt servira à gérer la partie Transformation de l'ELT
@gaelguedia
@gaelguedia 4 месяца назад
Pourquoi pas spark au lieu de dbt?
@dhjgj1412
@dhjgj1412 4 месяца назад
Ça rajouterait un layer en plus. Vaut mieux utiliser la puissance du data warehouse pour faire les transformations
@stefen_taime
@stefen_taime 4 месяца назад
Par contre je rajouterai trino en dessus de dbt pour interagir avec s3 ^^ à moins que dans ton airflow tu fais un COPY STAGE de s3 vers snowflake
@ruddynzita1540
@ruddynzita1540 4 месяца назад
J’ai exactement la même question. On peut même les utiliser ensemble mais ils semblent presque inévitables d’utiliser du « compute distributed »
@dhjgj1412
@dhjgj1412 3 месяца назад
@@ruddynzita1540 le data warehouse est déjà un “compute distributed”
Далее
Databricks vs Snowflake -  Le match des TITANS
12:01
Просмотров 3,6 тыс.
DataOps - Mais qu’est-ce que c'est ?
9:38
Просмотров 1,9 тыс.
Qu'est-ce que l'architecture d'entreprise?
7:10
Просмотров 6 тыс.
Собери ПК и Получи 10,000₽
1:00
Просмотров 2,5 млн
#engineering #diy #amazing #electronic #fyp
0:59
Просмотров 393 тыс.