me ha encantado el tutorial para aprender spark, trabajo actualmente como data engineer realizando ETL, entonces he hechado en falta esas ETL, donde se explica como se extrae los datos ya sea por batch o streaming, la trnasformacion de los datos para que queden limpios y por ultimo la carga de los datos ya sea en delta lakes o bbdd tradicionales. Igualmente buen video para iniciarse en el mundo del big data
Eres genial! Excelente video! Gracias! Puedes hacer un video q muestre un ejemplo de como manejar datos que son mAs grandes que la memoria ram en Polars y PySpark?
@@datasciencecampbyedu Bueno, yo soy estudiante de la carrera y veo que muchas empresas usualmente piden experiencia en cosas como etl, sql, modelado de datos, piplines y warehouses. Muchas gracias por el contenido :D
Hola Maxi, un gusto en saludarte, hay una pagina muy buena que aborda todo lo relacionado a data incluido la parte de data engineer, se llama "DataCamp". Creo que es una muy buena por donde puedes empezar, todo dependerá de tus objetivos, ya que el data engineer tiene muchos frentes de trabajo y aplicación.
@@datasciencecampbyedu voy a estar esperando. Muchas gracias. Buenas explicación. He tenido problemas con la instalación de apache spark, porq no encontraba la ruta de python. Yo creo q desde Google colab por lo menos me va a servir para practicar
Otro elemento importante es que la minería de datos busca patrones y relaciones entre variables, y luego aplica esos patrones detectados para toma de decisiones.
Excelente video muchas gracias, te queria preguntar sera que en polars existe alguna libreria que me permita hacer el analisis EDA como ydata_profiling de pandas??
Hola buenas tardes! Hace apenas un par de días descubrí tu canal por casualidad, y te voy a decir que es genial. Ejemplos prácticos y muy bien explicados. Te felicito crack!
HEY, no se como o donde encontre el canal pero gracias a youtube lo encontre porque la verdad son los mas utiles tutoriales que encontre desde hace poco, se agradece mucho la ayuda en el camino del analisis de datos!
Pandas tiene un problema, porque cuando solo necesitas leer el nombre de las columnas, pandas carga todo el dataframe y luego te muestra el nombre de las columnas, pero cuando son muchas bases muy pesadas empieza a ser un problema, ¿como funciona acá?
Hola. Un cordial saludo. La diferencia es que polars aprovecha mejor los recursos y de manera más óptima. Por ejemplo: Polars utiliza completamente la potencia del equipo dividiendo la carga de trabajo entre los núcleos de CPU, disponibles sin ninguna configuración adicional , tiene también control del uso de la memoria lo que hace que al cargar los datos o fuentes de datos, divida en procesos con mayor tiempo de respuesta. Es decir, no hay sobrecarga en tiempo de ejecución.
Lo explicas super sencillo. Estoy iniciandome en el análisis de datos y tu manera de explicar super clara y sencilla. Le ánimo a que siga sacando videos. Saludos desde Villavicencio Meta.