W trakcie sesji chciałbym poruszyć zagadnienie optymalizacji Spark - dowiesz się, co to jest partycjonowanie, jaka jest różnica pomiędzy partycjami read, write, shuffle. Opowiem, jak zwiększyć zrównleglanie operacji i jaka powinna być odpowiedni rozmiar partycji i plików. Sprawdzimy, gdzie znajdują się dane w trakcie operacji shuffle. Odpowiem na pytanie, dlaczego zdarza się, że Spark job zwalnia, kiedy zostaje tylko kilka zadań do zakończenia i te zadania się nie kończą. No i na koniec - dlaczego dodawanie kolejnych węzłów do klastra nie zmniejsza czasu wykonywania zadań.
30 сен 2024