Resilient Distributed Datasets w Apache Spark – Część 1

Dwa poprzednie wpisy były w głównej mierze teoretyczne. Najwyższa pora na pierwsze kody na blogu! Na tapet bierzemy podstawowy typ danych platformy Spark – RDD. Dlaczego akurat taki temat? Poznanie tych kolekcji umożliwia postawienie pierwszych kroków w Sparku, a zrozumienie ich działania pozwala na wydajne przetwarzanie danych.

Czytaj dalej „Resilient Distributed Datasets w Apache Spark – Część 1”

Apache Hadoop i Spark – Współpraca czy rywalizacja?

W poprzednim wpisie „Czy potrzebujesz Big Data?” dowiedzieliśmy się, czym jest Big Data i odpowiedzieliśmy na pytanie, kiedy potrzebujemy narzędzi z tego obszaru. W tym artykule porównamy dwie najpopularniejsze platformy Big Data.

Czytaj dalej „Apache Hadoop i Spark – Współpraca czy rywalizacja?”