Resilient Distributed Datasets w Apache Spark – Część 1

Dwa poprzednie wpisy były w głównej mierze teoretyczne. Najwyższa pora na pierwsze kody na blogu! Na tapet bierzemy podstawowy typ danych platformy Spark – RDD. Dlaczego akurat taki temat? Poznanie tych kolekcji umożliwia postawienie pierwszych kroków w Sparku, a zrozumienie ich działania pozwala na wydajne przetwarzanie danych.

Czytaj dalej „Resilient Distributed Datasets w Apache Spark – Część 1”

Apache Hadoop i Spark – Współpraca czy rywalizacja?

W poprzednim wpisie „Czy potrzebujesz Big Data?” dowiedzieliśmy się, czym jest Big Data i odpowiedzieliśmy na pytanie, kiedy potrzebujemy narzędzi z tego obszaru. W tym artykule porównamy dwie najpopularniejsze platformy Big Data.

Czytaj dalej „Apache Hadoop i Spark – Współpraca czy rywalizacja?”

Czy potrzebujesz Big Data?

Niemal zawsze, kiedy mówimy o obszarze Big Data, pojawia się słuszne pytanie, kiedy potrzebujemy rozwiązań tego typu. Kiedy zaczynałem interesować się tematyką Big Data, odpowiedź na to pytanie wydawała się dla mnie dość oczywista: „Wtedy kiedy danych jest naprawdę dużo”. Czy aby jednak na pewno jest to wystarczający warunek do tego, żeby powiedzieć, że mamy do czynienia z zagadnieniem z obszaru Big Data?

Czytaj dalej „Czy potrzebujesz Big Data?”