Niezbędnik Data Engineera – dane i ich rodzaje

W celu wybrania odpowiednich narzędzi do przetwarzania i analizy danych, warto rozpoznać z jakim rodzajem danych będziemy pracować. W jednym projekcie dane mogą pochodzić z wielu źródeł, różniących się formami.

Często na pytanie o rodzaje danych, na myśl przychodzi odpowiedź – dane w postaci relacyjnej (SQL) i dane w postaci nierelacyjnej (NoSQL). Tymczasem te dwa są jedynie przykładami dla poszczególnych rodzajów danych. W dziedzinie Big Data rozróżnia się 3 rodzaje danych: dane uporządkowane (structured), dane częściowo uporządkowane (semi-structured) oraz nieuporządkowane (unstructured).

  1. Dane uporządkowane – czyli dane, które opisane są przez precyzyjnie zdefiniowany model, umożliwiający określenie pól zbioru danych oraz relacji zachodzących pomiędzy jego elementami. Najczęściej będą to po prostu dane przechowywane w formie tabelarycznej.
    Ze względu na jednoznaczną deklarację są najbardziej przyjazną formą danych do przetwarzania maszynowego. Do tej kategorii możemy zaliczyć relacyjne bazy danych – dane przechowywane są w tabelach, opisujących każdy z rekordów przez zbiór kolumn. Innymi przykładami mogą być np. arkusze Excel i pliki CSV.
  2. Dane częściowo uporządkowane – model danych, który nie jest reprezentacją tabelaryczną, ale dane wciąż są w pewnym stopniu zorganizowane poprzez zbiór znaczników (np. tagi).
    Przykładami tego rodzaju danych mogą być pliki XML, JSON, HTML.
  3. Dane nieuporządkowane – dane, które nie mają predefiniowanego modelu. Mogą być one przechowywane w dowolnej formie, w dowolnym formacie pliku. Dane tego rodzaju zwykle muszą przejść zabieg preprocessingu, aby można je było wykorzystać w procesie analiz.
    Są to zwykle obrazy, pliki dźwiękowe, proste pliki tekstowe – łatwo zauważyć, że każdy plik określonego formatu będzie zupełnie różnił się zawartością od innych tego typu. Dane tych plików nie są w żaden sposób opisane.

Warto zauważyć, że większość danych produkowanych w obecnych czasach ma postać nieuporządkowaną. Jest to jeden z powodów powstawania narzędzi Big Data (czyt. 5V Big Data – Variety), a w szczególności koncepcji takich jak Data Lake – o której pojawi się więcej informacji w kolejnych wpisach.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *