Eksploracja danych


Eksploracja danych, pozyskiwanie danych, drążenie danych, wydobywanie danych – jeden z etapów procesu uzyskiwania wiedzy z baz danych. Idea eksploracji danych polega na wykorzystaniu szybkości komputera do znajdowania ukrytych dla człowieka (właśnie z uwagi na ograniczone możliwości czasowe) prawidłowości w danych zgromadzonych w hurtowniach danych.

Istnieje wiele technik eksploracji danych, które wywodzą się z ugruntowanych dziedzin nauki, takich jak statystyka (statystyczna analiza wielowymiarowa) i uczenie maszynowe.

Spis treści

Techniki eksploracji danych


Techniki i metody służące eksploracji danych wywodzą się głównie z dziedziny badań nad sztuczną inteligencją. Główne przykłady stosowanych rozwiązań należą do następujących obszarów:

Metody przetwarzania


W eksploracji danych rozwijane są różne metody przetwarzania, różniące się zakresem zastosowań, stosowanymi algorytmami rozwiązań, sposobem prezentacji wyników. Wśród nich wyróżnia się:

Obszar stosowania


Obszarów stosowania eksploracji danych jest wiele, obejmują one te miejsca, w których stosuje się systemy informatyczne, między innymi w celu gromadzenia pozyskanych danych w postaci baz danych. Jesteśmy świadkami prawdziwej eksplozji baz danych, mając na myśli ich liczbę i objętość. Ogromne zbiory danych gromadzone są w hurtowniach danych. Z powodu dużej prostoty konstruowania bazy danych oraz akceptowalnych cen, systemy gromadzące dane stosuje się prawie we wszystkich dziedzinach życia. Wszędzie tam natomiast, gdzie istnieje już baza danych, pojawia się potrzeba analizy tych danych w celu odkrycia nieznanej dotąd wiedzy. Dziedziny, w których szeroko stosuje się eksplorację danych, to technika, medycyna, astronomia, ekonomia, szeroko pojęty biznes.

Zastosowania KDD znajdują zastosowania przy:

Przykładem może być odkrycie w danych z supermarketu zależności polegającej na tym że klient, który kupuje szampana i kwiaty, kupuje zwykle również czekoladki.

Przykłady wizualizacji


Gęstość

Wykresy rozkładów empirycznych dla wybranych zmiennych predykcyjnych są tym lepsze im linie obrazujące poszczególne klasy są względem siebie znacząco przesunięte. W sytuacji, gdy się na siebie nakładają, praktycznie nie ma możliwości wyznaczenia do jakiej klasy należą.


Wykres pudełkowy

Celem obrazowania właściwości poszczególnych cech na wykresach pudełkowych jest wyłonienie takich zmiennych, które charakteryzują się największymi przesunięciami względem siebie kwantyli, wartości maksymalnych, minimalnych oraz median.


Histogram

Histogramy dla wybranych zmiennych predykcyjnych są tym lepsze im słupki są bardziej zróżnicowane. W sytuacji, gdy się na siebie nakładają, praktycznie nie ma możliwości wyznaczenia do jakiej klasy należą.


Co można odczytać z wykresów?

Tabelka przedstawia jakie dane można odczytać z poszczególnych wykresów.

Gęstość Pudełkowy Histogram
Kwantyl
Mediana
Minimum
Maksimum
Wartość cechy
Liczebność
Częstość
Wzajemna korelacja zmiennych

Literatura


Linki zewnętrzne


Źródło: „https://pl.wikipedia.org/w/index.php?title=Eksploracja_danych&oldid=65548881

Menu nawigacyjne


<



Facebook Twitter WhatsApp Telegram e-mail





Kategorie: Bazy danych | Sztuczna inteligencja | Statystyka opisowa




Informacje na dzień: 10.12.2021 03:10:04 CET

Źródło: Wikipedia (Autorzy [Historia])    Licencja: CC-BY-SA-3.0

Zmiany: Wszystkie zdjęcia i większość powiązanych z nimi elementów projektu zostały usunięte. Niektóre ikony zostały zastąpione przez FontAwesome-Icons. Niektóre szablony zostały usunięte (np. „Artykuł wymaga rozszerzenia) lub przypisane (np.„ Przypisy ”). Klasy CSS zostały usunięte lub zharmonizowane.
Usunięto linki do Wikipedii, które nie prowadzą do artykułu lub kategorii (takie jak „Redlinki”, „linki do strony edycji”, „linki do portali”). Każde łącze zewnętrzne ma dodatkową ikonę FontAwesome. Oprócz drobnych zmian w projekcie usunięto kontener multimediów, mapy, pola nawigacji, wersje mówione i geomikroformaty.

Proszę zanotować: Ponieważ podana treść jest automatycznie pobierana z Wikipedii w danym momencie, ręczna weryfikacja była i nie jest możliwa. Dlatego LinkFang.org nie gwarantuje dokładności i aktualności pozyskanych treści. Jeśli istnieją informacje, które są obecnie niepoprawne lub mają niedokładny wygląd, prosimy o Skontaktuj się z nami: e-mail.
Zobacz też: Znak firmowy wydawcy & Polityka prywatności.