Příprava dat pro data mining

Kontakt na dodavatele získáte po registraci

Tento kurz je pořádán dodavatelem, který nevyužívá placenou prezentaci na portálu eu-dat.cz.
Kontaktní údaje na dodavatele získáte po registraci. Nebo použijte poptávkový formulář.
Kurz zařazen do kategorií kurzů na míru
Počítačové a IT kurzy Kurzy na míru
  • Kurz na míru

  • ID akce:
    102203

Popis kurzu na míru Příprava dat pro data mining

Příprava dat je klíčem k úspěchu při dolování dat. Tento kurz IV úrovně je určen pro data minery a IT profesionály, kteří se zabývají transformací surových dat na smysluplné vstupy prediktivních modelů.


Přínos pro účastníka

Školení představuje programátorské techniky užívané analytiky při přípravě dat do formy vhodné k modelování. Naučíte se, jak extrahovat potřebné informace ze zdrojů surových dat a převádět transakční data či data popisující události do formy, která je nutná k modelování. Rovněž se naučíte, jak do modelů efektivně zahrnout nenumerická data, jak se vyrovnat s výjimkami či extrémními hodnotami. Po absolvování tohoto školení budete rovněž schopni dokumentovat proces přípravy dat.


Účastník by měl mít:

  • zkušenost s technikami prediktivního modelování, přibližně v rozsahu školení AAEM / AAEM53
  • zkušenost při práci s tabulkami v SAS, zhruba v rozsahu školení PRG2

Obsah kurzu


Úvod

  • struktury surových dat
  • struktura dat vhodná pro prediktivní modelování
  • přehled problematiky přípravy dat

Extrakce relevantních dat

  • "problémy" v datech
  • ohodnocení dostupnosti dat
  • přístup k datům
  • vytvoření reprezentativního vzorku dat pro modelování

Transformace transakčních dat a dat popisujících události

  • výhody a nevýhody transakčních dat
  • běžně užívané struktury pro uložení transakcí
  • definice časového okna
  • fixní a variabilní časové okno
  • implementace běžně užívaných transformací transakčních dat

Použití nenumerických dat

  • definice a "problémy" nenumerických dat
  • detekce a řešení problémů manuálně vkládaných dat
  • řízení stupňů volnosti
  • geokódování, specifika České Republiky

Výjimky a extrémní hodnoty

  • odlehlá pozorování, chybějící a neaplikovatelné hodnoty, extrémní hodnoty
  • detekce vyjímek a extrémů
  • ošetření odlehlých a extrémních hodnot