Tento kurz slouží jako úvod do problematiky dolování dat a práce s aplikací SAS Enterprise Miner. Je navržen pro datové analytiky a zpracovatele kvantitativních analýz, kteří chtějí porozumět metodám dolování dat a analytickým nástrojům aplikace SAS Enterprise Miner 7.1 (kurz nahrazuje předchozí AAEM61). Účastníci by měli znát prostředí Microsoft Windows a umět pracovat s aplikacemi v tomto prostředí, a dále ovládat alespoň základní koncepty statistiky a regresních modelů.
Předchozí znalost SAS je výhodou, ale není nutná.
Přínos pro účastníka
V tomto kurzu získáte rozsáhlé praktické zkušenosti s používáním aplikace SAS/Enterprise Miner a zároveň základy pro úspěšné používání metod dolování dat. Po jeho absolvování by účastník měl být schopen:
- založit projekt v SAS Enterprise Miner a graficky analyzovat data
- upravovat data pro zdokonalení analýz
- sestavovat prediktivní modely za použití široké sady nástrojů SAS/Enterprise Miner (rozhodovací stromy, regresní modely, neuronové sítě)
- porovnávat a interpretovat komplexní modely
- generovat a aplikovat skórovací kód
- provádět shlukové/segmentační, asociační a sekvenční analýzy
- používat alternativní modelovací nástroje (rule induction, gradiant boosting, support vector machines)
Obsah kurzu
Úvod
- úvod do prostředí aplikace SAS Enterprise Miner 7.1
Přístup k datům a jejich příprava
- vytvoření projektu, knihovny a diagramu v SAS Enterprise Miner
- definice datového zdroje
- validace zdrojových dat
Úvod do prediktivního modelování s pomocí rozhodovacích stromů
- konstrukce rozhodovacího stromu
- optimalizace rozhodovacího stromu
- porozumění výsledkům prediktivního modelování
Úvod do prediktivního modelování s pomocí regrese
- výběr vstupních proměnných
- optimalizace regresního modelu
- interpretace výsledků regresní analýzy
- transformace vstupních proměnných
- kategorické vstupní proměnné
- rozšíření regresních modelů o polynomické členy
Úvod do prediktivního modelování s pomocí neuronových sítí a dalších modelovacích nástrojů
- úvod do neuronových sítí
- výběr vstupních proměnných
- kritéria pro zastavení trénování
- další modelovací nástroje v SAS Enterprise Miner 7.1
Vyhodnocení modelů
- úvod do statistik pro hodnocení modelů
- grafy porovnávacích statistik
- změna kritérií pro výběr modelu
- definice ziskové matice
Implementace modelů
- definice dat ke skórování
- generování a použití skórovacího kódu
Úvod do rozpoznávání vzorů
- shluková analýza a segmentace dat
- asociační a sekvenční analýza (analýza nákupního košíku)
Další témata
- výběr proměnných (odstranění irelevantních a redundantních proměnných)
- kombinování modelů pomocí Ensemble uzlu
- konsolidace kategorických vstupů
- surogáty
- SAS Rapid Predictive Modeler
Případové studie
- segmentace klientů banky na základě transakční historie
- asociační analýza na datech z webových služeb
- konstrukce jednoduché modelu rizika pro spotřebitelský úvěr
- predikce počtu zapsaných studentů na univerzitě