Kurz je určený zejména programátorům SAS, kteří připravují data pro analýzy. Kurz srovnává různé techniky práce s daty a využití systémových prostředků, a pomáhá tak programátorům zvolit nejefektivnější způsob zpracování konkrétní datové úlohy. Kurz není vhodný pro uživatele, kteří se systémem SAS teprve začínají. Před přihlášením byste měli mít minimálně devítiměsíční praxi s programováním v SAS a absolvovat kurz PRG2 (Programování v SAS: Manipulace s daty), tedy:
- znát strukturu uložení souborů a umět provádět základní úlohy operačního systému
- znát nejpoužívanější datové formáty a způsoby přístupu k souborům
- rozumět logice programování
- mít podrobnou znalost data stepu, fáze kompilace a fáze exekuce
- umět používat různé způsoby importu externích souborů
- používat knihovny SAS
- pracovat s datumovými hodnotami
- načítat, slučovat, spojovat a prokládat tabulky
- používat volby DROP=, KEEP= a RENAME=
- vytvářet více výstupních tabulek najednou
- umět iterativně zpracovávat data pomocí DO smyček a polí
- používat funkce pro manipulaci a transformaci dat
- využívat PROC FORMAT k definici vlastních formátů
Přínos pro účastníka
Cílem kurzu je seznámit uživatele s rozšířenými možnostmi manipulace a transformace dat. Absolvent tohoto školení by měl být schopen optimalizovat SAS programy, pracovat efektivně s velkými objemy dat a umět porovnávat a vyhodnocovat různé programovací techniky používané pro:
- optimální využití paměťové, diskové a CPU kapacity počítače
- vytváření a používání indexů
- vertikální a horizontální slučování dat
- vyhledávání a spojování pomocí hash a hiter tabulek, polí a permanentních uživatelsky definovaných formátů
- kompresi SAS tabulek
- vzorkování SAS tabulek
- vytvářet pohledy (views) pomocí data stepu
- bezpečně redukovat délku numerických proměnných
- vytvářet si vlastní funkce a informáty
Obsah kurzu
Úvod
- organizace kurzu, tvorba výukových dat
- jak měřit efektivitu - benchmarking
Řízení spotřeby operační paměti a I/O zdrojů
- zpracování SAS data stepu
- řízení I/O zdrojů
- řízení velikosti tabulek
- redukce délky numerických proměnných
- komprese SAS tabulek
- tvorba SAS views na data
Přístup k řádkům
- vytváření indexů
- použití indexů
- výběr unikátních pozorování
- vytváření vzorků
Vyhledávacích tabulky pro spojování dat: Pole
- vyhledávací techniky
- použití jednodimenzionálních polí pro vyhledávání
- použití multidimenzionálních polí pro vyhledávání
- načtení multidimenzionálního pole z tabulky SAS
Vyhledávací tabulky pro spojování dat: Hash
- použití hashovacích metod
- načtení hashovací tabulky z tabulky SAS
- použití hashovací tabulky pro řetězené vyhledávání
- použití hiter objektů v data stepu
Uživatelské funkce a formáty
- definice vlastních fukncí
- definice vlastních formátů
Vyhledávací tabulky pro spojování dat: Horizontální slučování souborů
- propojování tabulek pomocí data stepu a SQL join
- využití indexů při spojování
- spojování dat na různém stupni agregace
- podmíněné spojování dat
Best practices pro vyšší efektivitu
- psaní flexibilních programů: vertikální slučování textových vstupních dat