Kurz určený všem, kteří se chtějí seznámit s nejrůznějšími metodami čištění dat. Při přihlášení do tohoto kurzu by uživatelé již měli mít zkušenosti se SAS System a datastepem (PRG1 + PRG2).
Přínos pro účastníka
Ve školení se naučíte, jak odhalovat a korigovat chyby ve vstupních datech. Mezi techniky patří zejména použití datastepu, ale i procedur FREQ, MEANS a UNIVARIATE, které umožňují identifikovat "problematická" pozorování numerických i kategoriálních proměnných dle předem stanovených kritérií. Další část kurzu je věnována vyhledávání shodných identifikačních znaků v různých souborech (fuzzy join) a vyhledávání duplicitních záznamů.
Obsah kurzu
Úvod
- co je to čištění dat
- seznámení se s ukázkovými datovými soubory
Kontrola hodnot textových proměnných
- výpis hodnot pomocí procedury FREQ
- hledání nepřípustných hodnot pomocí datastepu
- zobrazení nepřípustných hodnot
- použití předdefinovaných formátů SAS
- použití vstupních šablon (informáty)
Kontrola hodnot numerických proměnných
- identifikace odlehlých pozorování v procedurách MEANS, TABULATE a UNIVARIATE
- zobrazení nepřípustných hodnot pomocí procedury PRINT s klauzulí WHERE
- hledání nepřípustných hodnot pomocí datastepu
- kontrola přípustných hodnot na základě stanoveného intervalu
- použití předdefinovaných formátů SAS
- použití vstupních šablon (informáty)
- vyhledávání horních a dolních percentilů procedurou UNIVARIATE
- vyhledávání horních a dolních percentilů procedurou RANK
- vyhledávání extrémních pozorování procedurou RANK
- jiné způsoby nalezení extrémních hodnot
- kontrola přípustného intervalu stanoveného na základě směrodatné odchylky
- kontrola přípustného intervalu stanoveného na základě mezikvartilového rozpětí
- simultání kontrola několika proměnných
Kontrola chybějících hodnot
- prohlížení logu
- hledání chybějících hodnot procedurami MEANS a FREQ
- hledání chybějících hodnot pomocí datastepu
- použití procedury TABULATE ke zjištění chybějících hodnot numerických proměnných
- použití procedury TABULATE ke zjištění chybějících hodnot textových proměnných
- vytvoření obecně použitelného algoritmu za účelem vyhledávání chybějících hodnot
- vyhledávání konkrétní hodnoty
Práce s datumy
- kontrola pomocí stanoveného intervalu
- nalezení neplatných datumů
- nestandardní datumové formáty
- ošetření chybějícího dne v měsíci
- zrušení automatické kontroly neplatných datumů
Vyhledávání duplicit a vícenásobných pozorování
- vynechání duplicit za pomoci procedury SORT
- nalezení duplicit v datastepu
- vyhledávání duplicitních záznamů pomocí maker a SQL
- hledání duplicit procedurou FREQ
- identifikace subjektů s n pozorováními
Práce s více soubory
- vyhledávání shodných identifikátorů ve dvou a více souborech
- jednoduchá makra pro vyhledávání shodných hodnot v klíčových proměnných
- složitější makra pro vyhledávání ve více souborech
- pravidla vyhledávání ve více souborech
- kontrola správného řazení datumů
Porovnávání více souborů (procedura COMPARE)
- jednoduché porovnání dvou souborů bez společného klíče
- procedura COMPARE při existenci společné proměnné
- použití COMPARE v souborech s rozdílným počtem pozorování
- porovnání dvou souborů při existenci různých proměnných
Vybraná SQL řešení pro čištění dat
- přehled možností procedury SQL
- kontrola neplatných hodnot
- identifikace odlehlých pozorování
- kontrola přípustného intervalu stanoveného na základě směrodatné odchylky
- vyhledávání chybějících pozorování
- kontrola datumů
- hledání duplicit
- verifikace vícenásobných pozorování u stejného subjektu
- vyhledávání shodných identifikátorů ve dvou souborech
- složitější vyhledávání ve více souborech
Vybraná datastep řešení pro čištění dat
- přiřazení k číselníkovým hodnotám
- seskupování podobných textových položek
- automatické vytvoření číselníku
Data specifická pro ČR (viz. CZDATA)
- PSČ
- RČ
- IČO
- telefony
- čísla účtů
- názvy
- adresy