Jméno, příjmení: E-mail: Zkouška z předmětu Strojové učení ­ 12. 1. 2005 Své odpovědi vždy stručně zdůvodněte, aby bylo zřejmé, proč tak odpovídáte. Maximální čas k dispozici: 120 minut. Stupnice hodnocení: A 90%, 90% > B 80%, 80% > C 70%, 70% > D 60%, 60% > E 50%, 50% > F. 1. V tabulce jsou dány tréninkové příklady. Cílovým atributem je HrátTenis jehož možné hodnoty jsou ano nebo ne. Indukujte pomocí metody ID3 rozhodovací strom, který bude schopný predikovat hodnotu cílového atributu na základě hodnot ostatních atributů. Indukci stromu dokumentujte výpočtem. Kam indukovaný strom zařadí příklad: zataženo,chladno,vysoká,slabý? Max. 17%. den předpověď počasí teplota vlhkost vítr HrátTenis D1 slunečno teplo vysoká slabý ne D2 slunečno teplo vysoká silný ne D3 zataženo teplo vysoká slabý ano D4 deštivo mírně vysoká slabý ano D5 deštivo chladno normální slabý ano D6 deštivo chladno normální silný ne D7 zataženo chladno normální silný ano D8 slunečno mírně vysoká slabý ne D9 slunečno chladno normální slabý ano D10 deštivo mírně normální slabý ano D11 slunečno mírně normální silný ano D12 zataženo mírně vysoká silný ano D13 zataženo teplo normální slabý ano D14 deštivo mírně vysoká silný ne 2. Vysvětlete stručně, co je a) otevřená doména, b) uzavřená doména , c) zašuměná data (jaké typy šumu mohou existovat?). Uveďte k a), b) a c) příklad odlišný od příkladu zmíněného na přednášce. Max. 4%. 3. Jak by algoritmus c5/See5 řešil případ, když by v tabulce z otázky č. 1 v některých řádcích chyběly hodnoty některých atributů? Vysvětlete, na čem je řešení používané v c5/See5 založeno. Pokud by klasifikátor c5/See5 vygenerovaný z tréninkových dat v otázce č. 1 měl klasifikovat např. instanci zataženo,chladno,?,slabý, jak by v principu klasifikace mohla dopadnout? (Není nutno provést výpočet, je zapotřebí ukázat principiálně, jak by daný případ mohl být řešen.) Max. 18%. 4. Čím je charakterizováno učení a) on-line, b) of-line, c) inkrementální, d) dávkové. Je možné mezi sebou kombinovat typy a) a b) s typy c) a d) ? Na čem závisejí možné kombinace typů učení? Uveďte příklady. Max. 5%. 5. Co je to AdaBoost, na čem je metoda založena, jak funguje, proč a kdy je vhodná k použití? Za jakých okolností např. z hlediska vlastností dat by AdaBoost nemusela pozitivně působit na řešení? Max. 18%. 6. V čem se u genetických algoritmů liší standardní a seřazovací metoda, jaký je přínos seřazovací metody oproti metodě standardní? Na čem jsou obě metody založeny? Může standardní metoda ovlivnit možnou degeneraci pozitivně nebo negativně, a proč? Jak to ovlivní seřazovací metoda? Jak lze principálně u genetických algoritmů omezit vliv degenarace? Max. 17%. 7. Na čem je založen Gibbsův algoritmus, jaké má vlastnosti, výhody a nevýhody? Kdy byste ho použili a proč? Max. 6%. 8. Na čem je založena metoda IB3 ze skupiny metod IBL? Jaký přínos mají její specifické vlastnosti oproti IB1 a IB2? Co je typické pro IB1 a IB2? K čemu a proč se specifické vlastnosti IB3 hodí? Max. 15%.