Velké databáze High Performance Databases Jan Géryk, IS MU Služby počítačových sítí, 21. 11. 2012 Témata přednášky 1. Databáze, historie 2. Databáze jako služba počítačové sítě 3. Vlastnosti DB systémů 4. Zpracování transakcí 5. Architektury rozsáhlých databází 6. Distribuované databázové systémy Databáze, historie ● Co je databáze? ● uspořádaná množina dat uložená na paměťovém médiu ● nástroje pro manipulaci, správu a přístup ● Historie ● 50. léta, COBOL ● architektura síťových a hierarchických db ● 70. léta, relační db, SQL ● 80. léta, zlatý věk DB ● objektové db, kombinace ● Relační architektura je dnes nejrozšířenější Relační databáze ● založené na relačním modelu ● souvisí s teorií množin ● realizuje podmnožinu kartézského součinu ● relace jsou reprezentovány tabulkami ● dvourozměrné struktury ● řádky chápeme jako záznamy ● sloupce uchovávají info o relacích (atributy) ● atributy mají svůj datový typ a doménu ● všechny základní operace pomocí jednoduchých funkcí ● sjednocení, rozdíl, selekce, ... ● relační kalkul a algebra ● DB jako mechanismus přístupu k datům - jednotné rozhraní pro efektivní vývoj a provoz malých aplikací - efektivní vzhledem ke konkrétním typům dat - využívá se služeb operačního systému - pouze jednouživatelský režim (více uživatelů => síťové FS) - nemožnost transakčního zpracování Databáze jako služba sítě ● DB jako služba sítě - služba obsluhující aplikace přes vlastní jednotné rozhraní po síti - implementace vlastních síťových protokolů, ne sdílený síťový FS - server <-> více klientů = striktně klient – server pohled (klientem z hlediska databáze může být i aplikační server) - služba odstíněná od uživatelů dalšími vrstvami (aplikační, prezentační vrstvy) Databáze jako služba sítě 2 ● Transakční systémy (banky, e-shopy) ● Transakce (převod peněz) – skupina příkazů, které převedou DB z jednoho konzistentního stavu do druhého – musí být provedeny všechny nebo žadný ● Dotazovací jazyk pro práci s daty v relační DB – SQL – původně navržen pro koncové uživatele (manažery) – syntakticky blizký angličtině ● SQL: – manipulace s daty: insert, update, delete – řízení transakcí: commit, rollback Vlastnosti DB systémů Systém pro zpracování transakcí splňující: – Atomičnost ● Transakce jsou zpracovány jako celek – Konzistence ● transakce uchovávají databázi v konzistentním stavu – Izolovanost ● jednotlivé operace jsou prováděny izolovaně vůči ostatním trans. ● nesmím vidět změněná data jiné transakce – Trvanlivost ● data úspěšně ukončených transakcí musí být uložena trvanlivě, i po výpadku napájení Vlastnosti DB systémů 2 ● Realizace – zámky – základní nástroje transakčního zpracování – ochrana proti nechtěným změnám – zamykání na úrovni řádků (ne tabulek, bloků), dnes už standard – vše zajišťuje databázový systém ● Kompromis: propustnost x konzistence – „read commited“ režim ● každý příkaz čte jen to co bylo commitnuto ● ochrana před čtením dočasných dat (verze dat) ● během transakce může dojít ke změně hodnoty Zpracování transakcí ● Deadlock – vzájemné zablokování – prevence: predikce, detekce: ukončí jednu z nich, obcházení: nejdřív uzamče vše, neřešení: speciální případy – kultura programování ● pořadí zámků ● co nejkratší dobu ● Oracle uvolní všechny zámky po skončení transakce Zpracování transakcí 2 ● Principy spojení klienta s DB – aplikační rozhraní (Aplikace v Javě) – klientské knihovny (Java - JDBC) – spojení, session (Oracle NET) ● Způsoby zpracování požadavku (server) – Oracle NET: vrstva zajišťující komunikaci mezi serverem a klientem, beží na obou – proces listener (port 1521) – vyhrazený server (dedicated): vždy nový proces, batch – sdílený server (shared) ● výrazně snižuje nároky na paměť ● lepší škálovatelnost, více současných spojení Architektury rozsáhlých DB ● Dnešní doba vyžaduje 24/7 ● Ochrana před chybou (uživatel, HW, SW) – Uživatel: transakce (rollback), flashback (i DDL), PITR – HW: multiplexed redo logs, archive logs – SW: distribuované systémy ● Redo log – každá změna zapsaná na redolog disk – nezapisují se celá data, jen změny – rekonstrukce všech změn provedených v DB – před ukončením commit – zápis samotných dat asynchronní (vyšší výkon) Vlastnost: dostupnost ● Undo records (undo/rollback segments) – odvolání (rollback) transakce – vrácení nepotvrzených změn při obnově – zajišťuje verzování (původní data) – „before image“ u necommitnutých transakcí ● jiný uživatel čte původní data Vlastnost: dostupnost 2 ● Velké objemy dat, velká režie ● Výkon jedné operace x propustnost celku ● Omezení klasické role OS – nepoužívat ani cache systému ● Přístup na disk, velké množství dat – nejdražší operace – vlastní systém cache dat = sdílená paměť ● snížení počtu přístupů – přímý přístup k disku (obejít systém souborů) – asynchronní (když je čas) – disk jen pro DB, žádné soupeření Vlastnost: výkon ● Provádění příkazů – prepare, execute, { fetch }, … ● syntaktická správnost, existence objektů, práva, optimalizace; provádí se jen jednou – optimalizace přístupu k datům na úrovni DB serveru ● efektivní dotazy – uložení dat – rychlý zápis x rychlý přístup ● Indexy – pomocná datová struktura ● In-memory DB – využití zejména operační paměti – jednodušší algoritmy, takže menší zátěž procesoru – výrazně méně drahých I/O operací – využití: telekomunikace Vlastnost: výkon 2 ● Motivace: – vysoká dostupnost, transparentní vůči aplikacím – navýšení propustnosti, horizontální zvýšení výkonu ● Shared nothing clustery – nezávislé a soběstačné uzly (standby databáze) ● autonomní ukládání a zpracování dat – obrovská škálovatelnost, rozdělení zátěže – single point of failure – no single point of contention ● nesdílejí paměť ani disky – Google: pure SN, spousta levných počítačů Distribuované DBs – In-memory databáze – problémy s distribucí db, katalogu a provádění globálních transakcí – netriviální množství komunikace navíc ● Shared everything clustery – on-line sdílení dat více instancemi (čtení i zápis) – global cache: sdílení na úrovni paměti – Oracle RAC Distribuované DBs 2 ● Podrobněji v předmětu PV136 ● Architektura Oracle Database (obrázek) ● Dotazy ● Příště data warehouse Závěr ● server: instance a databáze ● instance: SGA a procesy na pozadí – SGA: sdílená paměť všemi procesy na pozadí, data a řídící info pro instanci, alokuje se při spuštění instance – Procesy: PMON – monitoruje procesy, uvolňuje zdroje; SMON – obnova instance; DBW – zápis změněných dat na disk; LGWR – zapisuje data z redo log bufferu ● databáze: data na disku ● redo log buffer: cachuje info o změnách ● shared pool: library, dictionary a result cache pro paralelní provádění operací Architektura Oracle DB ● PGA: data a řídící info pro konkrétní server ● Database buffer – ukládá naposledy použité bloky dat – udržuje používané bloky dat v paměti Architektura Oracle DB 2