C2142 Návrh algoritmů pro přírodovědce
7. Grafy.
Tomáš Raček
Jaro 2019
Vyhledávání v databázích I
Opakování. Umíme efektivně vyhledávat a řadit objekty podle různých klíčů v případě,
že je na těchto klíčích definováno uspořádání (≤).
Vyhledávání molekul. Mějme molekulu a chtějme zjistit, zdali se již vyskytuje v dané
sadě sloučenin (= databázi).
• Záznamy o molekulách často obsahují jednoznačné identifikátory (řetězce znaků)
→ umíme.
Problém. Tyto informace ale nemusí být dostupné. K dispozici máme však minimálně:
• údaje o atomech (pozice, typy)
• vazby mezi atomy
Příklad molekuly – formát MOL
702
-OEChem-03301510303D
9 8 0 0 0 0 0 0 0999 V2000
-1.1712 0.2997 0.0000 O 0 0 0 0 0 0
-0.0463 -0.5665 0.0000 C 0 0 0 0 0 0
1.2175 0.2668 0.0000 C 0 0 0 0 0 0
-0.0958 -1.2120 0.8819 H 0 0 0 0 0 0
-0.0952 -1.1938 -0.8946 H 0 0 0 0 0 0
2.1050 -0.3720 -0.0177 H 0 0 0 0 0 0
1.2426 0.9307 -0.8704 H 0 0 0 0 0 0
1.2616 0.9052 0.8886 H 0 0 0 0 0 0
-1.1291 0.8364 0.8099 H 0 0 0 0 0 0
1 2 1 0 0 0 0
1 9 1 0 0 0 0
2 3 1 0 0 0 0
2 4 1 0 0 0 0
2 5 1 0 0 0 0
3 6 1 0 0 0 0
3 7 1 0 0 0 0
3 8 1 0 0 0 0
Vyhledávání v databázích II
Intuice. Porovnání na základě pozic jednotlivých atomů a vazeb představuje výpočetně
netriviální problém. Současné databáze navíc obsahují stovky tisíc až miliony struktur.
Návrh řešení. Proveďme vyhledávání v několika fázích, které budou postupně
omezovat množinu přípustných struktur. Postupujme od nejjednodušších metod po
složitější.
1. jednoduché deskriptory (př. sumární vzorec)
2. využití znalosti topologie, podstruktur
3. porovnání pozic atomů v prostoru
Příklad. Porovnání molekul podle sumárních vzorců v rozumném čase výrazně
redukuje množinu kandidátů. Nicméně samo o sobě nestačí.
Vyhledávání v databázích III
Omezení. Pomocí sumárního vzorce nelze rozlišit izomery.
Topologie. Je nutné přidat další informace o struktuře sloučenin – propojení vazbami.
Problém. Potřebujeme nalézt vhodnou datovou strukturu pro reprezentaci molekuly.
3. fáze. Ani toto rozlišení obecně nestačí (stereoizomery), ale získané výsledky lze
použít jako výchozí bod pro další algoritmy.
Graf
Definice. Graf G = (V, E), kde V je množina uzlů (vrcholů) a E je množina hran.
Typy grafů
• orientovaný – hrany jsou uspořádané dvojice (u, v)
• neorientovaný – hrany jsou dvouprvkové podmnožiny {u, v}
Příklad orientovaného grafu
• G = (V, E)
• V = {A, B, C, D, E, F}
• E = {(A, B), (B, C), (C, E), (D, B), (E, D), (E, F)}
Reprezentace grafu
Minimální požadavky na datovou strukturu
• dotaz na existenci hrany v grafu
• sousedé daného vrcholu
Triviální řešení představuje obyčejný seznam (pole) hran. Nicméně výše zmíněné
operace pak nelze implementovat efektivně.
• G = (V, E)
• V = {A, B, C, D, E, F}
• E = {(A, B), (B, C), (C, E), (D, B), (E, D), (E, F)}
Matice sousednosti
Matice sousednosti. Vytvořme pro graf G = (V, E) matici A o rozměrech |V| × |V|
s vlastností:
Ai,j = 1 ↔ (i, j) ∈ E
Příklad
A =


0 1 1 0
0 0 0 0
0 1 0 1
0 0 1 0


Vlastnosti
• dotaz na přítomnost hrany je konstatní operace
• seznam následníků daného vrcholu v lineárním čase
• potřeba |V|2 paměti → vhodné pro husté grafy (|E| ≈ |V|2)
Seznam následníků
Seznam následníků. Uvažme pole ukazatelů na seznamy následníků daných vrcholů.
Příklad
Vlastnosti
• dotaz na přítomnost hrany je lineární operace
• seznam následníků v lineárním čase
• pouze |V| + |E| paměti → vhodné pro řídké grafy (|E| ≈ |V|)
Procházení grafu
Cíl. Projít všechny vrcholy grafu dostupné ze zvoleného výchozího.
Naivní řešení. Projít postupně seznam vrcholů od začátku do konce (podobně jako u
obyčejného pole).
• zjevně lineární operace
• nerespektuje strukturu grafu
• graf nemusí být souvislý → projdeme i jeho nedosažitelné části
Ideální řešení
• zachová lineární složitost
• každý vrchol projde právě jednou
• odstraní výše uvedené nedostatky
Procházení do šířky
Breadth First Search (BFS) prochází graf po jednotlivých úrovních – než projde vrcholy
vzdálené (co do počtu hran) n od výchozího, projde předtím všechny vrcholy vzdálené
n − 1.
Vlastnosti
• procházíme nejdříve všechny přímé následníky vrcholů
• pro uložení pořadí, ve kterém vrcholy prohledáváme, používáme frontu
• lineární složitost vzhledem k velikosti grafu – O(|V| + |E|)
Procházení do šířky – pseudokód
1: function BFS(G, u) is
2: Nechť Q je prázdná fronta
3: Enqueue(Q, u)
4: Označ u jako navštívený
5: while Q není prázdná do
6: v ← Dequeue(Q)
7: for all (v, w) ∈ E do
8: if w není navštívený then
9: Označ w jako navštívený
10: Enqueue(Q, w)
11: fi
12: done
13: done
14: end
Procházení do hloubky
Depth First Search (DFS) prochází graf „dokud to jde“, pak se vrací do posledního
místa, kde existuje neprozkoumaná cesta, kterou pak pokračuje dále (= obvyklé
prohledávání bludiště).
Vlastnosti
• lineární algoritmus – O(|V| + |E|)
• často v rekurzivní podobě, iterativní využívá zásobník
1: function DFS(G, u) is
2: Označ u jako navštívený
3: for all (u, v) ∈ E do
4: if v není navštívený then
5: DFS(G, v)
6: fi
7: done
8: end
Procházení do hloubky (iterativně) – pseudokód
1: function DFS(G, u) is
2: Nechť S je prázdný zásobník
3: Push(S, u)
4: Označ u jako navštívený
5: while S není prázdný do
6: v ← Pop(S)
7: for all (v, w) ∈ E do
8: if w není navštívený then
9: Označ w jako navštívený
10: Push(S, w)
11: fi
12: done
13: done
14: end
Otázka. Čím se liší pseudokód pro BFS a DFS?
Procházení binárního stromu
BFS → procházení po úrovních
Varianty DFS
• pre-order → 1. uzel, 2. levý podstrom, 3. pravý podstrom
• in-order → 1. levý podstrom, 2. uzel, 3. pravý podstrom
• post-order → 1. levý podstrom, 2. pravý podstrom, 3. uzel
Pořadí procházení vrcholů
• BFS: 2, 7, 5, 1, 6, 9, 5, 11, 4
• DFS pre-order: 2, 7, 1, 6, 5, 11, 5, 9, 4
• DFS in-order: 1, 7, 5, 6, 11, 2, 5, 4, 9
• DFS post-oder: 1, 5, 11, 6, 7, 4, 9, 5, 2
Otázka. Co kdybychom použili DFS in-order na BST?