<style> li { margin-bottom: 1em; } code { font-family: Consolas, monospace; } h2 { margin-top: 2em; } table { width: 100%; } td, th { border: none!important; } </style>

# 10. Práce se soubory CSV a JSON

<style> li { margin-bottom: 1em; } code { font-family: Consolas, monospace; } h2 { margin-top: 2em; } table { width: 100%; } td, th { border: none!important; } </style>

## Formát CSV

- CSV = *comma-separated values*

- Slouží pro ukládání tabulkových dat

- Hodnoty jsou do sloupečků rozdělené pomocí separátoru (*delimiter*, většinou čárka) a do řádků pomocí znaku nového řádku

- <https://cs.wikipedia.org/wiki/CSV>

- Tabulka:

```
┌────────────┬────────┬─────────┬────────┐
│ Rok výroby │ Značka │ Model   │ Cena   │
├────────────┼────────┼─────────┼────────┤
│ 1995       │ Opel   │ Vectra  │ 45 000 │
├────────────┼────────┼─────────┼────────┤
│ 1998       │ Škoda  │ Felicia │ 80 000 │
├────────────┼────────┼─────────┼────────┤
│ 2002       │ Škoda  │ Octavia │ 70 000 │
└────────────┴────────┴─────────┴────────┘
```
- CSV:

    ```csv
    Rok výroby,Značka,Model,Cena
    1995,Opel,Vectra,45000
    1998,Škoda,Felicia,80000
    2002,Škoda,Octavia,70000
    ```

<style> li { margin-bottom: 1em; } code { font-family: Consolas, monospace; } h2 { margin-top: 2em; } table { width: 100%; } td, th { border: none!important; } </style>

## Modul `csv` v Pythonu

- `csv.reader` – načítání formátu CSV

- `csv.writer` – ukládání ve formátu CSV

- <https://docs.python.org/3/library/csv.html>

- `csv.reader` a `csv.write` se vytváří z již otevřeného souboru

  - Při otevírání souboru je nutné použít `newline=''`, jinak se mohou vypisovat prázdné řádky navíc (zejména na Windows).

<style> li { margin-bottom: 1em; } code { font-family: Consolas, monospace; } h2 { margin-top: 2em; } table { width: 100%; } td, th { border: none!important; } </style>

### Čtení

In [None]:
with open('data/auta.csv', 'r', encoding='utf8') as f:
    print(f.read()) # Klasické čtení bez CSV readeru

In [None]:
import csv
from pathlib import Path

with open('data/auta.csv', 'r', encoding='utf8', newline='') as f:
    reader = csv.reader(f)
    print(next(reader))  # Čte jeden řádek
    print('----------')
    for row in reader:  # Čte postupně všechny řádky
        print(row)

In [None]:
with open('data/auta.csv', 'r', encoding='utf8', newline='') as f:
    reader = csv.reader(f)
    table = list(reader) # Čte všechny řádky najednou → seznam seznamů
table

<style> li { margin-bottom: 1em; } code { font-family: Consolas, monospace; } h2 { margin-top: 2em; } table { width: 100%; } td, th { border: none!important; } </style>

- Načtené hodnoty jsou vždy řetězce, musíme si je sami převést na číslo

<style> li { margin-bottom: 1em; } code { font-family: Consolas, monospace; } h2 { margin-top: 2em; } table { width: 100%; } td, th { border: none!important; } </style>

- `DictReader` – z řádků dělá slovníky

In [None]:
with open('data/auta.csv', encoding='utf8', newline='') as f:
    reader = csv.DictReader(f, ['year', 'brand', 'model', 'price'])
    for row in reader:
        print(row)

<style> li { margin-bottom: 1em; } code { font-family: Consolas, monospace; } h2 { margin-top: 2em; } table { width: 100%; } td, th { border: none!important; } </style>

- `DictReader` bez zadaných názvů sloupců – načte první řádek jako hlavičku

In [None]:
with open('data/auta.csv', encoding='utf8', newline='') as f:
    reader = csv.DictReader(f)
    for row in reader:
        print(row)

<style> li { margin-bottom: 1em; } code { font-family: Consolas, monospace; } h2 { margin-top: 2em; } table { width: 100%; } td, th { border: none!important; } </style>

### Zápis

In [None]:
distances = [['',     'Brno', 'Praha', 'Ostrava'],
             ['Brno',      0,     202,       165],
             ['Praha',   202,       0,       362],
             ['Ostrava', 165,     362,         0]]

In [None]:
with open('data/distances.csv', 'w', encoding='utf8', newline='') as f:
    writer = csv.writer(f)
    writer.writerows(distances)

In [None]:
print(Path('data/distances.csv').read_text(encoding='utf8'))

<style> li { margin-bottom: 1em; } code { font-family: Consolas, monospace; } h2 { margin-top: 2em; } table { width: 100%; } td, th { border: none!important; } </style>

### Zápis speciálních znaků

- Tabulka:

```
┌────────────┬────────┬───────────────┬───────────────────────────┬────────┐
│ Rok výroby │ Značka │ Model         │ Poznámka                  │ Cena   │
├────────────┼────────┼───────────────┼───────────────────────────┼────────┤
│ 1995       │ Opel   │ Vectra        │ klimatizace, střešní okno │ 45 000 │
├────────────┼────────┼───────────────┼───────────────────────────┼────────┤
│ 1998       │ Škoda  │ Felicia "Fun" │                           │ 80 000 │
├────────────┼────────┼───────────────┼───────────────────────────┼────────┤
│ 2002       │ Škoda  │ Octavia       │ klimatizace, ABS          │ 70 000 │
│            │        │               │ bouraná                   │        │
└────────────┴────────┴───────────────┴───────────────────────────┴────────┘
```

- CSV:

    ```
    1995,Opel,Vectra,"klimatizace, střešní okno",45000
    1998,Škoda,"Felicia ""Fun""",,80000
    2002,Škoda,Octavia,"klimatizace, ABS
    bouraná",70000
    ```

- A proto je modul `csv` tak užitečný.

In [None]:
with open('data/auta2.csv', encoding='utf8', newline='') as r:
    reader = csv.reader(r)
    for row in reader:
        print(row)

<style> li { margin-bottom: 1em; } code { font-family: Consolas, monospace; } h2 { margin-top: 2em; } table { width: 100%; } td, th { border: none!important; } </style>

### Parametry pro upřesnění formátu

- `delimiter` – oddělovač sloupců (default `','`)

- `quotechar` – vyčlenění polí se speciálními znaky (default `'"'`)

- `quoting` – strategie použití quotecharu (povolené hodnoty `csv.QUOTE_ALL`, `csv.QUOTE_MINIMAL`, `csv.QUOTE_NONNUMERIC`, `csv.QUOTE_NONE`)

  - Reader s `quoting=csv.QUOTE_NONNUMERIC` konvertuje na float vše, co není v uvozovkách.

- `doublequote` – zdvojení quotecharu ruší jeho funkci (default `True`) 

- `escapechar` – ruší funkci speciálních znaků (delimiteru a quotecharu) (default `None`)

- `skipinitialspace` – ignoruje mezery těsně za oddělovačem (default `False`)

- `dialect` – nastavení více parametrů současně (např. `'excel'`)

In [None]:
with open('data/distances.csv', 'w', encoding='utf8', newline='') as f:
    writer = csv.writer(f, delimiter=';', quoting=csv.QUOTE_NONNUMERIC)
    writer.writerows(distances)

In [None]:
print(Path('data/distances.csv').read_text(encoding='utf8'))

In [None]:
with open('data/distances.csv', encoding='utf8', newline='') as f:
    for row in csv.reader(f, delimiter=';', quoting=csv.QUOTE_NONNUMERIC):
        print(row)

<style> li { margin-bottom: 1em; } code { font-family: Consolas, monospace; } h2 { margin-top: 2em; } table { width: 100%; } td, th { border: none!important; } </style>

### Otázky:

Jak musíme nastavit `csv.reader`, aby správně načetl tabulku?

```
Wednesday:16 December:'18:00':'Ovečka Shaun ve filmu: Farmageddon':60 Kč
Wednesday:16 December:'20:30':Story of Tantra                     :100 Kč
Thursday :17 December:'18:00':Hungry Bear Tales                   :60 Kč
Thursday :17 December:'21:30':Between the Seasons                 :100 Kč
Friday   :18 December:'18:00':Disco in the Cinema                 :60 Kč
Saturday :19 December:'20:30':Summer of 85                        :100 Kč
Sunday   :20 December:'20:30':Klimt & Schiele - Eros and Psyche   :100 Kč
```

- A) `csv.reader(f)`

- B) `csv.reader(f, delimiter=':', escapechar="'")`

- C) `csv.reader(f, delimiter=':', quotechar="'")`

- D) `csv.reader(f, delimiter=':', quotechar='"', skipinitialspace=True)`

<style> li { margin-bottom: 1em; } code { font-family: Consolas, monospace; } h2 { margin-top: 2em; } table { width: 100%; } td, th { border: none!important; } </style>

## Formát JSON

- *JavaScript Object Notation*

- <http://json.org/>

- Ukázka:

    ```json
        { 
            "name": "John", 
            "age": 35, 
            "married": true, 
            "cars": [
                "Mercedes", 
                "BMW", 
                "Volkswagen"
            ] 
        }
    ```

- Mapování na typy Pythonu:

| **Python**       |                 | **JSON**     |                 | **Poznámka** |
| -----------: | :-------------- | -------: | :-------------- |:---|
| int/float:   | `5`, `10.2`     | number:  | `5`, `10.2`     | |
| string:      | `'ahoj'`        | string:  | `"ahoj"`        | vždy dvojité uvozovky |
| bool:        | `True`, `False` | boolean: | `true`, `false` | |
| None:        | `None`          | null:    | `null`          | |
| list, tuple: | `[]`, `()`      | array:   | `[]`            | načte se vždy jako seznam |
| dict:        | `{}`            | object:  | `{}`            | klíče musí být řetězce |


<style> li { margin-bottom: 1em; } code { font-family: Consolas, monospace; } h2 { margin-top: 2em; } table { width: 100%; } td, th { border: none!important; } </style>

## Modul `json`

- `json.load()` – načti JSON ze souboru

- `json.loads()` – načti JSON z řetězce

- `json.dump()` – zapiš JSON do souboru

- `json.dumps()` – zapiš JSON do řetězce

- <https://docs.python.org/3/library/json.html>

<style> li { margin-bottom: 1em; } code { font-family: Consolas, monospace; } h2 { margin-top: 2em; } table { width: 100%; } td, th { border: none!important; } </style>

###  Čtení

In [None]:
with open('data/bob.json', encoding='utf8') as f:
    bob = f.read()  # Načte řetězec
bob

In [None]:
import json

with open('data/bob.json', encoding='utf8') as f:
    bob = json.load(f)  # Načte slovník
bob

In [None]:
john = json.loads('{ "name": "John", "age": 35, "married": true, "cars": ["Mercedes", "BMW", "Volkswagen"] }')
john

<style> li { margin-bottom: 1em; } code { font-family: Consolas, monospace; } h2 { margin-top: 2em; } table { width: 100%; } td, th { border: none!important; } </style>

### Zápis

In [None]:
alice = {'name': 'Alice', 'age': 28, 'married': False, 'cars': ('Ford', 'Trabant')}

In [None]:
with open('data/alice.json', 'w', encoding='utf8') as f:
    json.dump(alice, f)  # Zapisuje do souboru

In [None]:
print(Path('data/alice.json').read_text(encoding='utf8'))

In [None]:
with open('data/alice.json', 'w', encoding='utf8') as f:
    json.dump(alice, f, indent=4)  # Zapisuje do souboru, s odsazením 4

In [None]:
print(Path('data/alice.json').read_text(encoding='utf8'))

In [None]:
text = json.dumps(alice)  # Nezapisuje do souboru, ale vrací řetězec
text

<style> li { margin-bottom: 1em; } code { font-family: Consolas, monospace; } h2 { margin-top: 2em; } table { width: 100%; } td, th { border: none!important; } </style>

### Otázky:

Které z uvedených je validní JSON?

- A) `{ID: 12345, title: "Harry Potter and Learning Python", translations: ["en", "de", "cs", "sk", "hu", "pl"]}`

- B) `{"ID": 12345, "title": "Harry Potter and Learning Python", "translations": ["en", "de", "cs", "sk", "hu", "pl"]}`

- C) `{'ID': '12345', 'title': 'Harry Potter and Learning Python', 'translations': ['en', 'de', 'cs', 'sk', 'hu', 'pl']}`

- D) `{"ID": "12345", "title": "Harry Potter and Learning Python", "translations": {"en", "de", "cs", "sk", "hu", "pl"}}`


<style> li { margin-bottom: 1em; } code { font-family: Consolas, monospace; } h2 { margin-top: 2em; } table { width: 100%; } td, th { border: none!important; } </style>

# Přehed užitečných modulů

- Standardní knihovna: <https://docs.python.org/3.8/library/>

- Python Package Index: <https://pypi.org/>

- Měli byste umět: 
    
    - `math`
    - `random`
    - `statistics`
    - `argparse`
    - `shutil`, `os`, `sys` z minula (zhruba)

<style> li { margin-bottom: 1em; } code { font-family: Consolas, monospace; } h2 { margin-top: 2em; } table { width: 100%; } td, th { border: none!important; } </style>

## Modul `math`

- <https://docs.python.org/3/library/math.html>

- Matematické funkce

In [None]:
import math
math.comb(15, 3)  # Kombinační číslo 15 nad 3

<style> li { margin-bottom: 1em; } code { font-family: Consolas, monospace; } h2 { margin-top: 2em; } table { width: 100%; } td, th { border: none!important; } </style>

## Modul `cmath`

- <https://docs.python.org/3/library/cmath.html>

- Matematické funkce nad komplexními čísly

- Komplexní složka se označuje `j` a vždy má před sebou číslici

In [None]:
import cmath
cmath.sqrt(-1)

In [None]:
cmath.sin(2+1j)

<style> li { margin-bottom: 1em; } code { font-family: Consolas, monospace; } h2 { margin-top: 2em; } table { width: 100%; } td, th { border: none!important; } </style>

## Modul `random`

- <https://docs.python.org/3/library/random.html>

- Generování pseudo-náhodných čísel

In [None]:
import random
random.random()  # Náhodné reálné číslo z intervalu [0, 1)

In [None]:
random.randint(0, 100)  # Náhodné celé číslo z intervalu [0, 100]

In [None]:
random.choice(['červená', 'zelená', 'modrá', 'černá'])  # Náhodný výběr

In [None]:
random.gauss(5, 1)  # Náhodné číslo z normálního rozdělení (μ=5, σ=1)

<style> li { margin-bottom: 1em; } code { font-family: Consolas, monospace; } h2 { margin-top: 2em; } table { width: 100%; } td, th { border: none!important; } </style>

## Modul `statistics`

- <https://docs.python.org/3/library/statistics.html>

- Statistické funkce

In [None]:
import statistics
data = [8, 44, 38, 13, 76, 30, 49, 27, 30, 74, 39, 65, 50, 30, 33, 43, 66, 25, 15, 77]
statistics.mean(data)  # Aritmetický průměr

In [None]:
statistics.median(data)  # Medián

In [None]:
statistics.mode(data)  # Modus (nejčastější hodnota)

In [None]:
statistics.stdev(data)  # Směrodatná odchylka vzorku

In [None]:
statistics.pstdev(data)  # Směrodatná odchylka populace

<style> li { margin-bottom: 1em; } code { font-family: Consolas, monospace; } h2 { margin-top: 2em; } table { width: 100%; } td, th { border: none!important; } </style>

## Modul `argparse`

- <https://docs.python.org/3/library/argparse.html>

- Předávání argumentů z příkazového řádku

- Stejný účel jako `sys.argv`, ale sofistikovanější a hezčí pro uživatele

### Argumenty z příkazového řádku (netýká se pouze Pythonu):

- Poziční

  `$ program` &nbsp; **`arg1 arg2`**

- Volby/přepínače/*options*/*switches*/*flags*
  
  - Modifikují chování programu

  - Začínají `-` (jednopísmenné) nebo `--` (vícepísmenné)

  - Bez parametrů:

    `$ program arg1 arg2` &nbsp; **`-s`**
    
    `$ program arg1 arg2` &nbsp; **`--switch`**

  - S parametrem:

    `$ program arg1 arg2` &nbsp; **`-o value`**

    `$ program arg1 arg2` &nbsp; **`--option value`**

- Různé kombinace:

  `$ program  --option value  -s  arg1  arg2  --switch`

- Volba `-h` nebo `--help` –> program nemá nic dělat, pouze vypsat nápovědu:

  `$ program  --help`

<style> li { margin-bottom: 1em; } code { font-family: Consolas, monospace; } h2 { margin-top: 2em; } table { width: 100%; } td, th { border: none!important; } </style>

### Načtení argumentů pomocí `argparse`

1. Vytvoříme parser

2. Přidáme parseru jednotlivé argumenty a volby

3. Načteme (zparsujeme) argumenty a volby pomocí parseru

<style> li { margin-bottom: 1em; } code { font-family: Consolas, monospace; } h2 { margin-top: 2em; } table { width: 100%; } td, th { border: none!important; } </style>

- Soubor `pizza.py`:

In [None]:
import argparse

def main() -> None:
    # Vytvoření parseru
    parser = argparse.ArgumentParser(description='Demo module for ordering pizza')

    # Poziční argumenty (povinné)
    parser.add_argument('address', help='Address for delivery', 
                        type=str)
    parser.add_argument('pizza', help='Type of pizza', 
                        choices=['Margherita', 'Funghi', '4Formaggi'])
    # Volba typu bool
    parser.add_argument('-x', '--spicy', 
                        help='Extra spicy', 
                        action='store_true')
    # Volba typu str s výběrem
    parser.add_argument('-s', '--size',
                        help='Pizza size', 
                        choices=['small', 'medium', 'large'],
                        default='medium')
    # Volba typu float
    parser.add_argument('-t', '--tip', 
                        help='Tip for the delivery ($)', 
                        type=float, 
                        default=0.0)
    
    # Načtení argumentů a voleb pomocí parseru
    args = parser.parse_args()

    print('Address:   ', args.address)
    print('Pizza type:', args.pizza)
    print('Size:      ', args.size)
    print('Spicy:     ', args.spicy)
    print('Tip:       ', args.tip)

if __name__ == '__main__':
    main()

<style> li { margin-bottom: 1em; } code { font-family: Consolas, monospace; } h2 { margin-top: 2em; } table { width: 100%; } td, th { border: none!important; } </style>

- Spouštíme z příkazového řádku:

    ```bash
    $ python pizza.py
    $ python pizza.py --help
    $ python pizza.py 'Kamenice 5' Funghi
    $ python pizza.py 'Kamenice 5' 4Formaggi --size large --spicy --tip 1.20
    $ python pizza.py 'Kamenice 5' 4Formaggi -s large -x -t 1.20
    ```

- (Uvozovky jsou nutné u víceslovných argumentů, aby shell poznal, kde argument začíná a končí. Python už dostane řetězec bez uvozovek.)

<style> li { margin-bottom: 1em; } code { font-family: Consolas, monospace; } h2 { margin-top: 2em; } table { width: 100%; } td, th { border: none!important; } </style>

## Modul `datetime`

- <https://docs.python.org/3/library/datetime.html>

- Práce s časovými údaji

- Základní typy:

  - `datetime` – datum a čas

  - `timedelta` – trvání

  - `date` – datum

  - `time` – čas

  - `timezone` – časová zóna 

In [None]:
from datetime import datetime, timedelta

start = datetime.now()
math.factorial(500_000)
end = datetime.now()
calculation_time = end - start
print(start)
print(end)
print(calculation_time)

In [None]:
today = datetime.now().date()
in_1_week = today + timedelta(weeks=1)
print(f'Today is:               {today}')
print(f'In one week it will be: {in_1_week}')

<style> li { margin-bottom: 1em; } code { font-family: Consolas, monospace; } h2 { margin-top: 2em; } table { width: 100%; } td, th { border: none!important; } </style>

- Formátování času

In [None]:
datetime.now().strftime('%A, %d %B %Y, %H:%M:%S')

<style> li { margin-bottom: 1em; } code { font-family: Consolas, monospace; } h2 { margin-top: 2em; } table { width: 100%; } td, th { border: none!important; } </style>

- Parsování času

In [None]:
datetime.strptime('1. 7. 2000, 13:30:05', '%d. %m. %Y, %H:%M:%S')

<style> li { margin-bottom: 1em; } code { font-family: Consolas, monospace; } h2 { margin-top: 2em; } table { width: 100%; } td, th { border: none!important; } </style>

## Modul `itertools`

- <https://docs.python.org/3/library/itertools.html>

- Různé možnosti iterování

In [None]:
import itertools
for pair in itertools.combinations(['A', 'B', 'C'], 2):
    print(*pair)

In [None]:
for pair in itertools.permutations(['A', 'B', 'C'], 2):
    print(*pair)

In [None]:
for letter, number in itertools.zip_longest('ABC', [1, 2, 3, 4, 5], fillvalue='?'):
    print(letter, number)

<style> li { margin-bottom: 1em; } code { font-family: Consolas, monospace; } h2 { margin-top: 2em; } table { width: 100%; } td, th { border: none!important; } </style>

# Další moduly – rozšiřující učivo

<style> li { margin-bottom: 1em; } code { font-family: Consolas, monospace; } h2 { margin-top: 2em; } table { width: 100%; } td, th { border: none!important; } </style>

## Formát XML

-  *Extensible Markup Language*

-  <https://cs.wikipedia.org/wiki/Extensible_Markup_Language>

  ```xml
    <messages>
      <note id="501">
        <to>Tove</to>
        <from>Jani</from>
        <heading>Reminder</heading>
        <body>Don't forget me this weekend!</body>
      </note>
      <note id="502">
        <to>Jani</to>
        <from>Tove</from>
        <heading>Re: Reminder</heading>
        <body>I will not</body>
      </note>
    </messages> 
  ```

## Modul `lxml`

- Čtení a zápis ve formátu XML (<https://lxml.de>)

- Externí balíček, nutno doinstalovat pomocí pipu

<style> li { margin-bottom: 1em; } code { font-family: Consolas, monospace; } h2 { margin-top: 2em; } table { width: 100%; } td, th { border: none!important; } </style>

## Modul `pickle`

- <https://docs.python.org/3/library/pickle.html>

- Uložení pythonovských dat v binárním formátu

- Dokáže uložit téměř libovolný objekt (např. i funkce)

- Nebezpečí – pickle soubor z cizího zdroje může obsahovat škodlivý kód!

<style> li { margin-bottom: 1em; } code { font-family: Consolas, monospace; } h2 { margin-top: 2em; } table { width: 100%; } td, th { border: none!important; } </style>

## Modul `requests`

- <https://pypi.org/project/requests/>

- Internetová komunikace přes protokol HTTP

- Nutno doinstalovat pomocí pipu

- Posíláme požadavek (*request*) na server pomocí metod GET, POST, PUT, DELETE...

- Server nám vrací odpověď (*response*)

In [None]:
import requests

URL = 'http://endless.horse'  # URL = Uniform Resource Locator = webová adresa
response = requests.get(URL)  # Používáme HTTP metodu GET
print('STATUS:', response.status_code)  # Status code: 200 = OK, 404 = Not Found...
print('TEXT:', response.text[-700:])  # Posledních 700 znaků ze stáhnutého textu

<style> li { margin-bottom: 1em; } code { font-family: Consolas, monospace; } h2 { margin-top: 2em; } table { width: 100%; } td, th { border: none!important; } </style>

## Modul `re`

- <https://docs.python.org/3/library/re.html>

- Regulární výraz = *regular expression* = *regex* = *RE*

- Způsob jak zapsat obecně vzorek textu, který chceme vyhledat/nahradit/...

- Vzorek většinou zapisujeme jako raw-string (např. `r'blabla'`), abychom zrušili speciální význam `\` pro Python
  
  - `'\n'` – jeden znak (nový řádek)

  - `r'\n'` – dva znaky (`\` a `n`) –> necháváme speciální význam pro RE

In [None]:
import re

text = 'Helloooo! She sells sea shells. Good as hell!'

re.findall(r'[Hh]ello*', text)

In [None]:
re.findall(r'\b[Hh]ello+\b', text)

In [None]:
re.sub(r'\b[Hh]ello+\b', 'Ciao', text)

In [None]:
re.findall(r'S.*!', text)

<style> li { margin-bottom: 1em; } code { font-family: Consolas, monospace; } h2 { margin-top: 2em; } table { width: 100%; } td, th { border: none!important; } </style>

#### Vysvětlení

- `[Hh]` – jeden znak z výčtu (`'H'` nebo `'h'`)

- `o*` – libovolný počet (včetně 0) opakování znaku `o` (`''` nebo `'o'` nebo`'oo'`...)

- `o+` – aspoň 1 opakování znaku `o` (`'o'` nebo`'oo'`...)

- `.` – libovolný znak  

- `.*` – libovolný počet libovolných znaků

- `\w` = word characters = `[a-zA-Z0-9_]`

- `\b` – hranice slova

- Další možnosti použití: 

  - <https://docs.python.org/3.8/library/re.html>
  
  - <https://docs.python.org/3.7/howto/regex.html>

- Pozor, pravidla `re` a `glob` jsou jiná!

<style> li { margin-bottom: 1em; } code { font-family: Consolas, monospace; } h2 { margin-top: 2em; } table { width: 100%; } td, th { border: none!important; } </style>

#### Další příklady

In [None]:
text = 'Tak se mějte hezky, já jdu žehlit a pokračoval v cestě.'
re.findall(r'\w+', text)

In [None]:
from pathlib import Path
text = Path('data/no_side_effects.txt').read_text()
re.findall(r'"(.+)" *- *([0-9]{1,2}:[0-9]{2})', text)

<style> li { margin-bottom: 1em; } code { font-family: Consolas, monospace; } h2 { margin-top: 2em; } table { width: 100%; } td, th { border: none!important; } </style>

## Další užitečné moduly

- `subprocess`

- `email`

- `codecs`

- `warnings`

- `numpy`

- `matplotlib`

- `sklearn`

- `pandas`

- ...