"""Vyhledávání slov textu, vytvoření konkordančních řádků (hledaná slova v kontextu např. 3 slov zleva a zprava), uložení takto vytvořených konkordančních řádků, nahrazování (např. "ch" za X), RE""" #nejdrive si nachystam text - chceme text jen s malymi pismeny, bez interpunkce # nacteni obsahu z existujiciho souboru with open('C:\\Users\\Cech\\00_prace\\vyuka\\Brno\\PLIN057_stroj_zprac_textu\\text_01.txt', encoding='UTF-8') as f: obsah = f.read() print(obsah) # nahrazeni vice znaku text_bez_interpunkce = obsah.translate(str.maketrans({',':'', '.':'', '!':'', '?':''})) print(text_bez_interpunkce) text_bez_interpunkce_lc = text_bez_interpunkce.lower() print(text_bez_interpunkce_lc) #prace s RETEZCEM #zjisteni poctu urcitych znaku ci slov (de facto rezecu) text_bez_interpunkce_lc.count("a") #pocet pismen a text_bez_interpunkce_lc.count(" a ") #pocet slov a (tj. vsech a mezi mezerama) text_bez_interpunkce_lc.count(" že ") # rozumnejsi je ale pracovat s textem jako se SEZNAMEM # protoze jde napr. vetsinou o to vyhledat slova a jejich okoli text = text_bez_interpunkce_lc.split() print(text) #zjisteni, zda je dane slovo v textu, jen cele polozky seznamu 'a' in text 'vám' in text 'vá' in text #false -> musi to byt cela polozka seznamu 'email' in text #UKOL: vytvorte promennou 'hledane slovo', do ni zapiste slovo 'světadílu' # vyhldejte ho v textu a pomoci f-string napiste odpoved "Slovo XY je v textu #pokud neni, napiste, ze tam neni hledane_slovo = 'světadílu' if hledane_slovo in text: print(f"Slovo '{hledane_slovo}' je v textu") else: print(f"Slovo '{hledane_slovo}' není v textu") #UKOL: zjistěte, která slova obsahují řetězec písmen "vá", # vypište na každý řádek větu, nvrati slova, ktera obsahuji dany retezec for slovo in text: if 'vá' in slovo: print(f"Slovo '{slovo}' obsahuje 'vá'") #UKOL: zmente predchozi skript, tak aby vytvoril seznam slov (typů) osahující daný retezec hledana_slova = [] for slovo in text: if 'vá' in slovo: hledana_slova.append(slovo) print(list(set(hledana_slova))) #zvazit: neni treba prevadet mnozinu na seznam, # print si poradi i s vytistenim mnoziny, tj. "print(set(hledana_slova))"; jediny # rozdil pak bude v tom, ze se ti do konzole vypisou slova ohranicena kudrnatyma # zavorkama (set), namisto hranatych (list) # - moznav teto souvislosti rict vic o mnozinach, kod by sel zapsat i takto: # hledana_slova = set() # for slovo in text: # if 'vá' in slovo: # hledana_slova.add(slovo) # print(hledana_slova) # jen na zopakovani: pocet slov v textu, opet jen cele polozky print(text.count('že')) print(text.count('en')) print(text.count('jsou')) #UKOL: zjistit pocet slov ze seznamu text obsahujicch dany retezec, vypsat to do formy: # V textu je XY slov obsahujících retezec abs hledany_retezec = 'vá' pocet = 0 for slovo in text: if hledany_retezec in slovo: pocet += 1 print(f"V textu je {pocet} slov obsahujích '{hledany_retezec}'.") # KONKORDANCNI RADKY (to jsou radky, kde se vraci i okoli hledaneho slova) #budu pro to pouzivat zkratku kwic, jak je bezne v korpusove lingvistice # zjistim indexy/pozice hledaneho slova #ALE pripomenout nejdriv predhozi lekci, napr. jim dat vyhledat 1.-10., 8-13 slovo v textu, posledni nebo posledni 3 #bez toho, aby to chapali kwic neudelaji #struktura slicingu [start:stop:step] print(text[0:10]) #posledni se nezahrnuje print(text[7:13]) print(text[-1]) print(text[-3:]) #nemuze se napsat [-3:-1], protoz posledni element intervalu se nezahrnuje #mozna pro zajimavost vytvoreni seznamu pozpatku print(text[::-1]) #(start == posledni index, stop == prvni index, tj. 0) #indexy/pozice hledaneho slova hledane_slovo = 'vám' pozice = [] for i, slovo in enumerate(text): if slovo == hledane_slovo: pozice.append(i) print(pozice) #vysvetleni enumerate list(enumerate(text)) # puvodni varianta hledane_slovo = 'vám' pozice = [] for i in range(len(text)): #range vytvari sled cisel, defaultne pocita od nuly a nezapocitava posledni cislo e.g. range(166) -> 0-165 (nicmene provede 166x) if text[i] == hledane_slovo: #asi by bylo lepsi to udelat pres nejakou def, aby se to dalo zadat pozdeji pozice.append(i) print(pozice) #vytisknu si jednotliva slova a jejich okoli #nejdrive jednotliva slova for i in pozice: print(text[i]) #a pridavam 1 slovo za for i in pozice: print(text[i:i+2]) #cisly nastavim velikost rozsahu, pripomenout, ze posledni hodnota se nezahrnuje, proto je treba pridat +1 #a pridavam 5 slov za for i in pozice: print(text[i:i+6]) #UKOL. vytvorte seznam, ktery bude mit hledane slovo a tri slova pred sebou for i in pozice: print(text[i-3:i+1]) #opet, nemuze tam byt vpravo 'i', protoze pravy index se nezahrnuje #UKOL. vytvorte seznam, ktery bude mit hledane slovo a 6 slov pred sebou a za sebou for i in pozice: print(text[i-6:i+7]) #cisly nastavim velikost rozsahu #kwic se lip cte jako prosty text, tak musim ze seznamu udelat retezec priklad = ['do', 'historie', 'našich', 'národů', 'hovořím', 'k', 'vám', 'v', 'prvních', 'hodinách', 'roku', 'nového', 'a'] print(' '.join(priklad)) #prevedu seznam na text for i in pozice: print(' '.join(text[i-6:i+7])) #UKOL: a s hledanym slovem mezi zobacky (tak se to casto vyznacuje v korp. lingv.) for i in pozice: print(f"{' '.join(text[i-6:i])} <{text[i]}> {' '.join(text[i+1:i+7])}") #vytvoreni seznamu, kde budou jednotlivymi polozkami jednotliva kwic seznam_kwic = [] for i in pozice: seznam_kwic.append(' '.join(text[i-6:i+7])) print(seznam_kwic) #a ted to dame vse dohromady, aby se to dalo pouzit pro jakekoliv slovo a rozsah hledane_slovo = 'světadíl' levy_kontext = 3 pravy_kontext = 3 pozice = [] seznam_kwic = [] for i in range(len(text)): #range vytvari sled cisel, defaultne pocita od nuly a nezapocitava posledni cislo e.g. range(166) -> 0-165 (nicmene provede 166x) if text[i] == hledane_slovo: seznam_kwic.append(' '.join(text[i-levy_kontext:i+pravy_kontext+1])) print(seznam_kwic) #!!!je tu problem v pripade, ze se dane slovo vyskytne napr. na zacatku textu a dame vyhledavani slov pred nimm napr. zkus rok vs spoluobčané # vrati to IndexError: list index out of range #dalo by se to vyresit tim, ze se na zacatek a konec textu (v nasem pripade seznamu) prida pocet polozek odpovidajici rozsahu #ukazka priklad = ['do', 'historie', 'našich', 'národů', 'hovořím'] a = 0 b = 0 while a < levy_kontext: priklad.insert(0, ' ') a += 1 while b < pravy_kontext: priklad.append(' ') b += 1 print(priklad) #a ted uz cele hledane_slovo = 'drazí' #funguje to i pro prvni a posledni slovo levy_kontext = 5 pravy_kontext = 3 pozice = [] seznam_kwic = [] a = 0 b = 0 while a < levy_kontext: text.insert(0, ' ') a += 1 while b < pravy_kontext: text.append(' ') b += 1 for i in range(len(text)): #range vytvari sled cisel, defaultne pocita od nuly a nezapocitava posledni cislo e.g. range(166) -> 0-165 (nicmene provede 166x) if text[i] == hledane_slovo: seznam_kwic.append(' '.join(text[i-levy_kontext:i+pravy_kontext+1])) print(seznam_kwic) #Michalova varianta hledane_slovo = 'drazí' levy_kontext = 3 pravy_kontext = 3 pozice = [] seznam_kwic = [] for i, slovo in enumerate(text): if slovo == hledane_slovo: start = max(0, i-levy_kontext) end = min(i+pravy_kontext+1, len(text)) seznam_kwic.append(' '.join(text[start:end])) print(seznam_kwic) #zapsani vysledku do txt souboru a jeho ulozeni, nacitani textu, je to podobne with open('C:\\Users\\Cech\\00_prace\\vyuka\\Brno\\PLIN057_stroj_zprac_textu\\output.txt', mode='w', encoding='utf-8') as file_to_save: for line in seznam_kwic: print(line, file=file_to_save) #RE - udelam nejaky uvod # cviceni na RE: https://regexone.com/ # https://docs.python.org/3/library/re.html # Michal: import re # help(re) #https://docs.python.org/3.9/library/re.html #budeme pracovat retezci, tj. puvodnim textem, ktery jsme tokenizovali vyse #jednoduche zjisteni, zda se dany retezec vyskytuje v textu #funkce hlasi jen prvni vyskyt, ale to je ted jedno print(text_bez_interpunkce_lc) slovo = "vám" if re.search(slovo, text_bez_interpunkce_lc): print(f"je tam slovo '{slovo}'") else: print(f"není tam slovo '{slovo}'") #vysvetlit: symboly \w, \b atd. http://programujte.com/clanek/2007110100-regularni-vyrazy-v-pythonu-1-cast/ #vysvetlit: ., *,+,[],\,|,^,{},?, $ #vyhneme se dvema zpetnym lomitkum #r' řekne pythonu, vykašli se na escape sekvence, čti to jako znaky #je treba se podivat na seznam tec symbolu https://docs.python.org/3/reference/lexical_analysis.html#string-and-bytes-literals #ukolem bude najit vsechna slova obsahujici urcite rezce, pujdem krok za krokem #re.findall() vraci seznam, jen retezce, ktere se napisi hledane_retezce = r'žs' #vrati jen tyto retezce slovo_vyskyty = re.findall(hledane_retezce, text_bez_interpunkce_lc) print(slovo_vyskyty) #prida z kazde strany jeden znak hledane_retezce = r'.žs.' slovo_vyskyty = re.findall(hledane_retezce, text_bez_interpunkce_lc) print(slovo_vyskyty) #je to moc zrave, vrati cely text, musime to omezit na hranice slova hledane_retezce = r'.*žs.*' slovo_vyskyty = re.findall(hledane_retezce, text_bez_interpunkce_lc) print(slovo_vyskyty) #cokoliv krome pismena, pismen <0,>, takze najde zacatek slova po dany retezec hledane_retezce = r'\w*žs' slovo_vyskyty = re.findall(hledane_retezce, text_bez_interpunkce_lc) print(slovo_vyskyty) #vrati cela slova obsahujici damy retezec hledane_retezce = r'\w*žs\w*' slovo_vyskyty = re.findall(hledane_retezce, text_bez_interpunkce_lc) print(slovo_vyskyty) #to same, jen za pomoci hranice slov hledane_retezce = r'\b\w*žs\w*\b' slovo_vyskyty = re.findall(hledane_retezce, text_bez_interpunkce_lc) print(slovo_vyskyty) #je treba se podivat na seznam tec symbolu https://docs.python.org/3/reference/lexical_analysis.html#string-and-bytes-literals hledane_retezce = r'\b\w*žs\w*\b' slovo_vyskyty = re.findall(hledane_retezce, text_bez_interpunkce_lc) print(slovo_vyskyty) #UKOL: vyhledat slova začínající na 'ne-'a hledane_retezce = r'\bne\w*\b' slovo_vyskyty = re.findall(hledane_retezce, text_bez_interpunkce_lc) print(slovo_vyskyty) #vyhledat slova začínající na 'ne-'a hledane_retezce = r'^ne' #?proc nefunguji ^ a $? protoze znaky ^ a $ oznacuji zacatek/konec celeho retezce slovo_vyskyty = re.findall(hledane_retezce, text_bez_interpunkce_lc) print(slovo_vyskyty) #ÚKOL: vyhledat slova začínající na 'zá-'a zakončená na '-m' hledane_retezce = r'\bzá\w*m\b' slovo_vyskyty = re.findall(hledane_retezce, text_bez_interpunkce_lc) print(slovo_vyskyty) #UKOL vyhledat slova v délce 1 písmene hledane_retezce = r'\b\w\b' slovo_vyskyty = re.findall(hledane_retezce, text_bez_interpunkce_lc) print(slovo_vyskyty) #UKOL vyhledat slova v délce 2 nebo 3 písmena hledane_retezce = r'\b\w{2,3}\b' slovo_vyskyty = re.findall(hledane_retezce, text_bez_interpunkce_lc) print(slovo_vyskyty) #UKOL vyhledat slova v delší než 10 písmen hledane_retezce = r'\b\w{10,}\b' slovo_vyskyty = re.findall(hledane_retezce, text_bez_interpunkce_lc) print(slovo_vyskyty) #vyhledat vyrazy obsahující číslice hledane_retezce = r'\b\d+\b' #najde ale jen vyrazy z cislic slovo_vyskyty = re.findall(hledane_retezce, text_bez_interpunkce_lc) print(slovo_vyskyty) #vyhledat vyrazy obsahující číslice hledane_retezce = r'\w*\d\w*' slovo_vyskyty = re.findall(hledane_retezce, text_bez_interpunkce_lc) print(slovo_vyskyty)