|
Filozofski fakultet u Sarajevu Senija Zukić i Selma Dautefendić KONKORDANCIJA BOSANSKOHERCEGOVAČKE KNJIŽEVNOSTI Diplomski rad |
|
Mentor: prof.dr.Kemal Bakršić Odbrana rada : 11.januar 2003.godine |
|
+ 1.
UVOD
+ 2. MATERIJAL I METODE + 2.1 PROGRAMSKA PODRŠKA + 2.2. MATERIJAL + 2.3. OZNAČAVANJE TAKSTA ZA KONKORDANCIJU + 2.4 PRIPREMA TEKSTA ZA KONKORDANCIJU + 3. IZVOĐENJE KONKORDANCIJE + 3.1. KOMPLETNA KONKORDACIJSKA LISTA + 3.2. FRAGMENTARNA KONKORDACIJSKA LISTA + 3.3. TABELA UČESTALOSTI RIJEČI + 3.4 KOLOKACIJSKE TABELE + 3.5 PRIMJERI STATISTIČKIH PREGLEDA I TTR |
Povratak na The Bosnian Hibernating Bears Production Label
2. MATERIJALI I METODE
2.1 PROGRAMSKA PODRŠKATekstove smo pripremili za obradu u programskom alatu MonoConc Pro 2. 0 (Barlow, 2001) )vidi 3.2. Tabele su izvedene u MS EXEL ver. 7 (MS Exel 1997) |
2.4 PRIPREMA TEKSTA ZA KONKORDANCIJUIzrada kompjuterske konkordancije može se podijeliti u pet osnovnih dijelova:
Tekst učitavamo u Word 2. 0, i u slučaju da ne vidimo dijakritičke znakove pokrećemo Macro za konverziju kodnih tabela ( tabela 8852 u WIN CE ). Spasimo tekst kao Encoded text i izaberemo kodnu stranicu CE Windows. Ovim procesom sačuvaćemo sve dijakritičke znakove bosanskog, hrvatskog i srpskog jezika. Dobivena je datoteka sa ekstenzijom txt. Možemo pristupiti konkordanciji.Prvo je potrebno sačiniti probno konkordiranje. Pokrećemo program MonoConc Pro 2. 0. Učitavamo datoteku FILE / LOAD CORPUS. Tekst je učitan u program.
|
3 IZVOĐENJE KONKORDANCIJEIzvodimo konkordanciju CONCORDANCE / SEARCH / TEXT SEARCH / * .
Nakon izvjesnog vremena program je stvorio konkordancijsku listu, koja odgovara originalnom rasporedu stranica. Na listi provjeravamo da li paginacija na listi originala odgovara paginaciji na listi INDEXA. Ukoliko ovaj raspored ne odgovara, vraćamo se na tekst i identificiramo grešku. Tekst se provjerava od početka i kada se greška pronađe i ispravi ponovo slijedi prethodna procedura.
Ovaj program nudi nekoliko izlaznih opcija INDEXA :
|
3. 1 Kompletna konkordancijska listaKompletna konkordancija izvodi se pomoću SORT / SEARCH TERM / *
Ukoliko želimo potpuni INDEX ključne riječi i prve riječi desnog konteksta naš zahtjev će izgledati ovako SORT / SEARCH TERM / FIRST RIGHT iz SORT menija. Također, možemo zahtijevati i potpuni INDEX ključne riječi i prve riječi iz lijevog konteksta jednostavnom zamjenom FIRST RIGHT/ FIRST LEFT.
Totalna ili kompletna konkordancija koristi se pri izradi rječnika. |
3.2 Fragmentarna konkordacijska listaFragmentarna konkordancija izvodi se ako je potrebno provjeriti upotrebu neke riječi, korijena riječi, slovo ili riječ u kontekstu sa CONCORDANCE / SEARCH.Tako na primjer CONCORDANCE / SEARCH / ljuba* rezultirat će svim riječima koje imaju taj korijen : v Vidimo da je moguće koristiti i određene wildcards , u ovom slučaju to je asteriks znak *. Ovakve INDEXE nismo radili jer se oni izvode interaktivno. Naredna tabela jeste segment (riječ "riječ") potpunog konkordacijskog indeksa sabranih pjesama Mila Stojića |
|
P163, L22:14003. ... počasnoj loži akademije nauka i umjetnosti/ i upravo uzima [riječ] a svečanoj sjednici/ posvećenoj junaštvu unuka// iz koj ... P106, L13:14004. ... ku večer/ kad pili smo rakiju i s tugom u glasu izgovarali [riječ]/ domovina, sluteći tamu. Na prozorskim oknima/ bubnjali s ... P161, L9:14005. ... nski natpisi/ s kojih nas dvojica ne razumijemo niti jednu [riječ]// Ja pokušavam slijediti Draginu misao: mijenjaju se/ p ... P24, L13:14006. ... , poput mlade dojke, poput uspomene./ Tvoje tijelo postaje [riječ] koja te ostavlja.// Dok zanosna bonaca smrti uvlači se u ... P28, L16:14007. ... a?// Uporno tražiti o starom (o bosonogom/ djetinjstvu) [riječ] koja je prava/ Srce je strijela zapretana: jurnut/ u pust ... P11, L11:14008. ... a vremena// Od svih riječi otajstva mi razumijemo samo/ [riječ] kruh, ona prianja za nepce/ mi čujemo samo poziv mladićima ... P31, L10:14009. ... / vraćati se, Zatim/ napajati se mrkom tintom// Ako je [riječ] opoj, nije li lažna/ njena prisutnost ponad tamnih voda/ ... P193, L11:14010. ... rijeke tekle su kako su tekle// Priznajem da sam tražio [riječ] pouzdanu kao izvor, vjernu poput sjećanja/ Zanemarujući pa ... P42, L6:14011. ... nejasna pismena, koji schliemann/ hoće opovrgnuti konačnu [riječ] što napisa je/ kronos? čemu vjerovati? konjskim lubanjama ... P213, L5:14012. ... eljene radosti/ Ja nervozno pušim cigaretu i javljam se za [riječ]: Svaka čast Heideggeru/ ali, ja vrlo dobro znadem što je p ... P21, L11:14013. ... a mladićskim maro snima/ još prije rođenja, da si bezimena [riječ]/ ubrizgana u krv mladih pastuha kao/ preventiva protiv pr ... P101, L11:14014. ... ne / Češalj je pokupio svilu, sirene alkohola zovu/ Teška [riječ] zastala je između jezika i nepca/ Jedan pas izlazi iza ugl ... |
3.3 Tabela učestalosti riječiIzvođenje tabela frekvencije riječi i izvođenje frekvencijskog rječnika.
Frekvencijski rje čnik podrazumijeva tzv. vertikalno organizovanje riječi i takvo rangovanje koje dozvoljava da se vrši analiza osobina teksta uz pomoć razvrstavanja tipova riječi prema njihovoj učestalosti (Plavšić,1978).
|
3.4 Kolokacijske tabeleMožemo ispitati desni i lijevi kontekst određene riječi do dva mjesta desno i lijevo. Na narednoj tabeli prikazana je kolokacija riječi "RIJEČ" iz konkordancije poezije Mila Stojića. Jedan od stihova koji se nalazi u ovoj tabeli je "Tijelo postaje riječ koja te " odnosno "... glasu / Izgovarali riječ domovina sluteći"
|
Word: riječ
1 glasu 1 izgovarali 2 koja 2 je 1 niti 1 jednu 1 Ja 1 pokušavam 1 zovu 1 Teška 1 domovina 1 sluteći 1 opovrgnuti 1 konačnu 1 zastala 1 napisa 1 sam 1 tražio 1 pouzdanu 1 kao 1 upravo 1 uzima 1 a 1 svečanoj 1 se 1 za 1 Svaka 1 čast 1 razumijemo 1 samo 1 kruh 1 ona 1 si 1 bezimena 1 ubrizgana 1 u 1 Ako 1 je 1 što 1 nije 1 bosonogom 1 djetinjstvu 1 opoj 1 te 1 tijelo 1 postaje |
|
Takođe možemo proizvesti rječnik sastavljen od dvije, tri ili četiri riječi zajedno. Na narednoj tabeli je primjer kolokacije riječi "RIJEČI" iz konkordancije poezije Mila Stojića. |
Advanced Collocation - 0, 1R, 2R 3 riječi kao mrtvi 1 riječi skamenjena muzika 1 riječi ruzoprsta bezglavo 1 riječi razbojnika u 1 riječi što frca 1 riječi smišljajući pohvalu 1 riječi slijepca bivaju 1 riječi proroka amosa 1 riječi poskoka što 1 riječi plešu oko 1 riječi piscima komunističkih 1 riječi pozauna sternschnuppen 1 riječi predanja da 1 riječi prazne plešu 1 riječi pravim male 1 riječi što ih 1 riječi vitlaš maramom 1 riječi više nemaju 1 riječi veličajući prizore 1 riječi zahvalnosti za 1 riječi zvonjava u 1 riječi zvona i 1 riječi zvati ljubavlju 1 riječi trgovca u 1 riječi su imale 1 riječi su bile 1 riječi učinio nas 1 riječi uzmite i 1 riječi uspostavljaju obrise 1 riječi upotrebljavao olako 1 riječi par dobrih 1 riječi hrle u 1 riječi dok koračamo 1 riječi da te 1 riječi hvataš odbljeske 1 riječi kao smrt 1 riječi kao kuršumi 1 riječi im pamtimo 1 riječi autocesta bi 1 riječi antologija 2 1 riječi ali razumijem 1 riječi bile ekrazit 1 riječi cvit nedilja 1 riječi čekaonica iskazane 1 riječi canis što 1 riječi koja se 1 riječi nisu mnogo 1 riječi nikog ne 1 riječi naš govor 1 riječi njihova tijela 1 riječi ovo nema 1 riječi otajstva mi 1 riječi od tvojih 1 riječi koliko su 1 riječi koje nosi 1 riječi koje bolestan 1 riječi kovitlaci prašine 1 riječi možda si 1 riječi luka je 1 riječi kuća je |
|
Konkordancijski INDEX objektivno generiše sve riječi. Njegovo korištenje je mnogostruko. Mogu se praviti rječnici za bilo koja lingvistička, stilistička, književna ili kritička istraživanja, uključujući i statistiku korištenja i pravljenja frekvencijskih rječnika jednog jezika. Program ima opciju da nasloži tekst jedan na drugi. |
|
Prvih stotinu najfrekventnijih riječi u nekoliko korpusa. Semi logorimamski prikaz (Za detalje - Klikni na sliku - Povratak klikni tipku BACK) Prvih stotinu najfrekventnijih riječi u nekoliko korpusa. Log-log Rang distribucija (Za detalje - Klikni na sliku - Povratak klikni tipku BACK) |
3.5 PRIMJERI STATISTIČKIH PREGLEDA I TTRJedan od odnosa među riječima u jednom djelu koji se pomoću računara vrlo lako utvrđuje je takozvani TTR odnos (Type-Token Ratio ), odnos između broja različitih riječi i ukupnog broja riječi u djelu (Jovanović,1978). Ovim odnosom izražava se bogatstvo rječnika jednog pisca. Konkordancije koje su urađene u ovom radu imaju upravo tu svrhu, da pokažu bogatstvo rječnika, te da materijal koji je obrađen ovom prilikom bude podsticaj drugim studentima i naučnim radnicima u daljem radu na stilističkim istraživanjima. |
|
broj |
ukupan |
ukupno |
riječi |
|
| Avdo Karabegović Hasanbegov | 9.877 |
32.855 |
3.326415 | 0.300624 |
| Mile Stojić | 9.266 | 20.152 | 2.174833 | 0.459805 |
| Nura Bazdulj - Hubijar | 13.356 | 47.623 | 3.565663 | 0.280453 |
| Hajrudin Ramadan | 11.071 | 31.379 | 2.834342 | 0.352816 |
| Tvrtko Kulenović | 18.816 | 70.087 | 3.724862 | 0.268466 |
|
Kumulativna distribucija riječi kao prikaz ranga (x osa) i kumulativnog broja (y osa). Frekvencije upotrebe riječi kod pjesnika Avde Karabegovića Hasanbegova i Mila Stojića imaju različite karakteristike. (Za detalje - Klikni na sliku - Povratak klikni tipku BACK) Kumulativna distribucija riječi kao log-log prikaz ranga (x osa) i kumulativnog broja (y osa). (Za detalje - Klikni na sliku - Povratak klikni tipku BACK) Distribucija riječi kao log-log prikaz ranga (x osa) i apsolutnoe frekvencije riječi (y osa). (Za detalje - Klikni na sliku - Povratak klikni tipku BACK) |
|
Navest ćemo primjer konkordancije J. Joyceovog “ Uliksa “ koju je napravio M. L. Hanley . J. Joyce u svom djelu upotrebljava 29. 000 različitih riječi(Jovanović,1978). Na ovaj odnos utječe, prije svega, dužina teksta - što je tekst duži sve više riječi ima priliku da se ponovi i na taj način smanji odnos. Na vrijednost TTR odnosa utječe i odnos broja funkcionalnih riječi i riječi sadržaja u tekstu. Funkcionalne riječi su one čiji je broj u jeziku stalan, nepromjenjiv. To su zamjenice, prijedlozi, modalni i pomoćni glagoli, neki prilozi i riječi kao da, ne, li itd.Statističko ispitivanje riječi u jeziku koristi se i za određivanje autorstva i određivanje vremenskog perioda u kome je djelo nastalo. Za utvrđivanje autorstva, ili da bi se pokazalo da neko djelo nije rad određenog autora, potrebno je izdvojiti jednu ili nekoliko stilističkih ili jezičkih konstanti kod jednog autora. Zatim, utvrditi njihov broj kod oba autora i onda taj isti postupak primijeniti i na tekst. Upoređivanjem dobijenih rezultata može se sa dosta vjerovatnoće odrediti kojem autoru dati tekst pripada. Na ovaj način utvrđeno je da Marko Marulić nije autor Firentinskog zbornika i da se Petru Kočiću ne može pripisati autorstvo četiri teksta pod zajedničkim naslovom “ Slike iz stare Srbije i Maćedonije “(Jovanović,1978).Jezičke jedinice duže od riječi manje su ispitivane pomoću računara, ne zato što su manje važne zato što ih je mnogo teže formalno definirati i zato što je za njihovu obradu potrebno koristiti i neki gramatički model jezika koji se ispituje. Više o ovome u zborniku "Kompjuterska obrada lingvističkih podataka” (Šipka, ur., 1978) |
4. ZAKLJUČAKNa kraju pogledajmo kako izgledaju realizirani konkordancijski indeksi u odnosu na polazne tekstove. Tako će, na primjer roman AMANET Nure Bazdulj - Hubijar - koji ima blizu 48.000 riječi na 172 štampane stranice - proizvesti konkordanciju veliku 3.400 stranica A4 formata. |
|
stranica |
ukupan |
doc. |
stranica |
|
| Avdo Karabegović Hasanbegov | 170 (rukopis) |
32.855 |
13.429 | 2.249 |
| Mile Stojić | 229 | 20.152 | 8.805 | 1.549 |
| Nura Bazdulj - Hubijar | 172 | 47.623 | 20.554 | 3.415 |
| Hajrudin Ramadan | 169 | 31.379 | 12.316 | 2.608 |
| Tvrtko Kulenović | 178 | 70.087 | 27.050 | u pripremi |
|
Svi konkordacijski indexi nalaze se na CD-u. U Bosni i Hercegovini interes za konkordanciju javlja se javlja se 1977.godine.Organizovan je naučni skup “Kompjuterska obrada lingvističkih podataka - dosadašnji rezultati,potrebe i perspektive”,koji je održan u Sarajevu 9.i10. decembra 1977.,u organizaciji Odjeljenja za jezik Instituta za jezik i književnost u Sarajevu.S obzirom da se radi o samom početku primjene kompjuterske konkordancije,na ovom naučnom skupu data je prednost modernoj tehnologiji rada u ovoj oblasti. U ovom diplomskom radu pokazali smo da možemo uraditi konkordanciju na različitim književnim formama : drama, poezija, roman .Ovo može poslužiti kao polazna tačka za ispitivanje cjelokupne bosanskohercegovačke književnosti.Gotovi konkordancijski indeksi mogu se deponovati u Institut za jezik,Muzej književnosti i ostale ustanove takvog profila.Potrebno je sačiniti konkordancije za sva prošla i buduća djela bosanskohercegovačke književnosti koja će nastati,a koja će na savremen način (u formi CD-a, DVD-a) dati sliku o našoj kinjiževnoj i kulturnoj baštini,bogastvu našeg književnog jezika. Konkordancijski indeksi mogu se brzo pretražiti,a time dobiti i više informacija o frekvenciji riječi ,kolokaciji jedne ili više riječi i sl. Nadamo se da će naš rad pobuditi interes zainteresiranih istraživača za upotrebu kompjuterskih programa za proizvođenje konkordancijskih indeksa književnosti. |
|
Bakaršić. Kemal 2002 Nepoznate pjesme Avde Karabegovića Hasanbegova - Novi Izraz, br. 16-17, ljeto-jeseno 2002, str. 158-168 Barlow, Michael Filipović Rudolf Jovanović,Mladen Kulenović Tvrtko Plavšić, Prvoslav Ramadan,Hajrudin Stojić,Mile Šipka, Milan ur |