Filozofski fakultet u Sarajevu
Odsjek za komparativnu književnost i bibliotekarstvo

Senija Zukić i Selma Dautefendić

KONKORDANCIJA BOSANSKOHERCEGOVAČKE KNJIŽEVNOSTI

Diplomski rad

Mentor: prof.dr.Kemal Bakršić Odbrana rada : 11.januar 2003.godine

+ 1. UVOD 

+ 2. MATERIJAL I METODE  + 2.1 PROGRAMSKA PODRŠKA2.2. MATERIJAL  + 2.3. OZNAČAVANJE TAKSTA ZA KONKORDANCIJU + 2.4 PRIPREMA TEKSTA ZA KONKORDANCIJU  

+ 3. IZVOĐENJE KONKORDANCIJE 3.1. KOMPLETNA KONKORDACIJSKA LISTA  + 3.2. FRAGMENTARNA KONKORDACIJSKA LISTA  3.3. TABELA UČESTALOSTI RIJEČI3.4 KOLOKACIJSKE TABELE + 3.5 PRIMJERI STATISTIČKIH PREGLEDA I TTR 

+ 4. ZAKLJUČAK + LITERATURA

 Povratak na The Bosnian Hibernating Bears Production Label

1. UVOD

Programske mogućnosti koje se danas nude veoma su popularne u izučavanju jezika, lingvističkim istraživanjima i u procesu govornog jezika. U okviru ovih različitih metoda, akcenat se stavlja na pronalaženje i korištenje primjera i struktura prisutnih u tekstu, koje pomoću alata za analizu ukazuju na slikovitost teksta. Inače, konkordancija je latinska riječ koja ima sljedeća značenja :

  • slaganje, podudaranje;
  • popis riječi s naznakom mjesta na kojima se ponavljaju unekom djelu; konkordantan - koji se slaže, podudara, saglasan.

Programska podrška za konkordanciju nudi:

  • kompletnu konkordancijsku listu (potpuni indeks ključne riječi i prve riječi desnog konteksta);
  • fragmentarnu konkordacijsku listu (služi za provjeru upotrebe neke riječi, korijena riječi, slova ili riječi u kontekstu);
  • tabelu riječi prema abecedi i frekvenciji, te
  • rezultate kolokacije kao i rječnika kolokacije.

Prilikom ovakvih ispitivanja potrebno je odrediti i definirati parametre proučavanja. Najprostije jezičke jedinice koje je moguće podvrgnuti statističkom proučavanju su glasovi jednog jezika i odnosi među njima. Vrlo često je ispitivan odnos samoglasnika i suglasnika u različitim jezicima. Podaci o učestalosti pojedinih glasova koriste se za sastavljanje Morzeove abecede, za određivanje rasporeda slova na tastaturi pisaće mašine, u stenografiji i kao pomoć prilikom dešifriranja (Filipović,1970).

Riječi su jezičke jedinice, parametri, koji su najčešće podvrgavani statističkim ispitivanjima pomoću računara. Razlog za to je njihov značaj za jezik.

U ovim ispitivanjima konkordancije, naši parametri su riječi a vršeno je statističko - stilističko proučavanje pojedinih književnih djela.

Numerički, statistički prilaz proučavanju jezika nije nov. Još su u 4. stoljeću prije naše ere Panini i njegovi sljedbenici u Indiji prebrojavali su slogove, riječi i stihove u svojim svetim knjigama (Jovanović,1978) , ali su tek razvoj statistike i lingvistike, kao i pojava teorije informacija i elektronskih računara dali potrebnu naučnu osnovu i tehnologiju te tako stvorili uslove za razvoj statističke lingvistike.

Statistika je riječ grčkog porijekla i označava skup činjenica ili podataka, izraženih u brojkama, sređenih i tabelarno prikazanih tako da pružaju značajne informacije o određenom predmetu ili pojavi. Kao naučna disciplina statistika je našla široku upotrebu u matematičkim naukama, a početkom 20. stoljeća prodire u sve naučne oblasti pa i u nauku o jeziku (Jovanović,1978).

Statistička lingvistika bavi se proučavanjem općih statističkih i matematičkih zakonitosti i odnosa koji postoje u jeziku kao sistemu za sporazumijevanje među ljudima. Iz statističke lingvistike kasnije se izdvaja, kao njen logičan nastavak, statistička stilistika. Statistička stilistika koristi se podacima opće lingvistike, statističke lingvistike, teorije informacija, psiholingvistike, psihologije i drugih srodnih disciplina u proučavanju jezika i stila književnih djela. Njen zadatak je da pruži objektivni opis stila odnosno načina kojim se jedan autor služi izražajnim sredstvima jezika.(Jovanović,1978)

 

2. MATERIJALI I METODE

 

2.1 PROGRAMSKA PODRŠKA

Tekstove smo pripremili za obradu u programskom alatu MonoConc Pro 2. 0 (Barlow, 2001) )vidi 3.2. Tabele su izvedene u MS EXEL ver. 7 (MS Exel 1997)

 

2.2 MATERIJAL

Da bismo testirali program konkordancije, uzeli smo elektronske kopije bosanskohercegovačke književnosti od izdavačke kuće Bosanska knjiga. Ovom prilikom zahvaljujemo se g. Gavrilu Grahovcu, bivšem direktoru Bosanske knjige koji nam je ustupio elektronske kopije izdanja za potrebe ovog diplomskog rada.

Izabrali smo različite žanrove (poezija, drama, roman i pripovijetka) i dužine tekstova.

AMANET - roman Nure Bazdulj-Hubijar (Hubijar 1999 )

Roman ima 172 strana, nema naziva poglavlja, tako da nisam koristila tagove za: uključivanje naslova <SP> i isključivanje naslova </SP>. Kraj strane romana označavala sam sa <page>. Ukoliko bi se neka riječ lomila na kraju jedne i početku druge strane, od mene je zavisilo na koju ću stranu staviti tu riječ, ali da budem dosljedna toga.

Elektronska kopija romana "Amanet" Nure Bazdulj-Hubijar u potpunosti je odgovarala štampanom primjerku, tako da nisam imala nikakvih problema u iščitavanju djela i njegovom obilježavanju. Za ovo mi je bilo potrebno oko deset sati efektivnog rada. Broj konkordancijskih indexa ovog romana dat je u tabeli koja se nalazi na CD-u. On je ogroman u odnosu na broj strana štampanog djela.

ULOGA SARAJEVA - zbirka kratkih priča Hajrudina Ramadana (Ramadan 1999)

‘Uloga Sarajeva" je zbirka priča koja se sastoji od 169 strana i 47 kratkih priča. Tagove <SP> i </SP> koristila sam za uključivanje i isključivanje naslova u procesu konkordancije. Prelome strana obilježavala sam sa <page>. Elektronska kopija u potpunosti je odgovarla originalnom primjerku djela, tako da nisam imala poteškoća u iščitavanju i obilježavanju priča.

PJESME AVDE KARABEGOVIĆA - HASANBEGOVA - nepublicirani rukopis (Bakaršić, 2002)

Ono što je vezano za pjesme Avde Karabegovića jeste da se radi o rukpisnoj verziji koju je prof. dr. Kemal Bakaršić pronašao i prekucao na kompjuter. Avdo Karabegović je bio pjesnik iz Modriče, koji je veoma mlad umro. Uz pjesme nalazile su se i bilješke Svetozara Ćorovića. Ja sam radila samo na elektronskoj kopiji nakojoj su se, takođe, nalazile te bilješke. Međutim, njih nisam uzimala u obzir u procesu konkordancije, jer to ne spada u originalni rad pjesnika. Za uključivanje i isključivanje naslova pjesama koristila sam tagove <SP> i :<SP>. Kraj stiha obilježavala sam sa znakom / , a kraj strofe sa znakom // .

JESENJA VIOLINA - roman Tvrtka Kulenovića (Kulenović, 1999)

Ovaj roman sastoji se od … dijelova od kojih svaki nosi svoj zaseban naslov u okviru cjeline romana. Roman sadrži …. stranica. Za tagiranje ove tekstualne instance bilo je potrebno 20 sati efektivnog rada. Najveći problem bilo je to što su prve dvije elektronske verzije mnogo odstupale od štampanog originala pa je bilo besmisleno i bezvrijedno raditi konkordanciju na takvom tekstu. Tek je treća elektronska verzija odgovarala štampanoj verziji i ona je pripremljena za obradu u MonoConc Pro 2. 0. Ukoliko je neka riječ lomljena odnosno njen početak se nalazio na jednoj stranici a kraj na drugoj, takva riječ je prebacivana na slijedeću stranicu u cijelosti, bez lomljenja. Korišteni su tagovi za isključenje naslova <SP>i :</SP> i za paginaciju teksta <page>.

U MRAKU - Svetozar Ćorović, nepublicirana drama

Ova drama je nepublikovano djelo. Tekst drame pronašao je K. Bakaršić u Zemaljskom muzeju Bosne i Hercegovine (Bakaršić, 1994) Drama se sastoji se iz tri čina. Sadrži …stranica teksta. Iako je obimom mnogo manja od romana Jesenja violina Tvrtka Kulenovića, drama je zahtijevala isto toliko rada jer su se u drami iz teksta morala isključiti sva imena govornika. Nije bilo nikakvih većih problema u toku pripreme teksta za program. Korišteni su tagovi za isključenje govornika <SP> i </SP> i za paginaciju teksta <page>.

NAKON SUDNJEG DANA - zbirka poezije Mileta Stojića (Stojić, 1999)

Zbirka pjesama Mileta Stojića sadrži …pjesama na…stranica. Problem sa elektronskom verzijom ove zbirke je što je ona sadržavala četiri pjesme više nego štampana verzija. To su pjesme Bit će bolje, … Također, nekim pjesmama su izmijenjeni i naslovi. Takav slučaj je sa pjesmama Govori Petrus: jadikovka koja je promijenila naslov u Nikad ne reci nikad, zatim Epigraf u Četrdesete, ljubavna i Govori Peter: kažu da lijepe i pametne. Neke pjesme sadržavale su posvete i epigrafe ali ti dijelovi teksta su isključeni iz obrade tagovima za isključivanje. Korišteni su tagovi za označavanje kraja stiha /, za označavanje kraja strofe //, za paginaciju teksta <page> i za isključivanje naslova, epigrafa i posveta <SP> i </SP>

 

2.3 OZNAČAVANJE TEKSTA ZA KONKORDANCIJU

Kada je korpus pohranjen, MonoConc Pro 2. 0 zahtijeva određeno preprocesiranje fajlova korpusa, upotrebljavajući COLLECT TAG INFORMATION. Ovaj proces omogućava upotrebu informacije o formi tagova ubačenih u TAG SETTINGS. Kako nema jedinstvenog, konvencionalnog načina označavanja tagova, potrebno je reći programu format tagova upotrijebljenih u korpusu. Kada je to jednom urađeno, program je sposoban razlikovati tagove od samog teksta, što olakšava analiziranje korpusa. Rezultati ovog procesa preprocesiranja pohranjeni su na hard disku. COLLECT TAG INFORMATION automatski se uključuje kad god se pohrani neki korpus. Da bismo postavili formu tagova, otvaramo TAG SETTINGS iz FILE menija i odabiremo opciju NORMAL TAGS. Najvažnije komponente koje je potrebno identifikovati su TAG START (<) i TAG STOP (>) simboli. Kada je jednom ova informacija ubačena i COLLECT TAG INFORMATION pokrenut, MonoConc Pro 2. 0 će razlikovati tagove od teksta korpusa.

U našem radu smo koristili slijedeće tagove koji služe za različite opcije:

<SP> oznaka za obilježavanje imena govornika ili naslova i stavlja se na početku;

</SP> oznaka za obilježavanje imena govornika ili naslova i stavlja se na kraju;

<page> oznaka kraja stranice;

/  oznaka za razdvajanje stiha;

// oznaka za razdvajanje strofe

MS Word dokumenti transportirani su iz QuarkExpres formata, manualno su raspoređeni. Tekst je manualno tagiran. Štampani original je najbitniji za konkordanciju, jer se pokazalo da elektronske kopije koje smo dobili od izdavačke kuće imaju nekih grešaka ( pravopisne greške, broj stranica nije podudaran, neki dijelovi teksta se nalaze na elektronskoj kopiji dok ih u štampanom originalu nema, promijenjeni naslovi pojedinih tekstova u štampanom originalu u odnosu na elektronsku kopiju ).

Veoma ozbiljno smo izabrali djela različitih žanrova, različitih autora, vremenskog perioda. Ono što treba napomenuti je da se ovdje radi o uzorcima različitih žanrova a ne o primjerima bosanskohercegovačke književnosti.

 

2.4 PRIPREMA TEKSTA ZA KONKORDANCIJU

Izrada kompjuterske konkordancije može se podijeliti u pet osnovnih dijelova:

  • Utvrđivanje teksta i korpusa;
  • Ispravak formalnih grešaka, tj. grešaka koje se mogu otkloniti pomoću kompjutera;
  • Ispravak logičkih grešaka, tj. grešaka koje se mogu otkloniti samo vizuelnom kontrolom ispisa dobivenih pomoću kompjutera i osnovnog teksta;
  • Oblikovanje za štampanje konačne verzije teksta;
  • Obrada konačnog teksta u oblik konkordancije.

Tekst učitavamo u Word 2. 0, i u slučaju da ne vidimo dijakritičke znakove pokrećemo Macro za konverziju kodnih tabela ( tabela 8852 u WIN CE ). Spasimo tekst kao Encoded text i izaberemo kodnu stranicu CE Windows. Ovim procesom sačuvaćemo sve dijakritičke znakove bosanskog, hrvatskog i srpskog jezika. Dobivena je datoteka sa ekstenzijom txt. Možemo pristupiti konkordanciji.

Prvo je potrebno sačiniti probno konkordiranje. Pokrećemo program MonoConc Pro 2. 0. Učitavamo datoteku FILE / LOAD CORPUS. Tekst je učitan u program.

 

3 IZVOĐENJE KONKORDANCIJE

Izvodimo konkordanciju CONCORDANCE / SEARCH / TEXT SEARCH / * .

 Nakon izvjesnog vremena program je stvorio konkordancijsku listu, koja odgovara originalnom rasporedu stranica. Na listi provjeravamo da li paginacija na listi originala odgovara paginaciji na listi INDEXA. Ukoliko ovaj raspored ne odgovara, vraćamo se na tekst i identificiramo grešku. Tekst se provjerava od početka i kada se greška pronađe i ispravi ponovo slijedi prethodna procedura.

Ovaj program nudi nekoliko izlaznih opcija INDEXA :

  • kompletnu konkordancijsku listu

  • fragmentarnu konkordancijsku listu ( riječ ili slovo )

  • tabelu učestalosti riječi (prema abecedi i prema frekvenciji )

  • moguće je dobiti rezultate kolokacija kao i rječnik kolokacija

 

3. 1 Kompletna konkordancijska lista

Kompletna konkordancija izvodi se pomoću SORT / SEARCH TERM / *  

Ukoliko želimo potpuni INDEX ključne riječi i prve riječi desnog konteksta naš zahtjev će izgledati ovako SORT / SEARCH TERM / FIRST RIGHT iz SORT menija. Također, možemo zahtijevati i potpuni INDEX ključne riječi i prve riječi iz lijevog konteksta jednostavnom zamjenom FIRST RIGHT/ FIRST LEFT.

Totalna ili kompletna konkordancija koristi se pri izradi rječnika.

 

3.2 Fragmentarna konkordacijska lista

Fragmentarna konkordancija izvodi se ako je potrebno provjeriti upotrebu neke riječi, korijena riječi, slovo ili riječ u kontekstu sa CONCORDANCE / SEARCH.

Tako na primjer CONCORDANCE / SEARCH / ljuba* rezultirat će svim riječima koje imaju taj korijen :

  • ljubav
  • ljubavno
  • ljubavnik
  • ljubavnica
  • ljubavlju

Vidimo da je moguće koristiti i određene wildcards , u ovom slučaju to je asteriks znak *. Ovakve INDEXE nismo radili jer se oni izvode interaktivno.

Naredna tabela jeste segment (riječ "riječ") potpunog konkordacijskog indeksa sabranih pjesama Mila Stojića 

P163, L22:14003. ... počasnoj loži akademije nauka i umjetnosti/ i upravo uzima [riječ] a svečanoj sjednici/ posvećenoj junaštvu unuka// iz koj ...

P106, L13:14004. ... ku večer/ kad pili smo rakiju i s tugom u glasu izgovarali [riječ]/ domovina, sluteći tamu. Na prozorskim oknima/ bubnjali s ...

P161, L9:14005. ... nski natpisi/ s kojih nas dvojica ne razumijemo niti jednu [riječ]// Ja pokušavam slijediti Draginu misao: mijenjaju se/ p ...

P24, L13:14006. ... , poput mlade dojke, poput uspomene./ Tvoje tijelo postaje [riječ] koja te ostavlja.// Dok zanosna bonaca smrti uvlači se u ...

P28, L16:14007. ... a?// Uporno tražiti o starom (o bosonogom/ djetinjstvu) [riječ] koja je prava/ Srce je strijela zapretana: jurnut/ u pust ...

P11, L11:14008. ... a vremena// Od svih riječi otajstva mi razumijemo samo/ [riječ] kruh, ona prianja za nepce/ mi čujemo samo poziv mladićima ...

P31, L10:14009. ... / vraćati se, Zatim/ napajati se mrkom tintom// Ako je [riječ] opoj, nije li lažna/ njena prisutnost ponad tamnih voda/ ...

P193, L11:14010. ... rijeke tekle su kako su tekle// Priznajem da sam tražio [riječ] pouzdanu kao izvor, vjernu poput sjećanja/ Zanemarujući pa ...

P42, L6:14011. ... nejasna pismena, koji schliemann/ hoće opovrgnuti konačnu [riječ] što napisa je/ kronos? čemu vjerovati? konjskim lubanjama ...

P213, L5:14012. ... eljene radosti/ Ja nervozno pušim cigaretu i javljam se za [riječ]: Svaka čast Heideggeru/ ali, ja vrlo dobro znadem što je p ...

P21, L11:14013. ... a mladićskim maro snima/ još prije rođenja, da si bezimena [riječ]/ ubrizgana u krv mladih pastuha kao/ preventiva protiv pr ...

P101, L11:14014. ... ne / Češalj je pokupio svilu, sirene alkohola zovu/ Teška [riječ] zastala je između jezika i nepca/ Jedan pas izlazi iza ugl ...

 

3.3 Tabela učestalosti riječi

Izvođenje tabela frekvencije riječi i izvođenje frekvencijskog rječnika.

Frekvencijski rječnik podrazumijeva tzv. vertikalno organizovanje riječi i takvo rangovanje koje dozvoljava da se vrši analiza osobina teksta uz pomoć razvrstavanja tipova riječi prema njihovoj učestalosti (Plavšić,1978).

RANG FREKVENCIJA

KUMULATIVNA
FREKVENCIJA

RIJEČ

1 559 559 u
2 464 1023 i
3 434 1457 je
4 394 1851 se
5 276 2127 na
6 250 2377 da
7 218 2595 što
8 201 2796 su

 

3.4 Kolokacijske tabele

Možemo ispitati desni i lijevi kontekst određene riječi do dva mjesta desno i lijevo. Na narednoj tabeli prikazana je kolokacija riječi "RIJEČ" iz konkordancije poezije Mila Stojića. Jedan od stihova koji se nalazi u ovoj tabeli je "Tijelo postaje riječ koja te " odnosno "... glasu / Izgovarali riječ domovina sluteći"

 

Word: riječ
1 glasu		1 izgovarali	2 koja		2 je
1 niti		1 jednu		1 Ja		1 pokušavam
1 zovu		1 Teška		1 domovina	1 sluteći
1 opovrgnuti	1 konačnu	1 zastala	1 napisa
1 sam		1 tražio	1 pouzdanu	1 kao	
1 upravo	1 uzima		1 a		1 svečanoj	
1 se		1 za		1 Svaka		1 čast	
1 razumijemo	1 samo		1 kruh		1 ona	
1 si		1 bezimena	1 ubrizgana	1 u	
1 Ako		1 je		1 što		1 nije	
1 bosonogom	1 djetinjstvu	1 opoj		1 te	
1 tijelo	1 postaje			

Takođe možemo proizvesti rječnik sastavljen od dvije, tri ili četiri riječi zajedno. Na narednoj tabeli je primjer kolokacije riječi "RIJEČI" iz konkordancije poezije Mila Stojića.

Advanced Collocation - 0, 1R, 2R
3 riječi kao mrtvi
1 riječi skamenjena muzika
1 riječi ruzoprsta bezglavo
1 riječi razbojnika u
1 riječi što frca
1 riječi smišljajući pohvalu
1 riječi slijepca bivaju
1 riječi proroka amosa
1 riječi poskoka što
1 riječi plešu oko
1 riječi piscima komunističkih
1 riječi pozauna sternschnuppen
1 riječi predanja da
1 riječi prazne plešu
1 riječi pravim male
1 riječi što ih
1 riječi vitlaš maramom
1 riječi više nemaju
1 riječi veličajući prizore
1 riječi zahvalnosti za
1 riječi zvonjava u
1 riječi zvona i
1 riječi zvati ljubavlju
1 riječi trgovca u
1 riječi su imale
1 riječi su bile
1 riječi učinio nas
1 riječi uzmite i
1 riječi uspostavljaju obrise
1 riječi upotrebljavao olako
1 riječi par dobrih
1 riječi hrle u
1 riječi dok koračamo
1 riječi da te
1 riječi hvataš odbljeske
1 riječi kao smrt
1 riječi kao kuršumi
1 riječi im pamtimo
1 riječi autocesta bi
1 riječi antologija 2
1 riječi ali razumijem
1 riječi bile ekrazit
1 riječi cvit nedilja
1 riječi čekaonica iskazane
1 riječi canis što
1 riječi koja se
1 riječi nisu mnogo
1 riječi nikog ne
1 riječi naš govor
1 riječi njihova tijela
1 riječi ovo nema
1 riječi otajstva mi
1 riječi od tvojih
1 riječi koliko su
1 riječi koje nosi
1 riječi koje bolestan
1 riječi kovitlaci prašine
1 riječi možda si
1 riječi luka je
1 riječi kuća je

Konkordancijski INDEX objektivno generiše sve riječi. Njegovo korištenje je mnogostruko. Mogu se praviti rječnici za bilo koja lingvistička, stilistička, književna ili kritička istraživanja, uključujući i statistiku korištenja i pravljenja frekvencijskih rječnika jednog jezika. Program ima opciju da nasloži tekst jedan na drugi.

 

Prvih stotinu najfrekventnijih riječi u nekoliko korpusa. Semi logorimamski prikaz 

(Za detalje - Klikni na sliku - Povratak klikni tipku BACK)

Prvih stotinu najfrekventnijih riječi u nekoliko korpusa. Log-log Rang distribucija

(Za detalje - Klikni na sliku - Povratak klikni tipku BACK)

 

3.5 PRIMJERI STATISTIČKIH PREGLEDA I TTR

Jedan od odnosa među riječima u jednom djelu koji se pomoću računara vrlo lako utvrđuje je takozvani TTR odnos (Type-Token Ratio ), odnos između broja različitih riječi i ukupnog broja riječi u djelu (Jovanović,1978). Ovim odnosom izražava se bogatstvo rječnika jednog pisca. Konkordancije koje su urađene u ovom radu imaju upravo tu svrhu, da pokažu bogatstvo rječnika, te da materijal koji je obrađen ovom prilikom bude podsticaj drugim studentima i naučnim radnicima u daljem radu na stilističkim istraživanjima.

 

broj
različitih
oblika
riječi

ukupan
broj
riječi
u djelu

ukupno
 / riječi

riječi
 / ukupno

Avdo Karabegović Hasanbegov 9.877

32.855

3.326415 0.300624
Mile Stojić 9.266 20.152 2.174833 0.459805
Nura Bazdulj - Hubijar 13.356 47.623 3.565663 0.280453
Hajrudin Ramadan 11.071 31.379 2.834342 0.352816
Tvrtko Kulenović 18.816 70.087 3.724862 0.268466

 

Kumulativna distribucija riječi kao prikaz ranga (x osa) i kumulativnog broja (y osa). Frekvencije upotrebe riječi kod pjesnika Avde Karabegovića Hasanbegova i Mila Stojića imaju različite karakteristike. 

(Za detalje - Klikni na sliku - Povratak klikni tipku BACK)

Kumulativna distribucija riječi kao log-log prikaz ranga (x osa) i kumulativnog broja (y osa). 

(Za detalje - Klikni na sliku - Povratak klikni tipku BACK)

Distribucija riječi kao log-log prikaz ranga (x osa) i apsolutnoe frekvencije riječi (y osa). 

(Za detalje - Klikni na sliku - Povratak klikni tipku BACK)

Navest ćemo primjer konkordancije J. Joyceovog “ Uliksa “ koju je napravio M. L. Hanley . J. Joyce u svom djelu upotrebljava 29. 000 različitih riječi(Jovanović,1978). Na ovaj odnos utječe, prije svega, dužina teksta - što je tekst duži sve više riječi ima priliku da se ponovi i na taj način smanji odnos. Na vrijednost TTR odnosa utječe i odnos broja funkcionalnih riječi i riječi sadržaja u tekstu. Funkcionalne riječi su one čiji je broj u jeziku stalan, nepromjenjiv. To su zamjenice, prijedlozi, modalni i pomoćni glagoli, neki prilozi i riječi kao da, ne, li itd.

Statističko ispitivanje riječi u jeziku koristi se i za određivanje autorstva i određivanje vremenskog perioda u kome je djelo nastalo. Za utvrđivanje autorstva, ili da bi se pokazalo da neko djelo nije rad određenog autora, potrebno je izdvojiti jednu ili nekoliko stilističkih ili jezičkih konstanti kod jednog autora. Zatim, utvrditi njihov broj kod oba autora i onda taj isti postupak primijeniti i na tekst. Upoređivanjem dobijenih rezultata može se sa dosta vjerovatnoće odrediti kojem autoru dati tekst pripada. Na ovaj način utvrđeno je da Marko Marulić nije autor Firentinskog zbornika i da se Petru Kočiću ne može pripisati autorstvo četiri teksta pod zajedničkim naslovom “ Slike iz stare Srbije i Maćedonije “(Jovanović,1978).

Jezičke jedinice duže od riječi manje su ispitivane pomoću računara, ne zato što su manje važne zato što ih je mnogo teže formalno definirati i zato što je za njihovu obradu potrebno koristiti i neki gramatički model jezika koji se ispituje.

Više o ovome u zborniku "Kompjuterska obrada lingvističkih podataka” (Šipka, ur., 1978)

 

4. ZAKLJUČAK

Na kraju pogledajmo kako izgledaju realizirani konkordancijski indeksi u odnosu na polazne tekstove. Tako će, na primjer roman AMANET Nure Bazdulj - Hubijar - koji ima blizu 48.000 riječi na 172 štampane stranice - proizvesti konkordanciju veliku 3.400 stranica A4 formata. 

 

stranica
teksta
(publikacija)

ukupan
broj
riječi
u djelu

doc.
dokumen
u (KB)

stranica
teksta
konkordancije

Avdo Karabegović Hasanbegov 170
(rukopis)

32.855

13.429 2.249
Mile Stojić 229 20.152 8.805 1.549
Nura Bazdulj - Hubijar 172 47.623 20.554 3.415
Hajrudin Ramadan 169 31.379 12.316 2.608
Tvrtko Kulenović 178 70.087 27.050 u pripremi

Svi konkordacijski indexi nalaze se na CD-u.

U Bosni i Hercegovini interes za konkordanciju javlja se javlja se 1977.godine.Organizovan je naučni skup “Kompjuterska obrada lingvističkih podataka - dosadašnji rezultati,potrebe i perspektive”,koji je održan u Sarajevu 9.i10. decembra 1977.,u organizaciji Odjeljenja za jezik Instituta za jezik i književnost u Sarajevu.S obzirom da se radi o samom početku primjene kompjuterske konkordancije,na ovom naučnom skupu data je prednost modernoj tehnologiji rada u ovoj oblasti.

U ovom diplomskom radu pokazali smo da možemo uraditi konkordanciju na različitim književnim formama : drama, poezija, roman .Ovo može poslužiti kao polazna tačka za ispitivanje cjelokupne bosanskohercegovačke književnosti.Gotovi konkordancijski indeksi mogu se deponovati u Institut za jezik,Muzej književnosti i ostale ustanove takvog profila.Potrebno je sačiniti konkordancije za sva prošla i buduća djela bosanskohercegovačke književnosti koja će nastati,a koja će na savremen način (u formi CD-a, DVD-a) dati sliku o našoj kinjiževnoj i kulturnoj baštini,bogastvu našeg književnog jezika. Konkordancijski indeksi mogu se brzo pretražiti,a time dobiti i više informacija o frekvenciji riječi ,kolokaciji jedne ili više riječi i sl.

Nadamo se da će naš rad pobuditi interes zainteresiranih istraživača za upotrebu kompjuterskih programa za proizvođenje konkordancijskih indeksa književnosti.

 

 

LITERATURA

Bakaršić. Kemal
1994 Nepoznati Svetozar Ćorović. Bosanska vila (Sarajevo), 1994, sv. 1,, br. 1, str. 5-6 Preneseno u: Prosvjeta Narodni almanah (Sarajevo), 1996, str. 123-126

2002 Nepoznate pjesme Avde Karabegovića Hasanbegova - Novi Izraz, br. 16-17, ljeto-jeseno 2002, str. 158-168

Barlow, Michael
2001 Concordancing with MonoConc Pro.. ver. 2.0 . Athelstan, Hudson, Texas, Usa, 108 str.

Filipović Rudolf
1978 Jezični kropus i njegova kompjutorska obrada u službi kontrastivne analize U: Posebna izdanja Institut za jezik i književnost u Sarajevu, Odjejenje za jezik, knjiga 4, 1978, str. 9-21

Jovanović,Mladen
1978 Problemi i mogućnosti korišćenja računara za proučavanje jezika i stila književnih dela U: Posebna izdanja Institut za jezik i književnost u  Sarajevu, Odjejenje za jezik, knjiga 4, 1978, str. 85-99

Kulenović Tvrtko
1999 Jesenja violina. Šahinpašić, Sarajevo 1999

Plavšić, Prvoslav
1978 Leksičke i semantičke analize frekvencijskih rečnika TV dnevnika i TV drama. U: Posebna izdanja Institut za jezik i književnost u Sarajevu, Odjejenje za jezik, knjiga 4, 1978275-283

Ramadan,Hajrudin
1999 Uloga Sarajeva.Šahinpašić [etc].Sarajevo,169 str.

Stojić,Mile
1999 Nakon sudnjega dana.Šahinpašić[etc].Sarajevo, 228str.

Šipka, Milan ur
1978 Kompjuterska obrada … Posebna izdanja Institut za jezik i književnost u Sarajevu, Odjejenje za jezik, knjiga 4, 1978