Što je korpusna lingvistika?
Prije nekoliko desetljeća, znanstvenici su mogli samo sanjati o automatizaciji lingvističkog istraživanja. Rad je obavljen ručno, veliki broj studenata bio je uključen u njega, postojala je značajna vjerojatnost pogreške "nepažnjom", i što je najvažnije - sve je trebalo puno, puno vremena.
sadržaj
Razvojem računalne tehnologije postalo je moguće brže provoditi studije redoslijedom veličine, a danas jedno od najpoželjnijih područja u proučavanju jezika je korpusna lingvistika. Njegova glavna značajka je upotreba velikih količina tekstualnih informacija, kombiniranih u jedinstvenoj bazi podataka, posebno označene i nazvane tijelom.
Do danas postoji mnogo zgrada stvorenih za različite svrhe, na temelju različitih jezičnih materijala, od milijun do desetaka milijardi leksičkih jedinica. Ovaj smjer prepoznaje se kao obećavajuće i pokazuje značajan napredak u postizanju primijenjenih i ciljeva istraživanja. Stručnjaci koji se nekako bave prirodnim jezikom, preporučujemo da se upoznate s korpusom tekstova, barem na osnovnoj razini.
Povijest korpusne lingvistike
Formiranje ovog smjera povezano je s stvaranjem SAD-a u Brown corpsu početkom šezdesetih godina prošlog stoljeća. Zbirka tekstova sadržavala je samo 1 milijuna oblika riječi, a danas bi korpus ove veličine bio potpuno nekonkurentan. U velikoj mjeri, to je zbog brzine razvoja računalnih tehnologija, kao i sve većih zahtjeva za novim istraživačkim resursima.
U devedesetima je korpusska lingvistika formirana u punopravnu i neovisnu disciplinu, zbirke tekstova sastavljeno je i označeno na više desetaka jezika. Tijekom tog razdoblja, primjerice, britanski nacionalni korpus stvoren je za 100 milijuna korisnika.
Kako se ova lingvistika razvija, svezak tekstova postaje sve više (i dosegne milijarde jedinica vokabulara), a izgled postaje sve raznolikiji. Do danas, u prostoru Interneta, možete pronaći slučajeve pisanog i govornog govora, višejezičnog jezika i nastave, orijentiranog na umjetničku ili akademsku literaturu, kao i mnoge druge vrste.
Koje su tijela
Vrste slučajeva u kabinetskoj lingvistici mogu se iznijeti iz nekoliko razloga. Intuitivno, osnova za razvrstavanje mogu biti tekstualni jezik (ruski, njemački), pristup načinu rada (open source, zatvoreni, trgovački), žanr izvornog materijala (igrani, dokumentarni, akademski, novinarstvo).
Zanimljiv način je stvaranje materijala koji predstavljaju usmeni govor. Budući da bi namjerno snimanje takvog govora stvorilo umjetne uvjete za ispitanike, a rezultirajući materijal nije mogao biti nazvan "spontan", suvremena korpusna lingvistika imala je drugačiji put. Volonter je opremljen mikrofonom, a tijekom dana bilježe se svi razgovori u kojima sudjeluje. Naravno, ljudi koji okružuju, ne znaju da tijekom razgovora u kućanstvu doprinose razvoju znanosti.
Naknadno zaprimljene audio zapise spremaju se u bazu podataka i prate tiskani tekst prema vrsti transkripta. Dakle, moguće je obilježavanje stvoriti tijelo usmenog svakodnevnog govora.
primjena
Tamo gdje je moguća uporaba jezika, moguće je koristiti i tekstne kutije. Svrha primjene metoda trupa u lingvistiku može biti:
- Uspostaviti programe određivanja tona koji se aktivno koriste u politici i poslovanju za praćenje pozitivnih i negativnih odgovora od birača i korisnika.
- Povezivanje informacijskog sustava s rječnicima i prevoditeljima radi poboljšanja njihovog učinka.
- Razni istraživački zadaci koji pridonose razumijevanju strukture jezika, povijesti njegovog razvoja i predviđanja njegove promjene u bliskoj budućnosti.
- Razvoj sustava prikupljanja informacija temeljenih na morfološkim, sintaktičkim, semantičkim i drugim karakteristikama.
- Optimizacija rada različitih jezični sustavi i drugima.
Korištenje kućišta
Resursno sučelje slično je tipičnoj tražilici i traži od korisnika da unese riječ ili kombinaciju riječi za pretraživanje putem baze podataka. Pored točnog obrasca zahtjeva možete upotrijebiti proširenu verziju koja vam omogućuje pronalaženje tekstualnih informacija za gotovo sve jezične kriterije.
Osnova za pretraživanje može biti:
- pripadaju određenoj skupini dijelova govora;
- gramatički znakovi;
- semantike;
- stilskog i emocionalnog bojanja.
Također možete kombinirati kriterije pretraživanja za niz riječi, na primjer, kako bi pronašli sve pojave glagola u sadašnjem vremenu, prvom licu jednine, koja dolazi nakon prijedloga „u” i imenice u akuzativ. Rješenje takvog jednostavnog zadatka traje nekoliko sekundi za korisnika i zahtijeva samo nekoliko klikova u navedenim poljima.
Postupak stvaranja
Sama pretraga može se provesti i na svim podskupinama i na jednom, posebno odabranom, ovisno o potrebama postizanja određenog cilja:
- Prije svega, određuje se koji će tekst biti osnova slučaja. U praktične svrhe često se koriste novinarski, novinski materijali, internetske komentare. U istraživačkim projektima koriste se razni tipovi enclosures, ali tekstovi bi trebali biti odabrani u skladu s nekim zajedničkim temeljem.
- Rezultirajući skup tekstova podvrgava se pretprocesiranju, ispravljaju se pogreške, ako postoje, izrađuju se bibliografski i izvanjezikni opis teksta.
- Izbrisat će se sve informacije bez teksta: grafike, slike, tablice se brišu.
- Postoji izbor tokena, koji obično predstavljaju riječi, za daljnju obradu.
- Konačno, realizirana je morfološka, sintaktička i druga obilježja dobivenog skupa elemenata.
Rezultat svih transakcija po sintaktičke strukture s distribuira u njemu veći broj elemenata, od kojih je svaki identificirani dio govora, gramatičke i, u nekim slučajevima, semantičkih obilježja.
Teškoće u stvaranju zgrada
Važno je shvatiti da nije dovoljno prikupiti puno riječi ili rečenica kako bi dobili slučaj. S jedne strane, zbirka tekstova treba biti uravnotežena, tj. Predstavljati različite vrste tekstova u određenim omjerima. S druge strane, sadržaj predmeta mora biti posebno označen.
Prvi problem je riješen dogovorom: na primjer, u zbirci obuhvaća 60% književnih tekstova, 20% dokumentaraca, određeni postotak se daje pisani prikaz govornog jezika, zakona, znanstvenih radova, itd savršen recept uravnotežena tijelo danas ne postoji ...
Drugo pitanje, koje se tiče označavanja sadržaja, teže je riješiti. Postoje posebni programi i algoritmi koji se koriste za automatsko označavanje, ali ne daju 100% rezultat, mogu uzrokovati kvarove i zahtijevati ručnu reviziju. Mogućnosti i problemi u rješavanju ovog problema detaljno su opisani u Zakharovovom radu na corpus linguistics.
Označavanje teksta provodi se na nekoliko razina, koje ćemo popisati u nastavku.
Morfološko označavanje
S klupa škole se sjećamo da na ruskom jeziku postoje različiti dijelovi govora, a svaki od njih ima svoje osobitosti. Na primjer, glagol ima kategorije raspoloženja i vremena koje imenica nema. Izvorni govornik ne ustručava se klanjati imenicama i konjugirati glagole, ali manualni rad neće raditi da označi slučaj u 100 milijuna riječi. Sve potrebne operacije može se obavljati na računalu, međutim, za to je potrebno podučavati.
Morfološko označavanje je potrebno za računalo da "razumije" svaku riječ kao određeni dio govora koji ima određene gramatičke značajke. Budući da na nizu redovitih pravila funkcionira na ruskom (kao na bilo kojem drugom jeziku), moguće je napraviti automatski postupak za morfološku analizu ulašćujući niz algoritama u stroj. Međutim, postoje izuzeci od pravila, kao i razni faktori kompliciranja. Kao rezultat toga, čista računalna analiza danas je daleko od idealnog, a čak 4% pogrešaka daje 4 milijuna riječi po slučaj do 100 milijuna jedinica, što zahtijeva ručnu reviziju.
Detaljno ovaj problem opisuje Zakharov VP "Corpus linguistics".
Sintaktička oznaka
Analiza ili raščlanjivanje je postupak koji određuje odnos riječi u rečenici. Pomoću skup algoritama, postaje moguće definirati u tekstu predmet, predikat, dopune, razni zavrsi govora. Pronalaženje riječi koje su u nizu glavne i koje su ovisne, možemo učinkovito izdvojiti informacije iz teksta i obučiti stroj kako bismo izdali samo informacije koje nas zanimaju kao odgovor na upit za pretraživanje.
Usput, suvremene tražilice koriste to da daju određene brojke umjesto dugih tekstova kao odgovor na odgovarajuće upite poput "koliko kalorija u jabuli" ili "udaljenost od Moskve do Petrogradu". Međutim, da biste shvatili čak i samu osnovu opisanog procesa, morat ćete se upoznati s "Uvodom u Corpusovu lingvistiku" ili drugom osnovnom nastavnom pomoći.
Semantičko označavanje
Semantika jedne riječi je, u jednostavnim terminima, njegovo značenje. U semantičkoj analizi široko primjenjiv pristup pripisuje se oznakama riječi, što odražava pripadnost skupu semantičkih kategorija i potkategorija. Takve informacije su vrijedne za optimizaciju algoritama za analizu tonaliteta teksta, automatskog apstrahiranja i drugih zadataka korištenjem metoda korpusne lingvistike.
Postoji niz "korijena" stabla, koje su apstraktne riječi, imaju vrlo široku semantiku. Kao što ovo stablo grane, nastaju čvorovi koji sadrže sve specifičnije leksičke elemente. Na primjer, riječ "biće" može biti povezana s pojmovima kao što su "čovjek" i "životinja". Prva će riječ biti razgranjena u različita zanimanja, pojmova srodstva, nacionalnosti, a druga - na klase i vrste životinja.
Primjena sustava za pronalaženje informacija
Područja upotrebe korpusne lingvistike pokrivaju široku paletu područja djelovanja. Slučajevi se koriste za sastavljanje i ispravljanje rječnika, izradu automatskih prevoditeljskih sustava, sažetak, izdvajanje činjenica, utvrđivanje ključne i druge obrade riječi.
Osim toga, takvi se resursi aktivno koriste za proučavanje svjetskih jezika i mehanizme funkcioniranja jezika kao cjeline. Pristup velikim količinama unaprijed pripremljenih informacija olakšava operativnu i sveobuhvatnu studiju trendova u razvoju jezika, formiranju neologizma i stabilnog govornog prometa, promjenama vrijednosti leksičkih jedinica,
Budući da rad s takvim velikim količinama podataka zahtijeva automatizaciju, danas postoji bliska interakcija između računalne i jezične korpusa.
Nacionalna građevina ruskog jezika
Ova zgrada (skraćeno NKRN) uključuje niz podskupina koje omogućuju korištenje resursa za rješavanje velikog broja zadataka.
Materijali u bazi NKRN su podijeljeni:
- o objavljivanju u medijima 90-ih i 2000-ih domaćih i stranih;
- evidencije usmenog govora;
- akcentni označeni tekstovi (tj. oznake na stresu);
- govor govora;
- pjesnički radovi;
- materijali s sintaktičkim označavanjem itd.
Informacijski sustav također uključuje podskupine s paralelnim prijevodom radova s ruskog na engleski, njemački, francuski i mnogi drugi jezici (i natrag).
Također u bazi nalazi se dio povijesnih tekstova koji predstavljaju pisani govor na ruskom jeziku tijekom različitih razdoblja njegovog razvoja. Tu je i obrazovna zgrada, koja može biti korisna za strane državljane u svladavanju ruskog jezika.
Nacionalni korpus ruskog jezika uključuje 400 milijuna leksičkih jedinica i, u mnogim pogledima, nadmašuje značajan dio jezičnih građevina Europe.
planovi
Činjenica da su laboratoriji korpuske lingvistike na ruskim sveučilištima, kao i onima u inozemstvu, obećavajući činjenica u prilog prepoznavanju tog smjera. S primjenom i istraživanjem u okviru informacija i resursa za pretraživanje koji se razmatraju razvija se određena područja u području visokih tehnologija, sustav pitanja i odgovora, no to je već bilo riječi.
Daljnji razvoj korpusne lingvistike je predvidjeti na svim razinama, od tehničke i u smislu provedbe novih algoritama koji optimiziraju procese traženja i obradu podataka, osnaživanje računala, više RAM-a, a na potrošača, jer korisnici su sve više i više načina za korištenje ove vrste resursa u svakodnevnom život i posao.
U zaključku
Sredinom prošlog stoljeća, 2017. godine, bila je daleka budućnost, u kojoj svemirska plovila prostranstva svemira i robota čine sav posao ljudima. Zapravo, znanost obiluje "bijelim mrljama" i očajnički pokušava odgovoriti na pitanja koja su stoljećima zadesila čovječanstvo. Pitanja funkcioniranja jezika ovdje zauzimaju časno mjesto, a korpuskularna i računalna lingvistika mogu nam pomoći da im odgovorimo.
Obrada velikih skupova podataka omogućuje vam otkrivanje obrazaca koji prethodno nisu dostupni, predviđaju razvoj određenih jezičnih značajki, praćenje formiranja riječi u stvarnom vremenu.
Na praktičnoj razini, globalna kućišta se može vidjeti, na primjer, kao potencijalni alat za procjenu javne raspoloženju - Internet je stalno ažuriraju svakodnevno razni tekstovi stvorili stvarnih korisnika: Ova komentare i mišljenja i članke, i mnogi drugi oblik govora.
Osim toga, rad s tijelima doprinosi razvoju istih tehničkih sredstava koja sudjeluju u pretraživanju informacija, znamo o uslugama "Google" ili "Yandex", strojno prevođenje, elektronski rječnici.
Može se sa sigurnošću tvrditi da korpusna lingvistika čini samo prve korake, au bliskoj budućnosti će se brzo razvijati.
- Pitanje kao metoda istraživanja - psihološki, sociološki, marketinški i mnogi drugi
- Suvremene metode lingvističkog istraživanja
- Jesu li znanosti koje proučavaju jezik obećavaju?
- Lingvistica je ... Sekcija lingvistike je lingvistika
- Lingvistika je znanost koja proučava jezik
- Moskovski državno jezično sveučilište (MSLU): hostel, fakulteti, prolazni stupanj
- Informatika kao znanosti
- Specijalizirana "lingvistika": gdje i od koga raditi?
- Politička lingvistika kao znanstvena disciplina. Sadašnja faza razvoja političke lingvistike
- Što je kameral?
- Što je temeljna i primijenjena lingvistika?
- Genealogijska klasifikacija jezika: osnovna načela i značajke
- Kognitivna lingvistika
- Ono što određuje objekt i predmet istraživanja
- Glavne vrste socioloških istraživanja
- Funkcije jezika. Što to znači?
- Metodologija i metode znanstvenog istraživanja
- Računalistička lingvistika
- Usporedna jurisprudencija u privatnom međunarodnom pravu
- Intelektualni informacijski sustavi, njihovi tipovi i funkcije
- Lingvistika teksta. Komponente povezane s komunikacijom