• Shuffle
    Toggle On
    Toggle Off
  • Alphabetize
    Toggle On
    Toggle Off
  • Front First
    Toggle On
    Toggle Off
  • Both Sides
    Toggle On
    Toggle Off
  • Read
    Toggle On
    Toggle Off
Reading...
Front

Card Range To Study

through

image

Play button

image

Play button

image

Progress

1/43

Click to flip

Use LEFT and RIGHT arrow keys to navigate between flashcards;

Use UP and DOWN arrow keys to flip the card;

H to show hint;

A reads text to speech;

43 Cards in this Set

  • Front
  • Back
ACL
The Association for Computational Linguistics
COLING
Conference on Computational Linguistics
HLT
Human Language Technologies
MT
machine translation
NLP
Natural language processing
POS
Part of speech
WSD
Word-sense disambiguation
Arvutuslingvistika mõiste
interdistsiplinaarne teadusala lingvistika (e. keeleteaduse) ja informaatika (e. arvutiteaduse) vahepeal, mille eesmärgiks on keele automaattöötluseks vajalike keele

* kirjeldus-,
* analüüsi- ja
* sünteesimeetodite

väljatöötamine ja arvutitel realiseerimine.
Arvutuslingvistika teoreetiline komponent
teooriate püstitamine inimese keeleliste võimete kohta ja nende kontrollimine
Arvutuslingvistika rakenduslik komponent
teooriate püstitamine inimese keeleliste võimete kohta ja nende kontrollimine
+ näiteks:
- masintõlge
- keelelise info säilitamine ja automaatne otsimine (sh tekstiandmebaasidest, sellega tegeleb arvutileksikoloogia)
- suhtlus arvutiga loomulikus keeles (ekspertsüsteemidega, andmebaasidega)
- kõnetuvastus ja kõnesüntees, kõnelejatuvastus
Arvutuslingvistika 1950-ndatel
Masintõlge - rakenduslik
* 1949 Warren Weaver "Translation"
* 1954 1. MT eksperiment Georgetowni ülikoolis USA-s: arvuti IBM tõlkis 200-sõnalise teksti vene keelest inglise keelde
* 1966 ALPAC (Loomulike keelte automaattöötluse konsultatiivkomitee USA rahvusliku TA juures) aruanne: pessimism MT võimalikkuse suhtes
Arvutuslingvistika 1960-ndatel
Noam Chomsky generatiivsed grammatikad

* 1956 "Three models for the description of language"
* 1957 "Syntactic structures"
* 1965 Transformatsioonigrammatika mõiste
* Regulaarsed üritused: COLING alates 1965
* Organisatsioonid: ACL 1968
Arvutuslingvistika 1970-ndatel
* 1972: T. Winograd SHRDLU (modelleeris roboti kätt "kuubikute maailmas", suhtlus inglise keeles);
* W. Woods LUNAR (Kuu kivimiproovide identifitseerimine, suhtlus inglise keeles)
* Ekspertsüsteemid DENDRAL 1965, MYCIN 1976
* Andmebaasid loomuliku keele liidesega, infootsisüsteemid
* Tihe seos tehisintellektiga!
Arvutuslingvistika 1980-ndatel
* FUG (Functional Unification Grammar) M. Kay 1979
* GPSG (Generalized Phrase Structure Grammar)
+ G. Gazdar 1970ndate II pool;
+ G. Gazdar & E. Klein & G. Pullum& I. Sag 1985
* LFG (Lexical Functional Grammar)
+R. Kaplan & J. Bresnan 1982
* HPSG (Head driven Phrase Structure Grammar)
+ <= GPSG, LFG
+ C. Pollard 1984; C. Pollard & I. Sag 1987
Arvutuslingvistika alates 1990
Keeletehnoloogia on arvutilingvistika praktiline pool.
Kasutab arvutilingvistikas väljatöötatud teooriaid, et luua rakendusi (arvutiprogramme), mis võimaldavad inimkeelt arvuti abil töödela ja mõista.
Tänapäeval on keeletehnoloogia tuntumateks valdkondadeks

* masintõlge
* arvutileksikoloogia
* dialoogisüsteemid
* kõnetuvastus ja kõnesüntees.
Keeletehnoloogia
Keeletehnoloogia on arvutilingvistika praktiline pool.
Kasutab arvutilingvistikas väljatöötatud teooriaid, et luua rakendusi (arvutiprogramme), mis võimaldavad inimkeelt arvuti abil töödelda ja mõista.
Tänapäeval on keeletehnoloogia tuntumateks valdkondadeks masintõlge, arvutileksikoloogia, dialoogisüsteemid, kõnetuvastus ja kõnesüntees.
foneetika
Häälikuid uuriv teadus on häälikuõpetus ehk foneetika. Foneetika on piiriteadus, millel on kokkupuutepunkte anatoomiaga (artikulatoorne foneetika), füüsikaga (akustiline foneetika) ja psühholoogiaga (psühhofoneetika).
fonoloogia
Foneem - lähedaste häälikuliste variantide abstraktsioon.
Seda osa keeleteadusest, mis tegeleb foneemidega, nimetatakse fonoloogiaks. Fonoloogia uurib, missugused foneemid ühes või teises keeles on ja kuidas ning mis tingimustel nad omavahel kombineeruvad
morfoloogia
Vormiõpetuse ehk morfoloogia valdkonda kuulub see osa keelesüsteemist, mis puudutab morfeemidest sõnavormide moodustamist: pois-te-le, aken-de-le, akna-i-le.
süntaks
Seda keeleteaduse osa, mis tegeleb sõnadest ja sõnavormidest kõrgemale jäävate keelesüsteemi tasanditega, nimetatakse lauseõpetuseks ehk süntaksiks
semantika
Semantika ehk tähendusõpetus uurib keeleüksuste tähendusi ning nende muutumist, keele ja reaalsete objektide suhteid ning keele ja mõtlemise suhteid.
grammatika
Fonoloogiat, morfoloogiat ning süntaksit kokku nimetatakse grammatikaks
Loomuliku keele mõistmiseks vajalike teadmiste liigid.
Foneetiline ja fonoloogiline teadmus (kuidas sõnad on moodustatud häälikutest). Oluline kõnepõhistes süsteemides (/e/ + /l/ + /u/ = elu).

Morfoloogiline (kuidas sõnad on moodustatud väiksematest tähendusühikutest - morfeemidest: raamatu+te+le)

Süntaktiline (kuidas moodustada sõnadest korrektne lause, millist rolli mängib iga sõna, millised fraasid on milliste osad: poiss loeb raamatut: poiss - nimisõnafraas, loeb raamatut - tegusõnafraas, raamatut - tegusõnafraasi koosseisu kuuluv nimisõnafraas)

Semantiline (mida sõnad tähendavad ja kuidas need tähendused kombineeruvad lause tähenduseks) - kontekstist sõltumatu tähendus

Tee on tuline.

Pragmaatiline (kuidas lauseid kasutatakse erinevates situatsioonides ja kuidas see kasutus mõjutab lause interpretatsiooni)

Anna mulle teed!

Diskursuse teadmus (kuidas vahetult eelnevad laused mõjutavad järgmise lause interpreteerimist) Mees luges kirja. Ta lükkas selle eemale.

Maailmateadmus (üldine teadmus maailma struktuuri kohta, mida keel
Loomuliku keele mõistmiseks vajalike teadmiste liigid. (lühidalt!)
Foneetiline ja fonoloogiline
Morfoloogiline
Süntaktiline
Semantiline
Pragmaatiline
Diskursuse teadmus
Maailmateadmus
Generatiivse grammatika mõiste.
Formaalselt: keel - lausete hulk.
Lause - järjend, mis koosneb ühest või mitmest sõnast (mis on keele sõnastikus).
Grammatika - lausete hulga formaalne kirjeldus.

Generatiivne grammatika (N. Chomsky):
G = (T,N,P,S)

T - terminaalne sõnastik (tähestik)
N- mitteterminaalne sõnastik (tähestik)
P - produktsioonide hulk kujul a->b, kus a kuulub hulka V+ ja b kuulub hulka
V*
(siin V on N ja T ühend, V+ on V sõnade järjend pikkusega 1 või rohkem; V* on V sõnade järjend pikkusega 0 või rohkem)

S - lähtesümbol (hulgast N)

Baasoperatsioon - ühe sümbolijärjendi ümberkirjutamine (rewriting) teiseks.
Chomsky hierarhia
piiramata e. 0-tüüpi
kontekstisidusad (context-sensitive) e. 1. tüüpi
kontekstivabad (context-free) e. 2. tüüpi
regulaarsed (regular) e. 3. tüüpi
kontekstisidusad e. 1. tüüpi grammatikad
x -> y, kus x,y kuuluvad hulka V+ ja y pikkus ei ole väiksem kui x pikkus.
kontekstivabad grammatikad
reeglid kujul A -> x, kus A kuulub hulka N, x kuulub hulka V*
regulaarsed grammatikad
* Vasak-lineaarsed (left-linear): reeglid kujul A -> Bt, A -> t
* ja parem-lineaarsed (right-linear): A -> tB, A -> t
* (A,B kuuluvad hulka N, t kuulub hulka T).
Regulaaravaldis
erilises keeles üleskirjutatud valem, mis kirjeldab teatavat sõnede klassi.

Regulaaravaldise otsing eeldab malli(pattern), mida me soovime otsida, ja tekstikorpust(või tekstidokumenti või sõnet), millest otsing teostatakse.
Lõplik automaat
abstraktne masin, mis saab sisendile sümbolite stringi (sõne), loeb selle sõne vasakult paremale, ühe sümboli korraga, peatub pärast viimase sümboli lugemist ning kas aktsepteerib sisendsõne või lükkab selle tagasi.
lõplik muundur
lõplik muundur tuvastab kahe sõne vahelise seose - loeb ühe sõne ja genereerib teise

1. tunneb ära, kas sõna on antud keeles olemas.
2. genereerib sõnede paare.
3. tõlgib ühe sõne teiseks sõneks
4. suhestab sõnekomplektid ja määrab ära erinevate sõnekomplektide omavahelised seosed
Morfoloogiline analüüs
sõna koostisosadeks olevate morfeemide leidmine ja määramine
Eesti keele arvutimorfoloogia
Morfoloogilise analüsaatori (morphological parser) valmistamiseks on vaja vähemalt:
1) leksikoni - tüvede ja afiksite (liidete) loendit, millele on lisatud baasinformatsioon (kas tüvi on noomeni või verbi tüvi jne)
2) morfotaktika reegleid (määravad ära sõnavormi sisemise struktuuri: millised üksused millises järjestuses ja mis tingimustel võivad ühes sõnavormis koos esineda, nt noomenil TÜVI + ARV + KÄÄNE.)
3) õigekirjareegleid, mis määravad ära sõna kirjapildi muutused mitme morfeemi kombineerumisel (city : cities)

Morfoloogiline analüsaator
on programm, mis sõna vormist lähtudes määrab selle sõna struktuuri (nt.tüvi, järelliide, lõpp), sõnaliigi ja käände või pöörde.
Eesti keele morfoloogilised analüsaatorid:

ESTMORF (Filosoft), kasutab leksikoni, aluseks eesti keele spelleritele (MS Office jt)

Reeglipõhine mudel (EKI), kasutab reegleid + erandite leksikoni

Kahetasandiline mudel (TÜ, Heli Uibo), kasutab lõplikku muundurit
Süntaksianalüüs
lause süntaktilise struktuuri leidmine
Süntaksianalüüs - lause süntaktilise struktuuri leidmine.
Selleks on vaja
grammatikat, mis kirjeldab formaalselt selles keeles lubatavaid struktuure;
analüüsitehnikat (parsing technique) - meetodit lause analüüsiks, määramaks tema struktuuri vastavalt grammatikale.
WordNet
a large lexical database of English.
Nouns, verbs, adjectives and adverbs are grouped into sets of cognitive synonyms (synsets), each expressing a distinct concept.
Synsets are interlinked by means of conceptual-semantic and lexical relations.
EuroWordNet
EuroWordNet is a system of semantic networks for European languages, based on WordNet.
Each language develops its own wordnet but they are interconnected with interlingual links stored in the Interlingual Index (ILI).
Eesti WordNet
1998. aastast alates on Tartu Ülikooli arvutilingvistika uurimisrühmas koostatud eesti üldkeele tesaurust,
mis koos viidetega ingliskeelsele WordNetile moodustab Eesti Wordnet'i (EstWN) ja on üks kaheksast EuroWordNet-2 projekti tulemusena saadud ja ELRA kaudu levitatavast wordnet-tüüpi tesaurusest.
Eesti suulise keele korpus
Eesti kõnekeele korpust
haldab
Tartu ülikooli suulise kõne uurimisrühm
, mis tegutseb TÜüldkeeleteaduse õppetooli juures alates 1997. aastast. Rühm tegeleb eesti suulise kõne lindistamise,litereerimise ja uurimisega. Üheks eesmärgiks on koostada suulise kõne korpus, mis oleks piisavaltmahukas ning sisaldaks erinevat tüüpi suulisi tekste.Suuliste tekstide kirjapanekul kasutatakse
Jeffersoni transkriptsiooni.

Samuti kuulub iga teksti juurdetaustakirjeldus, mis sisaldab tähtsamaid andmeid lindistussituatsiooni ja kõnelejate kohta.
Korpus koosneb hetkel umbes 800 000 sõnast.
Riikliku programmi “Eesti keele keeletehnoloogia” (2011-2017) põhiküsimused
lisaks tarkvaraprototüüpide ja keeleressursside arendamisele pööratakse eriliselt tähelepanu just keeletehnoloogia rakenduste loomisele. Olemasolevad ning programmi käigus loodavad ressurssid ning tarkvara tehakse kättesaadavaks Eesti Keeleressursside Keskuse kaudu.
kõneandmebaasid (TTÜ küberneetika instituudi foneetika ja kõnetehnoloogia labor)
Eestikeelse kõnetuvastuse andmebaasi (SpeechDat) haldab Tallinna Tehnikaülikooli foneetika ja kõnetehnoloogia labor. Antud andmebaasi eesmärk on suuremahulise telefonisalvestuste andmebaasiloomine kõne- ja kõnelejatuvastuse uuringuteks ning süsteemide treenimiseks-testimiseks. Projektikestus 24 kuud. Kõnelejaid min 1000 (500 meest, 500 naist)
Eesti keele arvutisemantika
Tesaurus
on liik mõistelist sõnaraamatut. See kujutab endast sõnakogu, kus sõnad (väljendid) on organiseeritud mitte tähestikuliselt, vaid sisuseoseid (semantilisi seoseid) pidi. Arvutiversioonis tähendab see seda, et tesaurus eksisteerib andmebaasina, kus sisaldub info nii märksõnade tähendustekui nendevaheliste seoste kohta.
Eesti üldkeele tesaurus (TEKsaurus)
on alates 1998. aastast Tartu Ülikooli arvutilingvistikauurimisrühma poolt koostatud tesaurus. Koos viidetega ingliskeelsele WordNetile moodustab see eestiwordnet'i (EstWN) ja on üks kaheksast EuroWordNet-2 projekti tulemusena saadud ja ELRA kaudu levitatavast wordnet-tüüpi tesaurusest. Eesti wordneti tegemisel on järgitud Princetoni WordNeti ja EuroWordNeti põhimõtteid.
TEKsauruse elementaarosake on
sünonüümirida e
sünohulk
(ingl. synonym set, synset), mille moodustavad ühte mõistet (concept, meaning) väljendavad sünonüümsed (sama tähendusega) sõnad ja sõnaühendid. Termin sünohulk on loodud sellepärast, et erinevalt sünonüümisõnastiku sünonü