Use LEFT and RIGHT arrow keys to navigate between flashcards;
Use UP and DOWN arrow keys to flip the card;
H to show hint;
A reads text to speech;
51 Cards in this Set
- Front
- Back
What is computational linguistics? |
The scientific study of models andmethods for automatic processing of natural language.
Computational linguistics is an interdisciplinary field that shares alarge part of its subject matter with computer science andlinguistics. Computational linguists also work on theories,models and methods that are not part of core linguistics or corecomputer science |
|
Two components of computational linguistics |
1. Theoretische Computerlinguistik: die formale, berechenbare Modelle natürlicherSprache entwickelt, implementiert und untersucht.
2. Angewandte Computerlinguistik: Konkrete Algorithmen für die maschinelle Sprachverarbeitung entwickelt(maschinelle Übersetzung, Spracherkennung, ...) |
|
Anwendungen der Computerlinguistik
|
1. Häufigkeitsanalysen
2. Lexikographie (Thesauri, Wörterbücher) 3. Suche: Google (große Menge anInformation, direkterZugang zu relevanten Daten ist schwierig) 4. Dialoganwendungen: Zugang zu komplexen Systemen 5. Übersetzungssysteme 6. Informationsextraktion |
|
Forschungsgegenstände |
1. Entwicklung von Methoden (Theorie)
2. Entwicklung realistischer Anwendungen (Praxis) 3. Aufbau und Verwaltung großer wiederverwendbarer Korpora(Daten) 4. Konzeption effektiver Evaluierungsmechanismen(Experimente) |
|
Phonetik / Phonologie
|
Merkmale sprachlicher LauteLautsystem, Lautstrukturen
|
|
Morphologie
|
Wortbildung, Flexion, WortartenWortstrukturen
|
|
Syntax
|
Größere sprachliche Einheiten und deren ZusammenhangSatzstrukturen
|
|
Semantik
|
Bedeutung sprachlicher EinheitenBedeutungsstrukturen
|
|
Pragmatik
|
Sprache im kommunikativen KontextKommunikative Bedeutung
|
|
Computerlinguistische Methoden für sprachliche Beschreibungsebene
1. Phonetik 2. Morphologie 3. Syntax 4. Semantik 5. Pragmatik |
1. Phonetik – Signalverarbeitung (Spracherkennung –Sprachsynthese)
2. Morphologie – Wortzerlegung, Wortartenbestimmung 3. Syntax – computerlesbare Grammatiken, automatischesyntaktische Analyse 4. Semantik – Wissensdatenbanken, automatische semantischeAnalyse 5. Pragmatik – Koreferenzresolution, Kontextmodellierung(Dialogsysteme, sprachliche Schnittstellen z.B. in der Robotik) |
|
Wortzerlegung
|
Endliche Automaten
|
|
Wortartenbestimmung
|
HMMs
|
|
computerlesbare Grammatiken
|
CFGs
|
|
automatische syntaktische Analyse
|
Parsing
|
|
Mensch Sprechen (Produktion) Schreiben (Produktion) Hören (Rezeption) Lesen (Rezeption) |
Computer Synthese (Produktion) Generierung (Produktion) Erkennung (Rezeption) Analyse (Rezeption) |
|
Anwendungen kombinieren oft viele verschiedeneMethoden, um eine bestimmte Aufgabe zu lösen
|
Spracherkennung
Sprachsynthese Rechtschreibkorrektur Maschinelle Übersetzung Automatische Zusammenfassung Suchmaschinen / Information Retrieval |
|
Anwendungen kombinieren oft viele verschiedeneMethoden, um eine bestimmte Aufgabe zu lösen
|
Dokumentklassifikation
Strukturierte Gliederung von Information /Relations-Extraktion Frage-Beantwortung (Question Answering)Start-System (MIT) Sentiment-Analyse Dialogsysteme |
|
Geschichte der Methoden der Maschinellen Übersetzung (MT)
|
1. Wörter nachschlagen und übersetzen, aneinanderreihen
2. Morphologische Anpassungen 3. Syntaktische Umstellungsregeln 4. Volle syntaktische Analyse (“parsing”) )Transfer 5. Semantische Analyse (Disambiguierung) 6. Unterstützung durch Welt-Wissen 7. Übersetzen mit Statistik/Wahrscheinlichkeiten |
|
MT Transfer
|
Transfer: Direkte Übersetzung von sprachlichen Elementen, ohneBedeutungsambiguitäten notwendigerweise aufzulösen.
|
|
MT Syntaktischer Transfer
|
Die Syntax (z.B. der Aufbau eines NPs) wird an die Syntax einer anderen Sprache angepasst |
|
MT Interlingua
|
Interlingua: Sprachunabhängige Repräsentation von Bedeutung, indie Sprache überführt werden kann und umgekehrt.
|
|
Herausforderungen für die Computerlinguistik
|
Variabilität und Ambiguität
Variabilität: Dieselbe Bedeutung kann durch vieleverschiedene sprachliche Formen ausgedrückt werden. Ambiguität: Dieselbe sprachliche Form kann verschiedeneInformationen ausdrücken (erst durch den Kontext kannerschlossen werden, was gemeint ist). |
|
Typen von Ambiguität 1
|
Phonetische Ambigität (Homophone)
Orthographische Ambiguität (Homographen) Morphologische Ambiguität: Staub-ecken – Stau-becken) Eine Wortform kann auf unterschiedliche Arten in seineBestandteile zerlegt werden Lexikalische Ambiguität (Homonyme) Maria geht zum Ball |
|
Typen von Ambiguität 2 |
Strukturelle/syntaktische Ambiguität Die Grammatikregeln lassen verschiedene Analysen zurKombination der Satzelemente zu. Kompositionell-semantische Ambiguität bzw.Skopusambiguität: Quantifikatoren (z.B. alle, jeder, zwei) und Negationenkönnen sich auf verschieden große Satzteile beziehen. Pragmatische Ambiguität Der Bezug einer Aussage zum außersprachlichen Kontext kann auf mehrere Arten hergestellt werden. |
|
Methoden um mit Ambiguität um zugehen |
1. Alle Lesarten berechnen/aufzählen.
2. Unterspezifizierte Repräsentation verwenden 3. Die aufgrund des Kontextes präferierten Lesartenberechnen/aufzählen.Erfordert ein geeignetes gewichtetes/probabilistisches Modell,oder zusätzliche Information (Weltwissen). |
|
Probabilistisches Modell |
Statistisches Modell, dasverschiedenen Möglichkeiten Wahrscheinlichkeiten zuweist.Ein System kann sich dann für die wahrscheinlichste Varianteentscheiden. Die Wahrscheinlichkeiten können z.B. durchAuswertung von durch Menschen annotierte Trainingsdaten gewonnen werden |
|
Wortform vs. Lexem |
Wortform: flektierte Form eines Wortes, so wie sie im Textoder in (geschriebener) Sprache vorkommt.Beispiele: schönes, engl. sings
Ein Lexem ist eine Klasse lexikalisch äquivalenter Wortformen.Diese Wortformen repräsentieren das Lexem in verschiedenenUmgebungen.Beispiel: L1 = {“sing”, “sings”, “singing”, “sang”, “sung”}Sprache Das |
|
Token
|
Token / Wortvorkommnis: Konkretes Vorkommen z.B. einesWortes (z.B. vor oder nach einem anderen Token)
|
|
Type |
Type / Worttyp:
Ein Type bezeichnet eine Klasse von Token ..., die nicht unterschieden werden ..., die als Kopien wahrgenommen werden ..., die gleich sind |
|
Beispiel: eine Rose ist eine Rose = wieviel Token und Types? |
5 Token, 3 Types
|
|
Type-to-token ratio |
Verhältnis von Types zu Tokens (type-to-token ratio) ist einewichtige Kennzahl zur Charakterisierung von Texten.
|
|
Gleichheitskriterien für Token
|
Anzahl der Types in einem Text macht es einenUnterschied, ob wir uns auf Wortformen oder Lexemebeziehen.
Beispiel: eine Rose ist eine Rose und viele Rosen ergebeneinen Strauß Wortformen: 11 Token, 9 Types Lexeme: 11 Token, 7 Types |
|
Bestimmungskriterien für die Einheit “Wort”
|
orthographisch/graphematisch phonologisch morphologisch morphosyntaktisch semantisch “Intuition” |
|
Orthographisches Kriterium
|
“Wörter sind sprachliche Einheiten, die als Folgen vonBuchstaben zwischen Leerzeichen geschrieben werden.”
Problem: Sprachen ohne Buchstabenschriftweitere Trennzeichenabtrennbare Präfixe bei zusammengesetzten Verbenzirkuläre Definition! |
|
Phonologisches Kriterium
|
“Wörter sind durch eine spezielle einheitliche Akzentstrukturgekennzeichnet, die sich von der entsprechenderWortgruppen/Phrasen unterscheidet.” z.B. Wíenerwald vs. Wiener Wáld
Problem: präzisere Beschreibung der Intonationsmuster nötig |
|
Morphologische Kriterien (zwei Erklärungen)
|
a) “Ein morphologisches Wort ist eine grammatische Einheit,die nicht von Lexikoneinheiten unterbrochen werden kann.”
Problem:Im- und Export “Lexikoneinheit” ! unbestimmt bzw. zirkuläre Definition b) “Wörter sind solche flektierbaren grammatische Einheiten,die über eine einheitliche Flexion verfügen.” Problem: nicht flektierbare Wörter?! |
|
Morphosyntaktisches Kriterium
|
“Wörter sind die kleinsten sprachlichen Einheiten, dieinnerhalb des Satzes permutierbar sind.”
Problem:syntaktische Regeln lassen oft keine Permutation zu: das kleine Haus => *das Haus kleine |
|
Semantische Kriterien
|
1. kleinste Einheiten des Inhalts oder der Bedeutung 2. satzfähiges Lautsymbol mit der Eignung, ein StückWirklichkeit zu meinen Problem: Funktionswörter, z.B. Partikel zu Idiome, mehrere “Wörter” für einen Begriff! z.B. roter Faden Teilweise ist unklar, wie weit Bezeichner zerlegt werdensollten: Frankfurter Straßennamen Büchlein |
|
Symptom der Schwierigkeit der Definition:Rechtschreibregeln
|
Getrennt vs. zusammen schreibenRad fahren vs. radfahrenDas war nicht zu sehen vs. Das war nicht einzusehen
|
|
Kriterium: Intuition des Muttersprachlers
|
Wort = durch Muttersprachler intuitiv erkennbare Basiseinheitdes Lexikons
Zirkulär! the vast majority of languages spoken by small tribalgroups [...] have a lexeme meaning ‘(proper) name’, but nonehave the meaning ‘word’. |
|
Das Konzept “Wort”
|
Der intuitive Begriff “Wort” ist kein eindeutig definiertesKonzept.
Die Intuition wird mehr oder weniger gut anhandorthographischer/graphemischer, phonologischer,morphologischer und semantischer Kriterien beschrieben. Viele Wörtern erfüllen alle Kriterien, es gibt aber immerAusnahmen, die mit einigen Kriterien nicht übereinstimmen(vgl. Prototypen- oder Familienähnlichkeit). Teilweise ist unsere Intuition nicht eindeutig:Rad fahren vs. radfahren Wortkonzept ist auch kulturabhängig (bei gleicher Bedeutungund syntaktischer Funktion): business trip vs. Dienstreise Theorien, die das Konzept “Wort” unzweideutig definieren(wollen), weichen teils stark vom intuitiven Verständnis desKonzeptes ab. |
|
syntagmatische Sprachachse
|
Syntagma: Segmentierbare komplexe sprachliche Einheit;Ebene der Kombination
Syntagmatische Relationen drücken die Beziehungen zwischenaufeinanderfolgenden Teilen eines Satzes aus, z.B. von einemZeichen (Token) zu einem anderen Zeichen in seinem Kontext. => Grundlage zur Beschreibung der sprachlichen Struktur(Syntax) |
|
paradigmatische Sprachachse
|
Paradigma: Menge von austauschbaren Zeichen bzw.Elementen derselben Kategorie;Ebene der Ersetzung
Paradigmatische Relationen fassen sprachliche Einheitenaufgrund ihrer Ähnlichkeit in Kategorien (z.B. Wortarten)zusammen. z.B. Beziehung von einem Zeichen (Lexem oder Wortform) zuanderen Zeichen des gleichen Paradigmas. |
|
Distribution eines Zeichens Z
|
= Verteilung eines Zeichens Z
Menge der Kontexte, in denen Z vorkommt z.B. zwischen kommt fast nur in Kontexten vor, deren rechterTeil eine Nominalphrase ist: zwischen den Pflanzen, zwischenden Seiten |
|
Distributionsanalyse
|
Verfahren zur Ermittlung sprachlicherStrukturen (amerikanischer Strukturalismus)
1. Segmentierung in Einheiten (Intuition, morphologischeAnhaltspunkte) 2. Überprüfen der Segmente und zusammenfassen inparadigmatische Klassen anhand der Ersetzungsprobe. 3. Finden von syntagmatischen Relationen zwischen denparadigmatischen Klassen. |
|
Wohlgeformtheit
|
Ein sprachlicher Ausdruck A aus einer Sprache L heißtwohlgeformt, wenn er (laut Intuition der Sprecher von L) eingültiger Ausdruck von L ist.
alternative Herangehensweise: Ein sprachlicher Ausdruck Aaus einer Sprache L heißt wohlgeformt, wenn er (laut Intuitionder Sprecher von L) Sinn ergibt. Noam Chomsky (1957): Colorless green ideas sleep furiously. *Ideas green sleep colorless furiously |
|
deskriptive Theorie
|
beschreibt, was der Fall ist
Hauptinteresse der Linguistik |
|
präskriptive Theorie
|
schreibt vor, was der Fall sein soll
z.B. Rechtschreibreformen, nützlich beim Lernen einerFremdsprache |
|
Semiotisches Dreieck
|
symbol: Ausdrucksseite des sprachlichen Zeichens(das Wort “Baum”)
thought: Inhaltsseite des sprachlichen Zeichens(das Konzept “Baum”, die Eigenschaften eines Baumes) referent: Gegenstand, Ereignis etc. in der außersprachlichenWirklichkeit. (Menge aller Bäume / ein bestimmter Baum) |
|
Arbitrarität und Konventionalität
|
Bedeutung B eines Ausdrucks A (der Ausdrucksseite einesZeichens) ist im Allgemeinen nicht aufgrund vonEigenschaften von A vorhersagbar (vgl. z.B. Baum)
In der Sprechergruppe hat sich die Konvention (Regel,Übereinkunft) durchgesetzt, A zu gebrauchen, wenn man Bmeint (vgl. z.B. Konvention, rechts zu fahren, nicht aber inEngland) Der Ausdruck A ist (in den meisten Fällen) willkürlich(arbiträr) der Bedeutung B zugeordnet |
|
Arbitrarität und Konventionalität: Ausnahmen
|
Ausnahme von der (völligen) Arbitrarität (aber nicht von derKonventionalität):
Lautmalereiz.B. Bezeichnung für Gebell von Hunden wird in der Sprachenachgeahmt |