• Shuffle
    Toggle On
    Toggle Off
  • Alphabetize
    Toggle On
    Toggle Off
  • Front First
    Toggle On
    Toggle Off
  • Both Sides
    Toggle On
    Toggle Off
  • Read
    Toggle On
    Toggle Off
Reading...
Front

Card Range To Study

through

image

Play button

image

Play button

image

Progress

1/51

Click to flip

Use LEFT and RIGHT arrow keys to navigate between flashcards;

Use UP and DOWN arrow keys to flip the card;

H to show hint;

A reads text to speech;

51 Cards in this Set

  • Front
  • Back

What is computational linguistics?

The scientific study of models andmethods for automatic processing of natural language.



Computational linguistics is an interdisciplinary field that shares alarge part of its subject matter with computer science andlinguistics.




Computational linguists also work on theories,models and methods that are not part of core linguistics or corecomputer science

Two components of computational linguistics

1. Theoretische Computerlinguistik: die formale, berechenbare Modelle natürlicherSprache entwickelt, implementiert und untersucht.



2. Angewandte Computerlinguistik:


Konkrete Algorithmen für die maschinelle Sprachverarbeitung entwickelt(maschinelle Übersetzung, Spracherkennung, ...)

Anwendungen der Computerlinguistik
1. Häufigkeitsanalysen

2. Lexikographie (Thesauri, Wörterbücher)


3. Suche: Google (große Menge anInformation, direkterZugang zu relevanten Daten ist schwierig)


4. Dialoganwendungen: Zugang zu komplexen Systemen


5. Übersetzungssysteme


6. Informationsextraktion

Forschungsgegenstände

1. Entwicklung von Methoden (Theorie)

2. Entwicklung realistischer Anwendungen (Praxis)


3. Aufbau und Verwaltung großer wiederverwendbarer Korpora(Daten)


4. Konzeption effektiver Evaluierungsmechanismen(Experimente)

Phonetik / Phonologie
Merkmale sprachlicher LauteLautsystem, Lautstrukturen
Morphologie
Wortbildung, Flexion, WortartenWortstrukturen
Syntax
Größere sprachliche Einheiten und deren ZusammenhangSatzstrukturen
Semantik
Bedeutung sprachlicher EinheitenBedeutungsstrukturen
Pragmatik
Sprache im kommunikativen KontextKommunikative Bedeutung
Computerlinguistische Methoden für sprachliche Beschreibungsebene

1. Phonetik


2. Morphologie


3. Syntax


4. Semantik


5. Pragmatik

1. Phonetik – Signalverarbeitung (Spracherkennung –Sprachsynthese)

2. Morphologie – Wortzerlegung, Wortartenbestimmung


3. Syntax – computerlesbare Grammatiken, automatischesyntaktische Analyse


4. Semantik – Wissensdatenbanken, automatische semantischeAnalyse


5. Pragmatik – Koreferenzresolution, Kontextmodellierung(Dialogsysteme, sprachliche Schnittstellen z.B. in der Robotik)

Wortzerlegung
Endliche Automaten
Wortartenbestimmung
HMMs
computerlesbare Grammatiken
CFGs
automatische syntaktische Analyse
Parsing

Mensch


Sprechen (Produktion)


Schreiben (Produktion)


Hören (Rezeption)


Lesen (Rezeption)

Computer


Synthese (Produktion)


Generierung (Produktion)


Erkennung (Rezeption)


Analyse (Rezeption)

Anwendungen kombinieren oft viele verschiedeneMethoden, um eine bestimmte Aufgabe zu lösen
Spracherkennung

Sprachsynthese


Rechtschreibkorrektur


Maschinelle Übersetzung


Automatische Zusammenfassung Suchmaschinen / Information Retrieval

Anwendungen kombinieren oft viele verschiedeneMethoden, um eine bestimmte Aufgabe zu lösen
Dokumentklassifikation

Strukturierte Gliederung von Information /Relations-Extraktion


Frage-Beantwortung (Question Answering)Start-System (MIT)


Sentiment-Analyse


Dialogsysteme

Geschichte der Methoden der Maschinellen Übersetzung (MT)
1. Wörter nachschlagen und übersetzen, aneinanderreihen

2. Morphologische Anpassungen


3. Syntaktische Umstellungsregeln


4. Volle syntaktische Analyse (“parsing”) )Transfer


5. Semantische Analyse (Disambiguierung)


6. Unterstützung durch Welt-Wissen


7. Übersetzen mit Statistik/Wahrscheinlichkeiten

MT Transfer
Transfer: Direkte Übersetzung von sprachlichen Elementen, ohneBedeutungsambiguitäten notwendigerweise aufzulösen.
MT Syntaktischer Transfer

Die Syntax (z.B. der Aufbau eines NPs) wird an die Syntax einer anderen Sprache angepasst

MT Interlingua
Interlingua: Sprachunabhängige Repräsentation von Bedeutung, indie Sprache überführt werden kann und umgekehrt.
Herausforderungen für die Computerlinguistik
Variabilität und Ambiguität

Variabilität: Dieselbe Bedeutung kann durch vieleverschiedene sprachliche Formen ausgedrückt werden.


Ambiguität: Dieselbe sprachliche Form kann verschiedeneInformationen ausdrücken (erst durch den Kontext kannerschlossen werden, was gemeint ist).

Typen von Ambiguität 1
Phonetische Ambigität (Homophone)

Orthographische Ambiguität (Homographen)


Morphologische Ambiguität:


Staub-ecken – Stau-becken) Eine Wortform kann auf unterschiedliche Arten in seineBestandteile zerlegt werden


Lexikalische Ambiguität (Homonyme)


Maria geht zum Ball

Typen von Ambiguität 2

Strukturelle/syntaktische Ambiguität


Die Grammatikregeln lassen verschiedene Analysen zurKombination der Satzelemente zu.


Kompositionell-semantische Ambiguität bzw.Skopusambiguität:


Quantifikatoren (z.B. alle, jeder, zwei) und Negationenkönnen sich auf verschieden große Satzteile beziehen.


Pragmatische Ambiguität


Der Bezug einer Aussage zum außersprachlichen Kontext kann auf mehrere Arten hergestellt werden.

Methoden um mit Ambiguität um zugehen

1. Alle Lesarten berechnen/aufzählen.

2. Unterspezifizierte Repräsentation verwenden


3. Die aufgrund des Kontextes präferierten Lesartenberechnen/aufzählen.Erfordert ein geeignetes gewichtetes/probabilistisches Modell,oder zusätzliche Information (Weltwissen).

Probabilistisches Modell

Statistisches Modell, dasverschiedenen Möglichkeiten Wahrscheinlichkeiten zuweist.Ein System kann sich dann für die wahrscheinlichste Varianteentscheiden. Die Wahrscheinlichkeiten können z.B. durchAuswertung von durch Menschen annotierte Trainingsdaten gewonnen werden

Wortform vs. Lexem

Wortform: flektierte Form eines Wortes, so wie sie im Textoder in (geschriebener) Sprache vorkommt.Beispiele: schönes, engl. sings



Ein Lexem ist eine Klasse lexikalisch äquivalenter Wortformen.Diese Wortformen repräsentieren das Lexem in verschiedenenUmgebungen.Beispiel: L1 = {“sing”, “sings”, “singing”, “sang”, “sung”}Sprache Das

Token
Token / Wortvorkommnis: Konkretes Vorkommen z.B. einesWortes (z.B. vor oder nach einem anderen Token)




Type

Type / Worttyp:

Ein Type bezeichnet eine Klasse von Token


..., die nicht unterschieden werden


..., die als Kopien wahrgenommen werden


..., die gleich sind





Beispiel:


eine Rose ist eine Rose


= wieviel Token und Types?

5 Token, 3 Types

Type-to-token ratio

Verhältnis von Types zu Tokens (type-to-token ratio) ist einewichtige Kennzahl zur Charakterisierung von Texten.
Gleichheitskriterien für Token
Anzahl der Types in einem Text macht es einenUnterschied, ob wir uns auf Wortformen oder Lexemebeziehen.



Beispiel: eine Rose ist eine Rose und viele Rosen ergebeneinen Strauß




Wortformen: 11 Token, 9 Types




Lexeme: 11 Token, 7 Types

Bestimmungskriterien für die Einheit “Wort”

orthographisch/graphematisch


phonologisch


morphologisch


morphosyntaktisch


semantisch


“Intuition”

Orthographisches Kriterium
“Wörter sind sprachliche Einheiten, die als Folgen vonBuchstaben zwischen Leerzeichen geschrieben werden.”



Problem: Sprachen ohne Buchstabenschriftweitere Trennzeichenabtrennbare Präfixe bei zusammengesetzten Verbenzirkuläre Definition!

Phonologisches Kriterium
“Wörter sind durch eine spezielle einheitliche Akzentstrukturgekennzeichnet, die sich von der entsprechenderWortgruppen/Phrasen unterscheidet.” z.B. Wíenerwald vs. Wiener Wáld



Problem: präzisere Beschreibung der Intonationsmuster nötig




Morphologische Kriterien (zwei Erklärungen)
a) “Ein morphologisches Wort ist eine grammatische Einheit,die nicht von Lexikoneinheiten unterbrochen werden kann.”



Problem:Im- und Export




“Lexikoneinheit” ! unbestimmt bzw. zirkuläre Definition




b) “Wörter sind solche flektierbaren grammatische Einheiten,die über eine einheitliche Flexion verfügen.”




Problem: nicht flektierbare Wörter?!



Morphosyntaktisches Kriterium
“Wörter sind die kleinsten sprachlichen Einheiten, dieinnerhalb des Satzes permutierbar sind.”



Problem:syntaktische Regeln lassen oft keine Permutation zu:


das kleine Haus => *das Haus kleine

Semantische Kriterien

1. kleinste Einheiten des Inhalts oder der Bedeutung


2. satzfähiges Lautsymbol mit der Eignung, ein StückWirklichkeit zu meinen




Problem:


Funktionswörter, z.B. Partikel zu


Idiome, mehrere “Wörter” für einen Begriff! z.B. roter Faden


Teilweise ist unklar, wie weit Bezeichner zerlegt werdensollten: Frankfurter Straßennamen Büchlein

Symptom der Schwierigkeit der Definition:Rechtschreibregeln
Getrennt vs. zusammen schreibenRad fahren vs. radfahrenDas war nicht zu sehen vs. Das war nicht einzusehen
Kriterium: Intuition des Muttersprachlers
Wort = durch Muttersprachler intuitiv erkennbare Basiseinheitdes Lexikons



Zirkulär!




the vast majority of languages spoken by small tribalgroups [...] have a lexeme meaning ‘(proper) name’, but nonehave the meaning ‘word’.

Das Konzept “Wort”
Der intuitive Begriff “Wort” ist kein eindeutig definiertesKonzept.

Die Intuition wird mehr oder weniger gut anhandorthographischer/graphemischer, phonologischer,morphologischer und semantischer Kriterien beschrieben.


Viele Wörtern erfüllen alle Kriterien, es gibt aber immerAusnahmen, die mit einigen Kriterien nicht übereinstimmen(vgl. Prototypen- oder Familienähnlichkeit).


Teilweise ist unsere Intuition nicht eindeutig:Rad fahren vs. radfahren


Wortkonzept ist auch kulturabhängig (bei gleicher Bedeutungund syntaktischer Funktion): business trip vs. Dienstreise


Theorien, die das Konzept “Wort” unzweideutig definieren(wollen), weichen teils stark vom intuitiven Verständnis desKonzeptes ab.

syntagmatische Sprachachse
Syntagma: Segmentierbare komplexe sprachliche Einheit;Ebene der Kombination



Syntagmatische Relationen drücken die Beziehungen zwischenaufeinanderfolgenden Teilen eines Satzes aus, z.B. von einemZeichen (Token) zu einem anderen Zeichen in seinem Kontext.


=> Grundlage zur Beschreibung der sprachlichen Struktur(Syntax)

paradigmatische Sprachachse
Paradigma: Menge von austauschbaren Zeichen bzw.Elementen derselben Kategorie;Ebene der Ersetzung

Paradigmatische Relationen fassen sprachliche Einheitenaufgrund ihrer Ähnlichkeit in Kategorien (z.B. Wortarten)zusammen.


z.B. Beziehung von einem Zeichen (Lexem oder Wortform) zuanderen Zeichen des gleichen Paradigmas.

Distribution eines Zeichens Z
= Verteilung eines Zeichens Z

Menge der Kontexte, in denen Z vorkommt


z.B. zwischen kommt fast nur in Kontexten vor, deren rechterTeil eine Nominalphrase ist: zwischen den Pflanzen, zwischenden Seiten

Distributionsanalyse
Verfahren zur Ermittlung sprachlicherStrukturen (amerikanischer Strukturalismus)

1. Segmentierung in Einheiten (Intuition, morphologischeAnhaltspunkte)


2. Überprüfen der Segmente und zusammenfassen inparadigmatische Klassen anhand der Ersetzungsprobe.


3. Finden von syntagmatischen Relationen zwischen denparadigmatischen Klassen.

Wohlgeformtheit
Ein sprachlicher Ausdruck A aus einer Sprache L heißtwohlgeformt, wenn er (laut Intuition der Sprecher von L) eingültiger Ausdruck von L ist.



alternative Herangehensweise: Ein sprachlicher Ausdruck Aaus einer Sprache L heißt wohlgeformt, wenn er (laut Intuitionder Sprecher von L) Sinn ergibt.




Noam Chomsky (1957):


Colorless green ideas sleep furiously.


*Ideas green sleep colorless furiously

deskriptive Theorie
beschreibt, was der Fall ist

Hauptinteresse der Linguistik

präskriptive Theorie
schreibt vor, was der Fall sein soll

z.B. Rechtschreibreformen, nützlich beim Lernen einerFremdsprache

Semiotisches Dreieck
symbol: Ausdrucksseite des sprachlichen Zeichens
(das Wort “Baum”) thought: Inhaltsseite des sprachlichen Zeichens
(das Konzept “Baum”, die Eigenschaften eines Baumes) 
referent: Gegenstand, Ereignis etc. in der außersprachlichen
Wir...
symbol: Ausdrucksseite des sprachlichen Zeichens(das Wort “Baum”)

thought: Inhaltsseite des sprachlichen Zeichens(das Konzept “Baum”, die Eigenschaften eines Baumes)


referent: Gegenstand, Ereignis etc. in der außersprachlichenWirklichkeit. (Menge aller Bäume / ein bestimmter Baum)

Arbitrarität und Konventionalität
Bedeutung B eines Ausdrucks A (der Ausdrucksseite einesZeichens) ist im Allgemeinen nicht aufgrund vonEigenschaften von A vorhersagbar (vgl. z.B. Baum)



In der Sprechergruppe hat sich die Konvention (Regel,Übereinkunft) durchgesetzt, A zu gebrauchen, wenn man Bmeint (vgl. z.B. Konvention, rechts zu fahren, nicht aber inEngland)




Der Ausdruck A ist (in den meisten Fällen) willkürlich(arbiträr) der Bedeutung B zugeordnet

Arbitrarität und Konventionalität: Ausnahmen
Ausnahme von der (völligen) Arbitrarität (aber nicht von derKonventionalität):



Lautmalereiz.B. Bezeichnung für Gebell von Hunden wird in der Sprachenachgeahmt