• Shuffle
    Toggle On
    Toggle Off
  • Alphabetize
    Toggle On
    Toggle Off
  • Front First
    Toggle On
    Toggle Off
  • Both Sides
    Toggle On
    Toggle Off
  • Read
    Toggle On
    Toggle Off
Reading...
Front

Card Range To Study

through

image

Play button

image

Play button

image

Progress

1/74

Click to flip

Use LEFT and RIGHT arrow keys to navigate between flashcards;

Use UP and DOWN arrow keys to flip the card;

H to show hint;

A reads text to speech;

74 Cards in this Set

  • Front
  • Back

Was ist VQ?

Vector Quantisation


-> ein großer Vector wird duch eine kürzere Darstellung approximiert


--> aproximation of data space with smaller number of vectors


--> supervised und unsupervised

Loss Functions for Clustering?

Intraclass W(C) ? InterClass B(C)?


Total? T(C) = W(C) + B(C)




Minimizing W(C) is equivalent to maximizing B(C)



VonNeumann Computer VS Neural Computationalnova.com

•Processing: Sequential - Parallel


•Processors: One - Many


•Interaction: None - A lot


•Communication: Poor - Rich


•Processors: Fast, Accurate - Slow,Sloppy•Knowledge: Local - Distributed


•Hardware: General Purpose -Dedicated•Design: Programed - Learned

WhyNeural Networks
•Massive parallelism.

•Massive constraint satisfaction forill-defined input.


•Simple computing units.


•Many processing units, manyinterconnections.


•Uniformity (-> sensor fusion)


•Non-linear classifiers/ mapping(-> good performance)


•Learning/ adapting

Using of Neural Nets?

•Classification


•Prediction


•Function Approximation


•Continuous Mapping


•Pattern Completion


•Coding

DesignCriteria

•Recognition Error Rate


•Training Time


•Recognition Time


•Memory Requirements


•Training Complexity


•Ease of Implementation


•Ease of Adaptation

Possible NetworkSpecification?

–Net Topology


–Node Characteristics


–Learning Rule


–Objective Function


–(Initial) Weights


–Learning Parameters

DesignProblems?

•Local Minima

•Speed of Learning


•Architecture must be selected


•Choice of Feature Representation


•Scaling


•Systems, Modularity


•Treatment of Temporal Features andSequences

Pattern recognition Unterteilung?



Parametric VS Non-parametric

– Parametric: assume underlying probability distribution;estimatetheparametersofthisdistribution


- Non: Estimate probability of error or error citerion directly from training data.Examples:Parzen Window, k-nearest neighbor, perceptron

Bayes!

- Formel, Beschreibung


- Warum optimal?

Problems of ClassifierDesign

–Whatandhowmanyfeaturesshouldbeselected?–Anyfeatures?–Themorethebetter?–Ifadditional featuresnot useful(same meanand covariance),classifierwill automaticallyignorethem?a

Curse of Dimensionality

•Generally,addingmorefeaturesindiscriminantlyleadstoworseperformance!•Reason:–TrainingData vs. NumberofParameters–Limitedtrainingdata.•Solution:–selectfeaturescarefully–reducedimensionality–PrincipleComponentAnalysis

Non-Parametric Techniques?

Aufzählen und erklären:


Parzen Window


Volume toolarge -> looseresolutionVolume toosmall-> erratic,poorestimate




K-NearestNeighbors(KNN)


•Forfinite numberofsamplesn,wewantk tobe:large for reliableestimatesmall to guaranteethatall k neighborsarereasonablyclose.•Needtrainingdatabasetobelarger."There is no data like more data."

Fisher Linear Discriminant ?

nachschauen.

bessere generalisierung?

- brain damage


- weight decay?


- cascade correlation


- odb /obs


- meiosis

Boltzman maschine

?

Hopfield net

?

LVQ Stufen

- Learning Vector Quantifikation


- supervised


- examples audio compression, features extraction


(- filters not so relavant infos)


-related to kNN


- LVQ1: bestimme neuron wo gewichte am besten zum Sample passen. Passe die gewichte dieses neurons mit update an (+ wenn selbe klasse, - wenn false klasse) und lernrate alpha.


LVQ2: wie davor, nur werden die 2 besten neuronen gesucht. Für den Fall das eine Klasse mit der von dem input übereinstimmt. Beide Neuronen verschiedenen Klassen. Und Mittelsenkrechte test mit min(di/dj, dj/di) > s. wobei s = 1 - v / 1+ v mit z.B. v = 0,2.


Dann updateregel + bei richtiger und minus bei falscher klasse


LVQ3:


Verteilt die Gewichtung zusätzlich innerhalb der Klassen. D.h. wenn die beiden nähesten vektoren die gleiche Klasse haben dann ist das update mit + für beide neuronen, aber nochmal abgeschwächt durch epsilon wert


OLVQ1:


mit angepasster Lernrate für jeden Neuron, je nach Historie. Lernarte a_t = a(t-1) / 1+ s(t) * a(t-1), wobei s(t) = 1 wenn gleich Klasse und -1 wenn nicht

Warum MLP anstatt vieler einfacher Perceptronen?

Die gegenseitige Abhänigkeit wird nicht modelliert.

Wovon hängt die Generalisierung ab

E_test = E_train + #Paramter/#Trainingsdaten

Wie kommt Zickzack in Trainfehler zustande

Man springt über das Ziel (minimum) hinaus.

Woran liegt es wenn die Fehlerfunktion nicht besser wird?

Gradientenbeitrag zu klein oder zu gross. Man kommt erst garnicht vom platue runter oder springt die ganze zeit um es herum.


Was ist der Fall? Gradienten in die selbe Richtung Fall 1, Gradienten in verschiedene Richtung Fall 2.

Was ist Reinformcement Learning

Zwischenstufe zu überwachten und unüberachten lernen. Gibt zu bestimmten Zeitpunkten eine Belohnung oder Bestrafung für gute/ schlechte Aktionen.

Welche Aufteilung von Klassifkation gibt es?

- überwacht/ nicht


- linear / nicht linear


- parametrisch / nicht parametrisch

kohent som

? roginas script mehr details

Entscheidungsfläche? XOR Problem

malen

wie meiosis?



Bei Varianz splitten


Was für eine Varianz denn?

Welche Fehlerfunktionen

- MSE


- CE


- CFM

Wie kann man training beschleiningen

Momentum, Qickprop, Resilent Propagation

Wie kann man NN in der Spracherkennung einsetzen

Schätzen der Emissionen, Sprachmodell


Man erhält posteriori und muss in klassenbedingte umwandeln.

Stärken Schwächen BP?

?

TDNN erklären

paper


Weight sharing!!!!

Sto modale Netze

?

Ist ein MLP linear

Nein!


Tam nochmal fragen ob Aktivierungsfunktion eine Rolle spielt

Kann man MLP unüberwacht trainieren?

Ja durch Autoencoder :)

Generalisierbarkeit

- weight decay


- weight elimination


- dropout


- weight limitation

Wozu sind neurale Netze gut

In Aufgaben die Menschen in Verlgeich zu Computern gut sind, z.B. Mustererkennung. Oder auch Klassifkation.

Zeichne und erkläre Perceptron

Mit Tam durchgehen

Wieso sind NN eine Zeit aus der Mode gekommen?

Gab Paper wo gezeigt wurde das Perceptons nur lineare Problem lösen können. Mit der Verbindung in MLPs sind sie mächtiger

Wie einzlenes Neuron trainieren?

Deltaregel?

Was kann ich machen wenn ich verrauschte Daten habe

Denoising Autoencoder

Welche Aktivierungsfunktionen

Alle malen und Eigenschafen! Mit TAM nochmal:


- Stufenfuntkion


- Linear


- Sigmoid


- Softmax


- ReLU


- Softplus


- tanh

Nachteil Sigmoid

Kann saturieren, dann ist der Gradient sehr klein und der Lernvorgang langsam. Gerade in Verbindung mit dem MSEist dies oft problematisch, da ein Sample mit bspw. t_x=0 und o_x fast 1 viel zum Fehler beiträgt, aber es sehr langedauert bis dieser Fehlerbeitrag behoben ist.

Was kennen Sie noch für Fehlerfunktionen?

Cross entropy, gut für Klassifikationsaufgaben zusammen mit Softmax, maximiert die Log-Wahrscheinlichtkeit, desTargets. Dann gibt es noch Classification Figure of Merit, man versucht den Abstand der Targetklasse und derzweitbesten Klasse zu maximieren.

Nachteil der Softmax?

Im Output blöd, weil sie von alle Neuronen abhängt und e^x nicht so schnell zu berechnen.

Wie stelle ich die Lernrate ein?

- Exponentially Decying und Newbob-Scheduling


- AdaGrad, Resilient Propagation, Weiterentwicklung MeanSquare Resilient Propagation

Wie werden die Neuronen/ Synapsen trainiert und wie macht man das beim NN?

Beim NN: mit den Gewichten. In der Natur: Synapsen, je öfter sie verwendet werden, je dicker/stärker werdenSie. (Eher wie dings verfahren?)

Was ist denn der Vorteil der Momentum Methode gegenüber der Scheduling Methode?

Kann mich aus lokalen Minima retten

Wie wird die Aktivierung der Neuronen in BMs berechnet?

BMs sind stochastisch (Aktivierung ist Wahrscheinlichkeit Abhängig von Sigmoidfunktion), im Gegensatz zu Hopfieldnetzen(Schwellwertfunktion).

Was ist das Problem von BMs?

Training ineffizienz da voll verbundener Graph


RBMs, bipartiter Graph, Daten werden in Eingabeschicht eingegeben, verdeckte Schicht repräsentiert innere Verteilung

Welche Möglichkeiten gibt es zur Bestimmung der Lernrate

Feste LR, Definierte Folge, Zeitabhängig, Gewichtsabhängig, Abhängig vom Fehler, Abhängig vom Gradienten, Momentum

Wie funktioniert Momentum? Formel?

W' = W + lernrate * (alpha * delta W_alt + delta W)

Was wäre denn die ungeglättete Version von tanh?

geglättest sign funktion (nicht ableitbar)


--> naschschlagen




geglätte step?


--> sigmoid

Welche Methoden gibt es denn zur Bestimmung der Gewichte eines MLPs?

(L-)BFGS, Conjugate Gradient, Quasinewton

Was sind Hopfield Netze

- Netze bestehend aus McCulloch-Pits Neuronen.


- Jeder mit jeder verbunden, nur nicht mit sich selbst.


- Knoten sind Ein und Ausgabe


- nicht sehr leistungsfähig


- können Muster wieder herstellen


- durch symmetrische Gewichte konvergiert das Netz (stabiler Zustand).


- stabiler Zustand ist ein lokales Minima

Was ist eine BM?

- Energy based NN.


- mehr.

Was ist SOM

- Self-Organizing Map (SOM)


- unsupervised learning method


- two-dimensional array of neuron (often)


- extra input neuronen die voll verdrahtet mit SOM Neuronen


- winner takes it all, welches neuron am ähnlichsten zum input, und alle nachbarn werden nach lernregel angepasst


1) random gewichte


2) sample ziehen


3) matching (welches neuron gewinnt)


4) update nachbarn


5) wieder zu 2)

Hebbian learning

was genau?


-genutzt in LVQ


1) self amplification: wenn neuronen auf beiden seiten aktiv, stärken, wenn unterschiedlich verbindung schwächen w_ij = x_i * x_j


2) competition: winner takes at all. the most similiar one wins.


3) cooperation: neurons tend to cooperate with each other.


4) structural information.

Clustering Methoden?

- k-Means: Anzahl der Partionen bekannt. Dann zufällig einzeichen, alle Punkte zum nähesten Cluster zuweisen. Neuen Mittelpunkt bestimmen und nochmals ausführen.




- fuzzy k-Means


not picking nearest center, stattdessen zugehörigkeitswarscheinlichkeit ausrechnen (zu welchen ist man wieviel näher als zum anderen)




- GMM mit EM, könnten z.B. K-Means zur initialisierung verwenden.




- und VQ!!


- SOM

Wie EM?

Zwei schritte, Expectation (neu Zuordnung der Punkte) und Maximation (Anpassung des Models zu den Daten).


Diese wiederholen bis sich model nicht ändert

Male Perceptron, MCP, Rosenblatt Neuron

V04_ Folie 5

was heist lineare separierbar?

Wenn 2 Mengen unterschiedlicher Klassen.


--> konvexe Hülle beider disjunkt


-- > wenn es ein w gibt, das x_c1 * w >0 und x_c2 *w <= 0

Perceptron Algo

- supervised learning


- data is linear seperable


- invertieren aller features der anderen Klasse (inverted data trick)


- update bei falscher Klassifizierung


w_t = w_t-1 + alpha * x;

Wie Klassifiziere ich mit einem Perceptron mehrere Klassen?

- pairwise classifkatoren: für jede Kombination eigenen Klassifkator= k * (k+1) Stück


oder layer von perceptron


- individual: jeder sagt wie sicher er sich ist das es die Klasse ist. Der mit der höchsten warsch. gewinnt.

Arten der Features

Nominal:


no median, stattdessen mode (am häufigsten)




Ordinal:


mit Ordnung




Interval:


no true zero, temperaturen




Ratio Feature:


ist halb so gross



Distanz metriken

4 Eigenschaften


d(x,y) >= 0


d(x,y) = 0 <=> x=y (pseudometric - after Dim Red)


d(x,y) = d(y,x) (Quasimetric)


d(x,z) = d(x,y) + d(y+z)




alles Jacardi, Levnesthein metric

preprossing?

leads to more circular error funtions for linear activation:




- mean substraction


- rescale



SDG

Stochast descent gradient




1: randomize training


2: foreach x in Training


forward pass



MLP Design criteria

-Network Topology


-Activation functions


- Error function


- Initial weights


- Learning Rate


- Mini-Batch size


- Data pre-processing

Autoencoder Problems?

Which AF for hidden unit?


Linear:


- is like PCA


- pass tough instead of learning


--> non linear are needed




AF for output?


Depends on training data, because whole spectrum has to be mapped




Error function?


CE for binary


MSE for real


L1 and L2 regulaitions are good :)




--> Denoisung, with random mask in input

Cascade correlation

- nach und nach hidden layers hinzugefügt


- zuerst nur in und output


- verbindung wird trainiert und dann fixiert


- dann wird candidaten pool aufgemacht und die candidaten auf den resudial error trainiert


- der candidate der den fehler am besten approximiert wird genommen und hinzugefügt.


- dann wieder zu Schritt 2 und die verbindung zu den outputs lernen


- stop wenn fehler nicht mehr besser wird oder so

meiosos

hinfügen von hidden units wenn hohe unsicherheit


- mittelwert und gewicht wird gelernt, wenn varianz zu hoch richtung input und output dann wird hidden unit geteilt


sum(mean) / sum(var) > 1


- instabilität beim hinzufügen

computer vision task nach schwierigkeit

-classifaction


- localisation


- detection


- segmentation