# Reinforcement Learning - Vokabelliste

## Tag 1: Einführung

| Begriff | Definition |
|---------|-----------|
| Agent | Handelnde Einheit, die mit der Umgebung interagiert |
| Aktion (a) | Handlung des Agenten in einem Zustand |
| Umgebung (Environment) | Welt, in der der Agent agiert |
| Zustand (State, s) | Aktuelle Situation des Agenten |
| Belohnung (Reward, r) | Rückmeldung der Umgebung nach einer Aktion |
| Policy (π) | Strategie/Politik: Abbildung von Zuständen auf Aktionen |
| Episode | Ein kompletter Spieldurchlauf (Start bis Terminal) |
| Trajektorie (τ) | Folge von (s, a, r, s', a', r', ...) innerhalb einer Episode |
| Terminaler Zustand | Endzustand einer Episode |
| Modell (p) | Übergangswahrscheinlichkeit p(s',r|s,a) der Umgebung |
| Reward Shaping | Anpassung der Belohnungsfunktion für besseres Lernen |
| Gewinn (G) | Kumulierte (diskontierte) Summe der Belohnungen |
| Value Function (V) | Erwarteter Gewinn ab einem Zustand: V(s) = E[G|s] |
| Qualität (Q) | Erwarteter Gewinn für Zustand-Aktion-Paar: Q(s,a) = E[G|s,a] |

## Tag 2: MDP & Notation

| Begriff | Definition |
|---------|-----------|
| MDP | Markov Decision Process: formales Framework für RL |
| s | Zustand (state) |
| a | Aktion (action) |
| π(a\|s) | Policy: Wahrscheinlichkeit für Aktion a in Zustand s |
| R, r | Belohnung (reward) |
| G | Gewinn/Return: diskontierte Summe der Belohnungen |
| V(s), v(s) | State-Value-Funktion: erwarteter Gewinn ab Zustand s |
| v*(s) | Optimale State-Value-Funktion |
| Q(s,a), q(s,a) | Action-Value-Funktion: erwarteter Gewinn für (s,a) |
| q*(s,a) | Optimale Action-Value-Funktion |
| γ (gamma) | Diskontfaktor (0-1): Gewichtung zukünftiger Belohnungen |
| α (alpha) | Lernrate: Schrittweite beim Update |
| J(π) | Zielfunktion: Gesamtperformance einer Policy |

## Tag 3: Bellman & Dynamic Programming

| Begriff | Definition |
|---------|-----------|
| Bellman-Gleichung | Rekursive Beziehung zwischen V(s) und V(s') |
| Dynamic Programming (DP) | Lösung bei bekanntem Modell durch iterative Berechnung |
| Policybewertung | Berechnung von V(s) für eine gegebene Policy |
| Policyverbesserung | Greedy-Update der Policy basierend auf V(s) |
| Policyiteration | Abwechselnde Bewertung und Verbesserung bis Konvergenz |
| Wertiteration | Direkte Berechnung der optimalen V* ohne explizite Policy |
| On-Policy | Lernt aus Daten der aktuell verwendeten Policy |
| Off-Policy | Lernt aus Daten einer anderen (z.B. alten) Policy |
| SARSA | On-Policy TD: Update mit (S, A, R, S', A') |

## Tag 4: Q-Learning & Exploration

| Begriff | Definition |
|---------|-----------|
| Exploration | Neue Aktionen ausprobieren, um die Umgebung zu erkunden |
| Exploitation | Bekanntes Wissen nutzen, um Belohnung zu maximieren |
| ε-greedy | Mit Wahrscheinlichkeit ε zufällig, sonst greedy handeln |
| Softmax | Aktionswahl proportional zu e^(Q/τ), weichere Alternative zu greedy |
| Temperature (τ) | Steuert Schärfe der Softmax-Verteilung (hoch=gleichverteilt) |
| Q-Learning | Off-Policy TD: nutzt max über nächste Aktionen |
| Monte Carlo (MC) | Lernt aus kompletten Episoden (ganze Trajektorie) |
| Sampling | Stichprobenbasiertes Lernen statt vollständiger Berechnung |
| Probing | Gezielte Erkundung eines Zustands |
| Replay Buffer | Speicher vergangener Erfahrungen für späteres Training |
| Full Sweep | Einmal über alle Zustände iterieren (bei DP) |
| Exploring Starts | Jeder Zustand kann Startzustand sein |
| TD (Temporal Difference) | Lernt aus einzelnen Schritten mit Bootstrap |

## Tag 5: Deep RL & DQN

| Begriff | Definition |
|---------|-----------|
| Deep Reinforcement Learning | RL mit neuronalen Netzen als Funktionsapproximator |
| Deep Q-Learning (DQN/DQL) | Q-Learning mit einem neuronalen Netz statt Q-Tabelle |
| Catastrophic Forgetting | Netz vergisst früher Gelerntes beim Training neuer Daten |
| Target Network | Zweites Netz für stabile Zielwert-Berechnung, periodisch aktualisiert |
| Transition Memory | Speicher für (s, a, r, s')-Übergänge |
| Batch/Replay | Training auf zufälligen Stichproben aus dem Speicher |
| Zustandsübergänge | Gespeicherte Tupel p(s',r|s,a) für Replay |
| Spielverläufe | Komplette Trajektorien/Pfade (Monte-Carlo-Ansatz) |
| Funktionalapproximation | Approximation von V/Q durch Funktionen statt Tabellen |
| Transferlernen | Gelerntes Modell auf neue, ähnliche Aufgaben übertragen |

## Tag 6: MC vs TD

| Begriff | Definition |
|---------|-----------|
| MC vs TD | Monte Carlo (ganze Episode) vs Temporal Difference (ein Schritt) |
| Episodic Sampling | Sampling ganzer Episoden (Monte Carlo) |
| Step Sampling | Sampling einzelner Schritte (TD) |
| Reverse Gain | Rückwärts berechneter kumulierter Gewinn |
| Expected SARSA | SARSA mit Erwartungswert über alle Aktionen statt Sample |

## Tag 7: Policy Gradient & REINFORCE

| Begriff | Definition |
|---------|-----------|
| PG (Policy Gradient) | Direkte Optimierung der Policy über Gradientenaufstieg |
| logprob / log(π) | Logarithmierte Aktionswahrscheinlichkeiten, Teil der Loss-Formel |
| Multinomial/Categorical Sampling | Aktion aus diskreter Wahrscheinlichkeitsverteilung ziehen |
| REINFORCE | Standard-PG-Algorithmus: Policy Gradient + Monte Carlo |
| observation ≈ state | Beobachtung des Agenten, oft synonym mit Zustand |
| detach().item() | PyTorch: Zahl aus Tensor extrahieren (kein Gradient mehr) |
| discrete / continuous | Diskrete vs. kontinuierliche Zustands-/Aktionsräume |
| Normal(mu, std) | Normalverteilung für kontinuierliche Aktionen |
| Return Normalization | (G - mean) / std: stabilisiert Gradientenmagnituden |
| Gradient Clipping | clip_grad_norm_(..., 1.0): begrenzt Gradientennorm |

## Tag 8: Actor-Critic

| Begriff | Definition |
|---------|-----------|
| AC (Actor-Critic) | Hybrid: Actor (Policy) + Critic (Value) lernen gleichzeitig |
| Actor | Netz das die Policy π(a\|s) lernt |
| Critic | Netz das die Value-Funktion V(s) lernt |
| δ (delta) | TD-Fehler: r + γV(s') - V(s), Signal für Actor-Update |
| Advantage (A) | Vorteil einer Aktion: A(s,a) = Q(s,a) - V(s), δ ist ein Schätzer |
| Baselines | Referenzwert (z.B. V(s)) zur Varianzreduktion beim PG |
| τ (tau, Trajektorie) | Eine Trajektorie, Folge von (s,a,r,...) |
| Single Replay | Training mit einer einzelnen Trajektorie |
| Replay Buffer | Batch von Trajektorien: D = (τ₀, ..., τₙ) |
| Episodic Replay Buffer | Speicher ganzer Episoden |
| Step Replay Buffer | Speicher einzelner (s,a,r,s')-Schritte |
| DDPG | Deep Deterministic Policy Gradient (AC-Algorithmus von 2015) |
| OU-Noise | Ornstein-Uhlenbeck-Rauschen für Exploration bei DDPG |
| Entropie-Bonus | loss += -log(π) * 1, fördert Exploration in PG |

## Tag 9: Model-Based RL

| Begriff | Definition |
|---------|-----------|
| .detach() | PyTorch: Tensor wird nicht zum Training verwendet (kein Backprop) |
| torch.no_grad() | PyTorch: Kontext ohne Gradientenberechnung |
| Multi-Head / Multi-Task Learning | Ein Netz lernt mehrere Aspekte (π, Q, V, r, s') |
| Modell-Funktion p | Gelernte Übergangsfunktion der Umgebung |
| Experience Buffer | Speicher für gesammelte Erfahrungen |
| Rollout | Eine Episode/Trajektorie in der Simulation |
| Warmup | Anfängliche Schritte bevor das Modell verwendet wird |
| Dynamik | Synonym für modellierte Umgebung |
| Dyna-Q | Algorithmus der Q-Learning mit gelerntem Modell verbindet |
| Simulation | Künstliche Umgebung basierend auf gelerntem Modell |
| Model-Visualisierung | Visualisierung der gelernten Simulation |
| Dreamer | World-Model-Algorithmus (DeepMind), lernt komplett in Simulation |

## Tag 10: Multi-Agent & PPO

| Begriff | Definition |
|---------|-----------|
| PPO (Proximal Policy Optimization) | Stabiler PG-Algorithmus mit geclipptem Policy-Ratio |
| MARL | Multi-Agent Reinforcement Learning |
| GAE (λ) | Generalized Advantage Estimation: gewichteter Mix aus n-Schritt-Advantages |
| Emergent | Emergentes Verhalten: komplexe Muster aus einfachen Regeln |
| KL-Divergenz | Kullback-Leibler: Abstandsmaß zwischen zwei Verteilungen |
| (Cross/Self-)Entropy | Maß für Unsicherheit/Überraschung einer Verteilung |
| Centralized | Zentralisiertes Training mit geteiltem Wissen |
| Surrogate Loss | -log_prob * Φ, wobei Φ ein beliebiger Vorteilsschätzer ist |
| G (Gain/Return) | Kumulierte Belohnung: G = Σγⁱrᵢ |
| V = E(G\|s) | Lokaler erwarteter Gewinn ab Zustand s |
| Q = E(G\|s,a) | Erwarteter Gewinn für Zustand-Aktion-Paar |
| J(π) | Globaler erwarteter Return: R^ = Σμ(s)Σπ*Q(s,a) |
| μ(s) | State Distribution: erwartete Besuchshäufigkeit unter Policy π |

## Tag 11: Inverse RL

| Begriff | Definition |
|---------|-----------|
| IRL (Inverse RL) | Lernt die Belohnungsfunktion aus Demonstrationen |
| Learning from Demonstrations | Lernen durch Beobachtung eines Experten ≈ IRL |
| Demonstrator / Expert | Der Agent, dessen Verhalten wir beobachten |
| D (Demonstrationen) | Menge von Daten/Trajektorien: D = (τ₀, ..., τₙ) |
| Apprentice | "Lehrling": der lernende Agent |
| R(τ) = w*φ(τ) | Return als gewichtete Feature-Summe über Trajektorie |
| Entropy H(p) | H = -Σpᵢ log pᵢ, misst Überraschung/Unordnung |
| Offline IRL | IRL ohne Interaktion mit der Umgebung |
| Distribution Shift | Verteilungsverschiebung zwischen Training und Test |

## Tag 12: Meta RL & Latent Space

| Begriff | Definition |
|---------|-----------|
| Latent Space | Mittlere Schicht eines Autoencoders, komprimierte Repräsentation |
| Bottleneck | Engstelle im Netz, erzwingt Komprimierung |
| Feature Vector | Vektor mit abstrakten Merkmalen/Aspekten |
| Autoencoder | Netz das Eingabe komprimiert und rekonstruiert |
| Inner-Loop | Adaptation: Anpassung an eine spezifische Aufgabe |
| Outer-Loop | Meta-Training: Training über viele Aufgaben hinweg |
| Tasks/Skills | Verschiedene MDPs/Aufgaben beim Meta-Learning |
| M (Menge aller MDPs) | Aufgabenverteilung beim Meta-Learning |
| Trial / Lifetime | Ein Durchlauf des Inner-Loop auf einer Aufgabe |
| Adaptation ≈ Fine-Tuning | Anpassung an eine neue Aufgabe |
| H (Horizont) | Anzahl der Episoden pro Trial |
| K Shots | Anzahl Inner-Steps in der Exploitation-Phase |
| Meta-Testing | Test der Meta-Policy auf neuen, ungesehenen Aufgaben |
| f: Meta-Funktion | f(D) = π, spuckt vortrainierte Policy aus |
| Out-of-Distribution | Testdaten außerhalb der Trainingsverteilung |
| POMDP | Partially Observable MDP: Zustand nicht vollständig beobachtbar |
| Dreamer v3/v4 | World-Model-Algorithmus, lernt in imaginierter Simulation |

## Tag 13: Novelty, HRL & LLM+RL

| Begriff | Definition |
|---------|-----------|
| Novelty/Curiosity | Intrinsische Motivation: Belohnung für Neues/Überraschendes |
| HRL (Hierarchisches RL) | RL mit Hierarchie von Policies (High-Level und Low-Level) |
| RLHF | RL from Human Feedback: LLM-Finetuning mit menschlichem Feedback |
| GRPO | Group Relative Policy Optimization: PPO-Vereinfachung ohne Critic |
| SFT | Supervised Fine-Tuning: überwachtes Finetuning eines LLM |
| Chain-of-Thought (CoT) | Schritt-für-Schritt-Reasoning in LLMs |
| SAC | Soft Actor-Critic: Off-Policy AC mit Entropie-Regularisierung |
| TD3 | Twin Delayed DDPG: verbessertes DDPG mit zwei Critics |
| TD(λ) | TD mit gewichtetem Mix aus n-Schritt-Returns |

## Symbole - Kurzübersicht

| Symbol | Bedeutung |
|--------|-----------|
| s | Zustand (state) |
| a | Aktion (action) |
| r | Belohnung (reward) |
| π | Policy (Strategie) |
| θ | Netzwerk-/Policyparameter (Gewichte) |
| ∇θ | Gradient der Gewichte (Richtung des Updates) |
| γ | Diskontfaktor (0-1) |
| α | Lernrate |
| ε | Explorationsrate (epsilon-greedy) |
| δ | TD-Fehler: r + γV(s') - V(s) |
| τ | Trajektorie oder Temperature |
| G | Gewinn/Return ab Zeitpunkt t |
| V(s) | State-Value-Funktion |
| Q(s,a) | Action-Value-Funktion |
| A(s,a) | Advantage-Funktion: Q(s,a) - V(s) |
| J(π) | Zielfunktion der Policy |
| p(s',r\|s,a) | Modell: Übergangswahrscheinlichkeit |
| D | Daten/Demonstrationen (Menge von Trajektorien) |
| H | Entropie oder Horizont |
| λ | Mischparameter in GAE/TD(λ) |

## Algorithmen - Kurzübersicht

| Algorithmus | Typ | Kernidee |
|-------------|-----|----------|
| SARSA | On-Policy TD | Q-Update mit tatsächlich gewählter nächster Aktion |
| TD(0) | On-Policy TD | V-Update mit einem Schritt Bootstrap |
| Q-Learning | Off-Policy TD | Q-Update mit max über nächste Aktionen |
| Monte Carlo | Episodisch | Lernt aus kompletten Episoden (Rückwärts-G) |
| DQN/DQL | Off-Policy + NN | Q-Learning mit neuronalem Netz + Target-Netz + Replay |
| REINFORCE | On-Policy PG | Policy Gradient + Monte Carlo Return |
| Actor-Critic | Hybrid PG+TD | Actor (Policy) + Critic (Value), TD-Fehler δ als Signal |
| PPO | On-Policy PG | Geclipptes Policy-Ratio für stabile Updates |
| DDPG | Off-Policy AC | Deterministic PG für kontinuierliche Aktionen |
| SAC | Off-Policy AC | AC mit Entropie-Regularisierung |
| TD3 | Off-Policy AC | Verbessertes DDPG mit Twin Critics |
| Dyna-Q | Model-Based | Q-Learning + gelerntes Modell für zusätzliche Updates |
| Dreamer | Model-Based | World Model, lernt komplett in Imagination |
| IRL | Inverse | Lernt Belohnungsfunktion aus Experten-Demonstrationen |
| GRPO | On-Policy PG | Gruppen-Advantage statt Critic (für LLMs) |

## PyTorch-Vokabular

| Begriff | Definition |
|---------|-----------|
| .detach() | Tensor vom Berechnungsgraph lösen (kein Backprop) |
| torch.no_grad() | Kontext ohne Gradientenberechnung (Evaluierung) |
| .item() | Skalarwert aus 0D-Tensor extrahieren |
| loss.backward() | Gradienten berechnen (Backpropagation) |
| optimizer.step() | Gewichte aktualisieren |
| optimizer.zero_grad() | Gradienten zurücksetzen |
| clip_grad_norm_() | Gradientennorm begrenzen (gegen Exploding Gradients) |
| nn.Softmax(dim=-1) | Wahrscheinlichkeitsverteilung über Aktionen |
| Categorical/Multinomial | Sampling aus diskreter Verteilung |
| Normal(mu, std) | Normalverteilung für kontinuierliche Aktionen |
| squeeze/unsqueeze | Dimensionen entfernen/hinzufügen |