Praxiseinstieg Machine Learning mit Scikit-Learn, Keras und TensorFlow. Aurélien Géron

Praxiseinstieg Machine Learning mit Scikit-Learn, Keras und TensorFlow

einige Techniken zur Regularisierung, mit denen sich die Gefahr einer Überanpassung an die Trainingsdaten senken lässt.

Schließlich werden wir zwei weitere Modelle anschauen, die häufig für Klassifikationsaufgaben eingesetzt werden: die logistische Regression und die Softmax-Regression.

Dieses Kapitel enthält einige mathematische Formeln, die Begriffe aus der linearen Algebra und Analysis verwenden. Um diese Formeln zu verstehen, müssen Sie wissen, was Vektoren und Matrizen sind, wie sich diese transponieren und multiplizieren lassen, wie man sie invertiert und was partielle Ableitungen sind. Wenn Sie mit diesen Begriffen nicht vertraut sind, gehen Sie bitte die als Jupyter-Notebooks verfügbaren einführenden Tutorials zu linearer Algebra und Analysis in den Onlinematerialien (https://github.com/ageron/handson-ml2) durch. Diejenigen unter Ihnen mit einer ausgeprägten Mathe-Allergie sollten dieses Kapitel dennoch durchgehen und die Formeln überspringen; ich hoffe, der Text hilft Ihnen, einen Großteil der Begriffe zu verstehen.

Lineare Regression

In Kapitel 1, haben wir ein einfaches Regressionsmodell der Zufriedenheit mit dem Leben betrachtet: Zufriedenheit = θ₀ + θ₁ × BIP_pro_Kopf.

Dieses Modell ist nichts weiter als eine lineare Funktion des Eingabewerts BIP_pro_Kopf. θ₀ und θ₁ sind die Parameter des Modells.

Allgemeiner formuliert, trifft ein lineares Modell eine Vorhersage, indem es eine gewichtete Summe der Eingabemerkmale berechnet und eine Konstante namens Bias-Term (oder Achsenabschnitt) hinzuaddiert, wie in Formel 4-1 zu sehen ist.

Formel 4-1: Lineares Regressionsmodell zur Vorhersage

ŷ = θ₀ + θ₁x₁ + θ₂x₂ + … + θ_nx_n

ŷ ist der vorhergesagte Wert.

n ist die Anzahl Merkmale.

x_i ist der i. Wert des Merkmals.

θ_j ist der j. Modellparameter (inklusive des Bias-Terms θ0 und der Gewichte der Merkmale θ1, θ2, …, θ_n).

In Vektorschreibweise lässt sich dies deutlich kompakter ausdrücken, wie Sie in Formel 4-2 sehen.

Formel 4-2: Lineares Regressionsmodell zur Vorhersage (Vektorschreibweise)

ŷ = h_θ(X) = θ·x

θ ist der Parametervektor des Modells mit Bias-Term θ0und den Gewichten der Merkmale θ1 bis θn.

x ist der Merkmalsvektor eines Datenpunkts mit den Werten x0 bis x_n, wobei x0 stets 1 beträgt.

θ · x ist das Skalarprodukt der Vektoren θ und x, was natürlich θ0x0 + θ1x1 + θ2x2 + … + θ_nx_n entspricht.

h_θ ist die Hypothesenfunktion unter Verwendung der Modellparameter θ.

Beim Machine Learning werden Vektoren oft als Spaltenvektoren repräsentiert, also als zweidimensionale Arrays mit einer einzelnen Spalte. Handelt es sich bei θ und x um Spaltenvektoren, ist die Vorhersage

= θ^Tx, wobei es sich bei θ^T um die Transponierte von θ handelt (ein Zeilen- statt eines Spaltenvektors) und θ^Tx die Matrixmultiplikation von θ^T und x ist. Das ist natürlich die gleiche Vorhersage, nur dass sie nun als Matrix mit einer Zelle statt als Skalarwert dargestellt wird. In diesem Buch werde ich diese Notation nutzen, um einen Wechsel zwischen Skalarprodukt und Matrixmultiplikationen zu vermeiden.

Dies ist also ein lineares Regressionsmodell. Wie sollen wir dieses trainieren? Wir erinnern uns, dass wir beim Trainieren eines Modells dessen Parameter so einstellen, dass das Modell so gut wie möglich an die Trainingsdaten angepasst ist. Dazu benötigen wir zuerst ein Qualitätsmaß für die Anpassung des Modells an die Trainingsdaten. In Kapitel 2 haben wir gesehen, dass das häufigste Gütekriterium bei einem Regressionsmodell die Wurzel der mittleren quadratischen Abweichung oder der Root Mean Square Error (RMSE) (Formel 2-1) ist. Um ein lineares Regressionsmodell zu trainieren, müssen wir daher den Wert für θ finden, für den der RMSE minimal wird. In der Praxis ist es einfacher, die mittlere quadratische Abweichung anstelle des RMSE zu berechnen. Dabei erhalten wir das gleiche Ergebnis (weil ein Wert, der eine Funktion minimiert, auch dessen Quadratwurzel minimiert).¹

Der mittlere quadratische Fehler (MSE) der Hypothese einer linearen Regression h_θ lässt sich auf dem Trainingsdatensatz X mithilfe von Formel 4-3 berechnen.

Formel 4-3: MSE-basierte Kostenfunktion für ein lineares Regressionsmodell

Ein Großteil der Notation wurde bereits in Kapitel 2 vorgestellt (siehe »Schreibweisen« auf Seite 42). Der einzige Unterschied ist, dass wir h_θ anstelle von h schreiben, um deutlich zu machen, dass das Modell durch den Vektor θ parametrisiert wird. Um die Notation zu vereinfachen, werden wir im Folgenden einfach nur MSE(θ) anstelle von MSE(X, h_θ) schreiben.

Die Normalengleichung

Um einen Wert für θ zu finden, der die Kostenfunktion minimiert, gibt es eine Lösung mit geschlossener Form – anders ausgedrückt, eine mathematische Gleichung, die uns das Ergebnis direkt liefert. Diese wird auch als die Normalengleichung bezeichnet (Formel 4-4).

Formel 4-4: Normalengleichung

= (X^TX)^–1

Скачать книгу