Praxiseinstieg Machine Learning mit Scikit-Learn, Keras und TensorFlow. Aurélien Géron

Praxiseinstieg Machine Learning mit Scikit-Learn, Keras und TensorFlow - Aurélien Géron


Скачать книгу
einige Techniken zur Regularisierung, mit denen sich die Gefahr einer Überanpassung an die Trainingsdaten senken lässt.

      Schließlich werden wir zwei weitere Modelle anschauen, die häufig für Klassifikationsaufgaben eingesetzt werden: die logistische Regression und die Softmax-Regression.

image Dieses Kapitel enthält einige mathematische Formeln, die Begriffe aus der linearen Algebra und Analysis verwenden. Um diese Formeln zu verstehen, müssen Sie wissen, was Vektoren und Matrizen sind, wie sich diese transponieren und multiplizieren lassen, wie man sie invertiert und was partielle Ableitungen sind. Wenn Sie mit diesen Begriffen nicht vertraut sind, gehen Sie bitte die als Jupyter-Notebooks verfügbaren einführenden Tutorials zu linearer Algebra und Analysis in den Onlinematerialien (https://github.com/ageron/handson-ml2) durch. Diejenigen unter Ihnen mit einer ausgeprägten Mathe-Allergie sollten dieses Kapitel dennoch durchgehen und die Formeln überspringen; ich hoffe, der Text hilft Ihnen, einen Großteil der Begriffe zu verstehen.

       Lineare Regression

      In Kapitel 1, haben wir ein einfaches Regressionsmodell der Zufriedenheit mit dem Leben betrachtet: Zufriedenheit = θ0 + θ1 × BIP_pro_Kopf.

      Dieses Modell ist nichts weiter als eine lineare Funktion des Eingabewerts BIP_pro_Kopf. θ0 und θ1 sind die Parameter des Modells.

      Allgemeiner formuliert, trifft ein lineares Modell eine Vorhersage, indem es eine gewichtete Summe der Eingabemerkmale berechnet und eine Konstante namens Bias-Term (oder Achsenabschnitt) hinzuaddiert, wie in Formel 4-1 zu sehen ist.

       Formel 4-1: Lineares Regressionsmodell zur Vorhersage

      ŷ = θ0 + θ1x1 + θ2x2 + … + θnxn

       ŷ ist der vorhergesagte Wert.

       n ist die Anzahl Merkmale.

       xi ist der i. Wert des Merkmals.

       θj ist der j. Modellparameter (inklusive des Bias-Terms θ0 und der Gewichte der Merkmale θ1, θ2, …, θn).

      In Vektorschreibweise lässt sich dies deutlich kompakter ausdrücken, wie Sie in Formel 4-2 sehen.

       Formel 4-2: Lineares Regressionsmodell zur Vorhersage (Vektorschreibweise)

      ŷ = hθ(X) = θ·x

       θ ist der Parametervektor des Modells mit Bias-Term θ0und den Gewichten der Merkmale θ1 bis θn.

       x ist der Merkmalsvektor eines Datenpunkts mit den Werten x0 bis xn, wobei x0 stets 1 beträgt.

       θ · x ist das Skalarprodukt der Vektoren θ und x, was natürlich θ0x0 + θ1x1 + θ2x2 + … + θnxn entspricht.

       hθ ist die Hypothesenfunktion unter Verwendung der Modellparameter θ.

image Beim Machine Learning werden Vektoren oft als Spaltenvektoren repräsentiert, also als zweidimensionale Arrays mit einer einzelnen Spalte. Handelt es sich bei θ und x um Spaltenvektoren, ist die Vorhersage image = θTx, wobei es sich bei θT um die Transponierte von θ handelt (ein Zeilen- statt eines Spaltenvektors) und θTx die Matrixmultiplikation von θT und x ist. Das ist natürlich die gleiche Vorhersage, nur dass sie nun als Matrix mit einer Zelle statt als Skalarwert dargestellt wird. In diesem Buch werde ich diese Notation nutzen, um einen Wechsel zwischen Skalarprodukt und Matrixmultiplikationen zu vermeiden.

      Dies ist also ein lineares Regressionsmodell. Wie sollen wir dieses trainieren? Wir erinnern uns, dass wir beim Trainieren eines Modells dessen Parameter so einstellen, dass das Modell so gut wie möglich an die Trainingsdaten angepasst ist. Dazu benötigen wir zuerst ein Qualitätsmaß für die Anpassung des Modells an die Trainingsdaten. In Kapitel 2 haben wir gesehen, dass das häufigste Gütekriterium bei einem Regressionsmodell die Wurzel der mittleren quadratischen Abweichung oder der Root Mean Square Error (RMSE) (Formel 2-1) ist. Um ein lineares Regressionsmodell zu trainieren, müssen wir daher den Wert für θ finden, für den der RMSE minimal wird. In der Praxis ist es einfacher, die mittlere quadratische Abweichung anstelle des RMSE zu berechnen. Dabei erhalten wir das gleiche Ergebnis (weil ein Wert, der eine Funktion minimiert, auch dessen Quadratwurzel minimiert).1

      Der mittlere quadratische Fehler (MSE) der Hypothese einer linearen Regression hθ lässt sich auf dem Trainingsdatensatz X mithilfe von Formel 4-3 berechnen.

       Formel 4-3: MSE-basierte Kostenfunktion für ein lineares Regressionsmodell

image

      Ein Großteil der Notation wurde bereits in Kapitel 2 vorgestellt (siehe »Schreibweisen« auf Seite 42). Der einzige Unterschied ist, dass wir hθ anstelle von h schreiben, um deutlich zu machen, dass das Modell durch den Vektor θ parametrisiert wird. Um die Notation zu vereinfachen, werden wir im Folgenden einfach nur MSE(θ) anstelle von MSE(X, hθ) schreiben.

       Die Normalengleichung

      Um einen Wert für θ zu finden, der die Kostenfunktion minimiert, gibt es eine Lösung mit geschlossener Form – anders ausgedrückt, eine mathematische Gleichung, die uns das Ergebnis direkt liefert. Diese wird auch als die Normalengleichung bezeichnet (Formel 4-4).

       Formel 4-4: Normalengleichung

      image = (XTX)–1


Скачать книгу