Jede dieser unzähligen Neuron-zu-Neuron-Verbindungen wird mit einer spezifischen Gewichtung multipliziert, die den Einfluss jeder Verbindung verstärkt (oder verringert). Die Eingabe für die Aktivierungsfunktion jedes Neurons kann als gewichtete Summe der Outputs jedes Neurons in der vorherigen Schicht verstanden werden. In der Regel wird jeder Aktivierungsfunktion auch ein eindeutiger Verzerrungs-Term hinzugefügt, der ähnlich wie der Verzerrungs-Term einer gängigen Regressionsfunktion funktioniert.
Während des Trainings „lernt“ das neuronale Netz durch Anpassungen der einzelnen Gewichtungen und Verzerrungstermini, die zu genaueren Ergebnissen führen. Dies sind die Parameter des Modells: Wenn Sie beispielsweise von einem großen Sprachmodell (Large Language Model, LLM) mit 8 Milliarden „Parametern“ lesen, spiegelt diese Zahl jede einzelne gewichtete Neuron-zu-Neuron-Verbindung und neuronenspezifische Verzerrung im neuronalen Netz des Modells wider.
In den Zwischenschichten, den sogenannten verborgenen Schichten des Netzwerks, findet der Großteil des Lernens statt. Es sind die mehreren verborgenen Schichten, die ein Deep-Learning-Modell von einem neuronalen Netz, das „nicht-deep“ ist, wie einer eingeschränkten Boltzmann-Maschine (RBN) oder einem Standard-Multilayer-Perzeptron (MLP) unterscheiden. Das Vorhandensein mehrerer verborgener Schichten ermöglicht es einem Deep-Learning-Modell, komplexe hierarchische Funktionen von Daten zu erlernen, wobei frühere Schichten umfassendere Muster erkennen und tiefere Schichten differenziertere Muster.
Um eine Inferenz durchzuführen, führt das Netz einen Vorwärtsdurchlauf durch: Die Eingabeschicht erhält Eingabedaten, in der Regel in Form von Einbetten mit Vektoren, wobei jedes Eingabeneuron eine einzelne Funktion des Eingabevektors verarbeitet. Beispielsweise hat ein Modell, das mit Graustufenbildern mit 10x10 Pixeln arbeitet, in der Regel 100 Neuronen in seiner Eingabeschicht, wobei jedes Eingabeneuron einem einzelnen Pixel entspricht. Neurale Netze erfordern daher in der Regel, dass die Eingaben auf eine bestimmte Größe festgelegt sind, wobei Vorverarbeitungstechniken wie Pooling oder Normalisierung eine gewisse Flexibilität hinsichtlich der Größe der ursprünglichen Eingabedaten selbst bieten können.
Die Daten werden schrittweise transformiert und an die Knoten der nachfolgenden Schicht weitergegeben, bis die letzte Schicht erreicht ist. Die Aktivierungsfunktionen der zugehörigen Neuronen in der Ausgabeschicht berechnen die endgültige Vorhersage des Netzwerks. Beispielsweise könnte jeder Ausgabeknoten eines tiefen Klassifizierungsmodells eine Softmax-Funktion ausführen, die im Wesentlichen eine numerische Eingabe verwendet und sie auf eine Wahrscheinlichkeit zwischen 0 und 1 skaliert, dass die Eingabe zu einer potenziellen Kategorie gehört. Das Modell würde dann die Kategorie ausgeben, die dem Ausgabeknoten entspricht, der die höchste Ausgabe liefert.