Eine Reihe von Kontrollmechanismen kann verwendet werden, um auszuwählen, welche Experten in einer bestimmten Situation eingesetzt werden. Die Wahl der richtigen Gating-Funktion ist entscheidend für die Leistung des Modells, denn eine schlechte Routing-Strategie kann dazu führen, dass einige Experten zu wenig trainiert oder zu sehr spezialisiert sind, wodurch die Effizienz des gesamten Netzwerks verringert wird.

Ein typischer Gating-Mechanismus in einem traditionellen MoE-Setup, der in Shazeers bahnbrechender Arbeit vorgestellt wurde, verwendet die Softmax-Funktion: Für jeden der Experten sagt der Router pro Beispiel einen Wahrscheinlichkeitswert (basierend auf der Gewichtung der Verbindungen dieses Experten zum aktuellen Parameter) voraus, dass dieser Experte die beste Ausgabe für eine bestimmte Eingabe liefert. Anstatt die Ausgabe aller Experten zu berechnen, berechnet der Router nur die Ausgabe der besten k Experten für dieses Beispiel. Wie bereits beschrieben, verwendet Mixtral diese klassische Top-k-Routing-Strategie: Insbesondere verwendet es ein Top-2-Routing – also k=2 – und wählt die besten 2 (von insgesamt 8) Experten aus.

In ihrem einflussreichen Artikel von 2021, „Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity“, brachten Fedus et al. das Top-k-Routing auf die Spitze: Bei der Arbeit mit Googles T5 LLM ersetzten sie die FFN-Schichten des Modells durch 128 Experten und implementierten k=1, auch als „hartes Routing“ bezeichnet. Selbst bei einer Skalierung des Modells auf eine Billion Parameter verbesserte diese Konfiguration die Vortraining-Geschwindigkeiten um 400 %.6