WO2024159132A1

WO2024159132A1 - Pré-apprentissage continu de réseaux neuronaux de mélange d'experts

Info

Publication number: WO2024159132A1
Application number: PCT/US2024/013166
Authority: WO
Inventors: Wuyang Chen; Yanqi Zhou; Nan DU; Yanping Huang; Yingwei Cui; Zhifeng Chen; James Laudon; Da HUANG; Andrew M. Dai
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2023-01-26
Filing date: 2024-01-26
Publication date: 2024-08-02
Anticipated expiration: 2025-07-26
Also published as: CN120883219A

Abstract

L'invention concerne des procédés, des systèmes et un appareil, y compris des programmes informatiques codés sur des supports de stockage informatiques, destinés à entraîner un réseau neuronal de mélange d'experts (MoE) sur de multiples ensembles de données d'apprentissage. L'un des procédés consiste à obtenir un nouvel ensemble de données d'apprentissage ; générer un ou plusieurs réseaux neuronaux experts supplémentaires sur la base d'un ou plusieurs de la pluralité de réseaux neuronaux experts ; générer un réseau neuronal MoE modifié sur la base de la modification de la couche MoE pour inclure le ou les réseaux neuronaux experts supplémentaires ; et entraîner le réseau neuronal MoE modifié sur le nouvel ensemble de données d'apprentissage pour mettre à jour des valeurs de paramètres du ou des réseaux neuronaux experts supplémentaires tout en maintenant des valeurs de paramètre de la pluralité de réseaux neuronaux experts fixes.