Tiefe neuronale Netze sind mächtige Vorhersagemodelle mit Anwendungen in vielen Disziplinen. Jedoch ist es eine schwierige Aufgabe ein gut generalisierendes Modell zu trainieren, da viel Rechenleistung, große Datensätze und korrekte Hyperparameterwahl erforderlich sind. In dieser Dissertation verbinden wir evolutionäre Ansätze mit modernen, großen neuronalen Netzen um den Trainingsprozess in den drei genannten Bereichen zu verbessern. Wir stellen die Netzwerkarchitektur als besonders wichtigen Hyperparameter heraus und entwickeln automatische Architektursuchalgorithmen. Da Netzwerkarchitektur und -gewichte eng zusammenhängen, schlagen wir einen evolutionären Trainingsalgorithmus für große neuronale Netze vor. Für alle Algorithmen legen wir Wert auf geringen Rechenbedarf, um den erhöhten Anforderungen des Suchprozesses entgegenzuwirken. Abschließend sind wir durch die Integration von multi-task learning in der Lage, die Menge benötigter Trainingsdaten zu verringern.
Deep neural networks are powerful predictive models that are applied in many different fields of study to great success. However, training a model that generalizes well is a difficult task that requires much computational power, large datasets, and a correct choice of a vast number of hyperparameters. In this thesis, we connect evolutionary approaches to modern, large-scale deep learning to improve the training process in the three mentioned areas. We highlight the influence of the network architecture as an especially important hyperparameter and develop automated architecture search methods. Since network architecture and network weights are closely related, we also propose an evolutionary large-scale network training algorithm. For all algorithms, we place special emphasis on low computational requirements to counteract the cost of the search process. Finally, we are able to reduce the required amount of training data by integrating multi-task learning.
Tiefe neuronale Netze sind mächtige Vorhersagemodelle mit Anwendungen in vielen Disziplinen. Jedoch ist es eine schwierige Aufgabe ein gut generalisierendes Modell zu trainieren, da viel Rechenleistung, große Datensätze und korrekte Hyperparameterwahl erforderlich sind. In dieser Dissertation verbinden wir evolutionäre Ansätze mit modernen, großen neuronalen Netzen um den Trainingsprozess in den drei genannten Bereichen zu verbessern. Wir stellen die Netzwerkarchitektur als besonders wichtigen Hyperparameter heraus und entwickeln automatische Architektursuchalgorithmen. Da Netzwerkarchitektur und -gewichte eng zusammenhängen, schlagen wir einen evolutionären Trainingsalgorithmus für große neuronale Netze vor. Für alle Algorithmen legen wir Wert auf geringen Rechenbedarf, um den erhöhten Anforderungen des Suchprozesses entgegenzuwirken. Abschließend sind wir durch die Integration von multi-task learning in der Lage, die Menge benötigter Trainingsdaten zu verringern.
Deep neural networks are powerful predictive models that are applied in many different fields of study to great success. However, training a model that generalizes well is a difficult task that requires much computational power, large datasets, and a correct choice of a vast number of hyperparameters. In this thesis, we connect evolutionary approaches to modern, large-scale deep learning to improve the training process in the three mentioned areas. We highlight the influence of the network architecture as an especially important hyperparameter and develop automated architecture search methods. Since network architecture and network weights are closely related, we also propose an evolutionary large-scale network training algorithm. For all algorithms, we place special emphasis on low computational requirements to counteract the cost of the search process. Finally, we are able to reduce the required amount of training data by integrating multi-task learning.
KI 2018: Advances in Artificial Intelligence Cham : Springer International Publishing, 2018 (2018), Seite 270-283 Online-Ressource (XIV, 424 p. 95 illus, online resource)
Parallel Problem Solving from Nature – PPSN XV Cham : Springer International Publishing, 2018 (2018), Seite 424-435 Online-Ressource (XXI, 501 p. 95 illus, online resource)