DDG: Data-dependency Gap: Ein neues Problem in der Lerntheorie von CNNs


  • Laufzeit: 17.06.2021 - 16.06.2024
    Zuwendungsgeber: DFG

    Prof. Dr. Marius Kloft
    Rheinland-Pfälzische Technische Universität Kaiserslautern-Landau

    In der statistischen Lerntheorie wollen wir theoretische Garantien für die Verallgemeinerungsfähigkeit von Algorithmen des maschinellen Lernens nachweisen. Der Ansatz besteht in der Regel darin, die Komplexität der mit dem Algorithmus verbundenen Funktionsklasse zu begrenzen. Wenn die Komplexität klein ist (im Vergleich zur Anzahl der Trainingsmuster), ist garantiert, dass der Algorithmus gut verallgemeinern kann. Bei neuronalen Netzen ist die Komplexität jedoch oft extrem groß. Nichtsdestotrotz haben neuronale Netzwerke - und insbesondere Faltungsnetzwerke - eine beispiellose Verallgemeinerung in einem breiten Anwendungsspektrum erreicht. Dieses Phänomen lässt sich nicht mit der Standardlerntheorie erklären. Obwohl eine reichhaltige Literatur durch die Analyse der impliziten Regularisierung, die durch das Trainingsverfahren auferlegt wird, Teilantworten liefert, ist das Phänomen im Großen und Ganzen nicht gut verstanden. In diesem Vorschlag führen wir einen neuen Gesichtspunkt zur "überraschend hohen" Generalisierung ein Fähigkeit neuronaler Netze: die Datenabhängigkeitslücke. Wir argumentieren, dass der wesentliche Grund für diese unerklärlichen Verallgemeinerungsfähigkeiten durchaus in der Struktur der Daten selbst liegen könnte. Unsere zentrale Hypothese ist, dass die Daten als Regularisierer beim Training neuronaler Netze fungieren. Das Ziel dieses Vorschlags ist es, diese Hypothese zu verifizieren. Wir werden empirische Evaluationen durchführen und eine Lerntheorie entwickeln, in Form von Lerngrenzen in Abhängigkeit von der Struktur in den Daten. Dabei werden wir die Gewichte der trainierten CNNs mit den unter Berücksichtigung der Struktur in der zugrundeliegenden Datenverteilung. Wir konzentrieren uns auf Faltungsneuronale Netze, die wohl prominenteste Klasse praktischer Neuronaler Netze. Die vorliegende Arbeit kann jedoch den Weg für die Analyse anderer Klassen von Netzen ebnen (dies kann in der zweite Förderperiode des SPP geschehen).