Dezentrales, datenschutzkonformes kollaboratives Training von KI-Modellparametern
Kurzfassung
Das patentierte Ring-Protokoll mit Verschleierung ermöglicht kollaboratives KI-Training ohne Datenweitergabe – DSGVO-konform by design, ohne zentralen Aggregierungsserver. Es adressiert regulierte Hochrisikobranchen wie Banking, Gesundheitswesen, Telekommunikation und autonomes Fahren.
Vorteile
- Kein zentraler Server/Aggregator erforderlich – vollständig dezentrales Ring-Protokoll (einzigartiges Alleinstellungsmerkmal gegenüber allen bekannten Federated-Learning-Lösungen).
- Keine Rohdaten- und keine Teilmodell-Weitergabe – Reverse Engineering der Trainingsdaten ist strukturell ausgeschlossen.
- DSGVO-konform by design: Trainingsdaten verbleiben vollständig beim jeweiligen Dateninhaber.
- Modellunabhängig: funktioniert mit neuronalen Netzen, Association Rules, Decision Trees, Empfehlungssystemen u. a.
- Einsatz bestehender Software-Infrastruktur: keine spezielle Hardware erforderlich.
- Skalierbar auf beliebige Teilnehmerzahl; empfohlene Mindestanzahl: 4–5 Peers.
- Reduzierter Kommunikationsaufwand gegenüber der Star-Topologie (n-1 statt n×(n-1) Verbindungen).
- Ermöglicht kollaboratives Lernen zwischen Wettbewerbern oder Institutionen verschiedener Länder ohne gegenseitiges Vertrauen.
Anwendungsbereiche
Konkurrierende Banken und Versicherungen trainieren gemeinsam Modelle zur Betrugserkennung, Kreditrisikobewertung und Geldwäscherkennung, ohne sensible Kundentransaktionsdaten preiszugeben. SWIFT pilotiert 2025 gemeinsam mit Google Cloud und 12 globalen Banken kollaborative Betrugserkennung mittels Federated Learning – allerdings noch mit einem zentralen Server. Die vorliegende Erfindung bietet die datenschutzstärkere, serverlose Alternative.
Netzbetreiber trainieren gemeinsam Modelle zur Erkennung von Cyberangriffen (Phishing, Malware, DDoS), ohne Netz- oder Kundendaten auszutauschen. Ein weiterer Anwendungsbereich könnte für Krankenhäuser und Forschungseinrichtungen sein, die gemeinsam Diagnosemodelle trainieren (Krebserkennung, Bildanalyse, Medikamentenentwicklung) unter vollständiger DSGVO- und HIPAA-Compliance. Außerdem könnten FL-Plattformanbieter das Ring-Protokoll als datenschutzstärkere Ergänzung in ihre bestehenden, aggregatorbasierten Lösungen integrieren.
Hintergrund
Der Einsatz von maschinellem Lernen und Datenanalyse hat in nahezu allen Wirtschaftsbereichen eine strategische Bedeutung erlangt. Häufig liegen die wertvollsten Trainingsdaten jedoch in mehreren Unternehmen, die aus regulatorischen oder wettbewerbsgründen keine Rohdaten teilen möchten oder dürfen. Sogenannte Federated-Learning-Ansätze (z. B. von Google, Apple, Tesla) ermöglichen zwar ein verteiltes Modelltraining, erfordern aber entweder einen zentralen Server als Vertrauensanker oder tauschen lokale Modell-Updates (Gradienten, Gewichte) aus – aus denen sich durch Reverse Engineering wiederum sensible Rückschlüsse auf die Trainingsdaten ziehen lassen.
Der Markt für Privacy-Preserving Machine Learning wächst mit >40 % p. a. und wird durch regulatorischen Druck (DSGVO, EU AI Act ab Aug. 2026, DORA, EU Data Act) zusätzlich beschleunigt. Der weltweite Federated-Learning-Markt wird aktuell auf ca. 138–297 Mio. USD (2024) auf 1,6–1,9 Mrd. USD bis 2030 anwachsen.
Problemstellung
Unternehmen, die gemeinsam bessere KI-Modelle entwickeln möchten, stehen vor einem fundamentalen Dilemma:
- Rohdaten sind rechtlich und wettbewerbsrechtlich nicht teilbar (Geschäftsgeheimnis, DSGVO, HIPAA etc.).
- Klassisches Federated Learning tauscht lokale Modell-Updates aus – diese erlauben das Reverse Engineering der Trainingsdaten und schaffen einen Single Point of Trust (zentraler Server).
- Bestehende dezentrale Ansätze erfordern kryptographisch aufwendige Protokolle wie Secure Multi-Party Computation, mit teilweise extrem hohem Rechenaufwand, oder den Einsatz sogenannter Differential Privacy, welche zur Verschlechterung der Modellqualität führen kann.
Auf diesem Hintergrund verzichten viele Unternehmen auf kollaboratives Modelltraining, obwohl sie von gemeinsam trainierten Modellen erheblich profitieren könnten.
Lösung
Die Entwicklung dient einem neuartigen Verfahren und einem System für das kollaborative, datenschutzkonforme Training von Datenanalysemodellen in einem Peer-to-Peer-Netzwerk (Ring-Topologie). Das Kernprinzip – „Additives Training mit Verschleierung" – funktioniert wie folgt:
- Jeder Knoten (Peer) speichert seine lokalen Trainingsdaten ausschließlich lokal und empfängt zu Beginn des Training dasselbe untrainierte Modell.
- Jeder Knoten berechnet die Modellparameter lokal anhand seiner eigenen Daten.
- Der erste Knoten verschleiert seine berechneten Parameter (z. B. durch die Addition eines geheimen Pseudozufallswerts zu jedem Gewicht in einem neuronalen Netz) und gibt diese „verfälschten“ Parameter an den nächsten Knoten.
- Jeder folgende Knoten addiert seine lokal berechneten Parameter zu den empfangenen Werten (additives Training) und leitet das Ergebnis weiter – ohne zu erfahren, welchen Anteil die vorherigen Knoten beigesteuert haben.
- Der letzte Knoten sendet die modifizierten Parameter an den ersten zurück.
- Der erste Knoten entfernt die anfangs hinzuaddierten Verschleierung und erzeugt damit die gemeinsam trainierten Gesamtmodellparameter, die anschließend an alle Knoten verteilt werden.
Weder Rohdaten noch lokale Teilmodelle verlassen je einen Knoten. Das resultierende Modell ist qualitativ gleichwertig mit einem zentral trainierten Modell. Das Verfahren ist modellunabhängig und funktioniert für neuronale Netze ebenso wie für regelbasierte Modelle (z. B. Association Rules, Decision Trees, Recommender-Systeme).