ist ein lokal laufendes, KIâbasiertes SchutzâModell, das sensible personenbezogene Daten (PII) in Texten erkennt und unkenntlich macht, bevor diese an externe Dienste oder KIâModelle Ăźbermittelt werden.
Was der Privacy Filter leistet
Das Modell durchsucht Texte nach personenbezogenen Informationen wie Namen, Adressen, EâMails, Telefonnummern, Ausweisâ und Kontodaten sowie nach Zugangsdaten, PasswĂśrtern und APIâSchlĂźsseln.
Gefundene sensible Stellen kĂśnnen â je nach Einstellung â geschwärzt oder durch Platzhalter ersetzt werden, sodass nur eine bereinigte Version weitergegeben wird.
Verschiedene Arten sensibler Daten (z.B. Kontaktâ, Finanzâ, Gesundheitsâ oder Logâ/TechnikâDaten) werden getrennt erkannt, um gezielter zu filtern als mit einfachen MusterâSuchen oder regulären AusdrĂźcken.
Architektur und technische Grundlagen
Beim Privacy Filter handelt es sich um ein OpenâWeightsâModell mit rund 1,5 Milliarden Parametern, das nach dem MixtureâofâExpertsâPrinzip arbeitet, wodurch immer nur ein Teil des Modells aktiv ist und die HardwareâAnforderungen sinken.
Es fungiert als bidirektionales TokenâKlassifikationsmodell mit sehr groĂem Kontextfenster, sodass auch lange Dokumente wie Verträge, EâMailâVerläufe oder Protokolle in einem Durchlauf geprĂźft werden kĂśnnen.
Das Modell ist darauf ausgelegt, auf normalen Rechnern oder im Browser mit moderner GPUâUnterstĂźtzung zu laufen und lässt sich lokal in bestehende DatenâWorkflows integrieren.
Qualität und Grenzen
In internen Tests erreicht der Privacy Filter eine hohe Erkennungsrate und Genauigkeit bei der Identifikation personenbezogener Daten und anderer Geheimnisse.
Trotzdem wird ausdrĂźcklich betont, dass das Modell keine absolute Sicherheit gewährleistet â vor allem nicht in hochsensiblen Bereichen wie Medizin, Finanzwesen oder jurischen Spezialfällen.
Es soll daher als zusätzliche Schutzschicht verstanden werden, die mit bestehenden ComplianceâProzessen, Richtlinien und technischen Kontrollen kombiniert wird.
Lizenz, Einsatz und Zielgruppe
Der Privacy Filter wird mitsamt Gewichten, Dokumentation und Hilfswerkzeugen verĂśffentlicht, sodass er lokal in eigenen Anwendungen genutzt werden kann.
Ein mitgeliefertes KommandozeilenâWerkzeug ermĂśglicht es, Texte zu scannen und zu bereinigen und diese Schritte in Skripte, ETLâPipelines oder LogâVerarbeitung einzubauen.
Besonders interessant ist das fĂźr Unternehmen und Institutionen in streng regulierten Bereichen, die KIâDienste einsetzen wollen, ohne rohe Kundendaten oder interne Inhalte aus der eigenen Infrastruktur herauszugeben.
Typisches Einsatzszenario
Du lässt eingehende EâMails, Tickets oder ChatâVerläufe zunächst lokal durch den Privacy Filter laufen, der Personenâ und Kontaktdaten sowie sensible Identifikatoren maskiert.
Erst die bereinigte Fassung wird anschlieĂend von einem groĂen Sprachmodell analysiert, etwa fĂźr Zusammenfassungen, Klassifikationen oder Antwortvorschläge.
Die Originaldaten bleiben in deinem System, und alle nach auĂen gehenden Inhalte enthalten nur noch anonymisierte oder pseudonymisierte Informationen.
Hier findest du weiterfĂźhrende Informationen: OpenAI