Zurück

Über Kassia Erfassung

Interne KI-Anwendung der Buchhaltungsabteilung für PDF-Rechnungs-Erfassung.

Funktion

Azubis laden PDF-Rechnungen hoch (oder werfen sie direkt in den SharePoint-Ordner). Mistral Document AI (OCR + Structured Output) extrahiert Positionen und ordnet sie Baustellen zu. Eine Sammelrechnung an mehrere Baustellen wird automatisch aufgeteilt. Nach manueller Prüfung werden Zeilen in die Finanzübersicht-Excel des Mandanten geschrieben.

Datenschutz

  • Keine PDF-Persistenz: PDFs leben ausschließlich im RAM des Servers während der Verarbeitung. Verbuchte PDFs werden in SharePoint archiviert (Microsoft 365 Verarbeitung).
  • Bankdaten-Filter: IBAN/BIC/Kontonummern aus Lieferanten-Briefkopf werden vor dem KI-Modell maskiert (Datenminimierung).
  • Session-Cache 1 Stunde: Extrahierte Daten bleiben max. 1 Stunde im Server-Speicher (bis Bestätigung oder Timeout).
  • Externer Dienst: Rechnungs-OCR + Strukturierung läuft auf Servern von Mistral AI (Frankreich, EU). Vertragsabschluss + Auftragsverarbeitung-Vereinbarung erforderlich.
  • App-Identity: SharePoint-Zugriff erfolgt mit App-Identität (Client Credentials Flow), kein User-Account. Berechtigung erteilt durch Tenant-Admin.

Pipeline-Details

  1. PDF-Validierung lokal (Seitenzahl ≤ 50, nicht verschlüsselt)
  2. Mistral OCR (`mistral-ocr-latest`) → Markdown
  3. Bankdaten-Maskierung (IBAN/BIC/Konto via Label-Erkennung)
  4. Mistral Chat (`mistral-large-latest`) mit JSON-Schema → strukturierte Daten
  5. Fuzzy-Match (Levenshtein) gegen Baustellen-Stammdaten
  6. Mandant-Erkennung aus PDF-Empfänger + Lieferanten-Stammdaten
  7. Manuelle Review durch Azubi mit PDF-Preview
  8. Microsoft Graph PATCH in Mandanten-Excel (Range-Append, formatiert)
  9. SharePoint-Move nach Verbucht/Monat (bei Eingang-Quelle)

Diagnose

Live-Check aller Abhängigkeiten: /api/health

Tech-Stack

  • Next.js 15 (App Router) + React 19 + TypeScript
  • TailwindCSS v4 + shadcn/ui-Primitives
  • Mistral SDK 2.x (OCR + Chat Structured Output)
  • Microsoft Graph + MSAL-Node (Client Credentials)
  • fastest-levenshtein, pdf-parse, zod, sonner