KI-KOLUMNE: Vom Rohtranskript zum Protokoll mit lokaler KI

In der letzten Kolumne haben wir eine lokale Transkriptionsstation aufgebaut: Mac mini, MacWhisper, Whisper Large-v3 – und am Ende des Tages ein Transkript einer dreistündigen Sitzung. Wortgetreu, aber ein einziger langer Textblock. Kein Protokoll. Noch nicht.

Diesmal schließen wir den Kreis. Aus diesem Rohtext wird ein strukturiertes Sitzungsprotokoll – mit Tagesordnungspunkten, Beschlüssen, Abstimmungsergebnissen und offenen Aufgaben. Und zwar genauso, wie wir das Transkript erstellt haben: vollständig lokal, ohne dass die Daten das Haus verlassen.

Warum lokale Sprachmodelle hier der richtige Weg sind

Theoretisch könnten Sie das Transkript jetzt in ChatGPT oder Claude einfügen und um ein Protokoll bitten. Mit einer Business-Version und AV-Vertrag wäre das sogar datenschutzrechtlich sauber. Aber: Sie haben sich gerade eine lokale Transkriptionsstation aufgebaut, um genau das nicht tun zu müssen. Die Konsequenz heißt: Auch der zweite Schritt bleibt lokal. Das heißt, wir brauchen ein Sprachmodell, das direkt auf dem Rechner läuft. In der Kolumne vom Februar habe ich LM Studio vorgestellt – die kostenlose Software, mit der sich lokale KI-Modelle ohne Programmierkenntnisse installieren und nutzen lassen.

Welches Modell ist das richtige?

In der Februar-Kolumne hatte ich Mistral 7B und Qwen3-8B als Einstiegsmodelle empfohlen. Für unseren konkreten Fall – deutsche Sitzungsprotokolle aus langen Transkripten bauen – wird die Wahl etwas spezifischer. Zwei Eigenschaften sind jetzt wichtig:

Gute deutsche Sprachqualität. Das Modell soll österreichisches Amtsdeutsch korrekt schreiben, nicht in Übersetzungen aus dem Englischen abrutschen.

Ausreichend Kontextlänge. Ein Transkript einer dreistündigen Sitzung hat schnell 30.000 bis 50.000 Wörter. Das Modell muss diese Textmenge in einem Stück verarbeiten können. Fachlich heißt das: Das Modell braucht ein großes Kontextfenster – mindestens 32.000 Tokens, besser 128.000.

Konkrete Empfehlung für 2026: Ein Qwen3-Modell wie z.B. Qwen3-14B mit 14 Milliarden Parametern ist für die Aufgabe gut geeignet. Qwen wird vom chinesischen Unternehmen Alibaba entwickelt, ist aber Open Source und frei nutzbar – es läuft vollständig lokal, die Herkunft des Herstellers spielt datenschutzrechtlich keine Rolle, weil keine Daten irgendwohin gesendet werden. In Benchmarks für deutsche Textverarbeitung schneiden die aktuellen Qwen-Modelle gut ab, und sie unterstützen lange Kontexte.

Wer sich nicht entscheiden kann: In LM Studio lassen sich mehrere Modelle parallel vorhalten und ausprobieren. Der Download ist kostenlos, nur die Festplatte füllt sich.

Für den Hardware-Bedarf bleibt die Orientierung aus der Februar-Kolumne gültig: Ein 8B-Modell läuft auf einem Mac mini mit 16 GB, ein 14B-Modell wird mit 24 GB deutlich flüssiger. Auf einem Gaming-PC mit NVIDIA-Grafikkarte ab 12 GB Videospeicher ebenfalls kein Problem.

Der Prompt ist die halbe Miete

Ein Rohtranskript ist nichts weiter als ein sehr langer Text. Was das Modell daraus macht, hängt fast vollständig davon ab, wie wir es anweisen. Ein unbrauchbarer Prompt wäre etwas wie: „Mach ein Protokoll daraus.” Das Ergebnis wäre irgendeine Zusammenfassung. Vielleicht brauchbar, vielleicht nicht. Wahrscheinlich mit erfundenen Details, falscher Struktur, ohne klare Beschlüsse.

Ein guter Prompt sagt dem Modell genau, was es tun soll – und genauso wichtig: was es nicht tun soll. Hier eine erprobte Vorlage, die Sie direkt übernehmen und an Ihre Gemeinde anpassen können:

Du erhältst gleich das Rohtranskript einer Gemeinderatssitzung. Erstelle daraus ein strukturiertes Sitzungsprotokoll mit folgenden Abschnitten:

  1. Kopfdaten: Datum, Uhrzeit (soweit aus dem Text erkennbar), anwesende Personen (nur wenn namentlich erwähnt) 
  2. Tagesordnungspunkte: Liste aller behandelten Themen in der Reihenfolge ihrer Behandlung
  3. Pro TOP: kurze Zusammenfassung der Diskussion (3–5 Sätze), gefasste Beschlüsse mit Abstimmungsergebnis (falls im Text genannt) 
  4. Offene Aufgaben: Wer hat was bis wann zu erledigen – nur das, was konkret im Text vereinbart wurde
  5. Sonstiges: wichtige Hinweise, die keinem TOP zuzuordnen sind

Strikte Regeln: 

  • Erfinde nichts. Wenn eine Information nicht im Transkript steht, schreibe „nicht aus dem Protokoll ersichtlich” oder lasse den Punkt weg.
  • Verwende österreichisches Amtsdeutsch, sachlich und formell. 
  • Kürze Wiederholungen und Abschweifungen, aber verändere keine Aussagen. 
  • Wenn Namen im Transkript falsch geschrieben sein könnten (z. B. durch die automatische Transkription), markiere sie mit [?].
  • Gib das Protokoll als fertigen, strukturierten Text zurück – ohne erklärende Vorbemerkungen.

Hier ist das Transkript: [Transkript einfügen]

Dieser Prompt adressiert die beiden klassischen Schwächen von Sprachmodellen: das Erfinden von Details (Halluzinieren) und das ungebremste Zusammenfassen in die falsche Richtung. Die explizite Regel „Erfinde nichts” wirkt Wunder. Die Anweisung, Namen mit [?] zu markieren, ist ein Sicherheitsnetz – weil Whisper bei Eigennamen bekanntlich patzt und das Modell diese Fehler sonst stumm übernehmen würde.

Wie findet man heraus, welches Modell wirklich passt?

„Empfehlung” ist eine Sache, „passt zu meiner Gemeinde” eine andere. Modelle entwickeln sich rasant – was heute gut funktioniert, kann in drei Monaten von einem neuen Modell überholt sein. Außerdem: Welches Modell für Ihr Anwendungsfeld am besten taugt, hängt von Ihrem Schreibstil, Ihrer Sitzungsstruktur und Ihren Erwartungen ab. Das beste Modell ist nicht immer das größte – manchmal liefert ein kleineres, schnelleres Modell genau das, was Sie brauchen.

Mit dem Prompt aus dem letzten Abschnitt haben Sie jetzt das Werkzeug in der Hand, das einen sauberen Vergleich überhaupt erst möglich macht: Wenn alle Modelle denselben Prompt mit demselben Transkript bekommen, dann zeigt das Ergebnis tatsächlich Modell-Unterschiede – und nicht nur Unterschiede in der Anweisung.

Es gibt einen schönen, methodisch sauberen Weg, das selbst herauszufinden – und zwar mit Hilfe der großen Cloud-Modelle als Juror. Klingt paradox in einer Kolumne über lokale KI, ist aber datenschutzrechtlich völlig in Ordnung – wenn man eine kleine Vorbereitung trifft.

Synthetische Testdaten: das Datenschutzproblem elegant umgehen

Die wichtige Vorbedingung für den Vergleich: Verwenden Sie zum Testen ein Transkript ohne personenbezogene Daten. Sonst landen die echten Bürgernamen über den Umweg der Modell-Ausgabe doch in der Cloud, und der ganze Aufwand wäre umsonst.

Manuelle Anonymisierung ist mühsam und fehleranfällig – fast immer übersieht man eine Straße, einen Beschlusstext oder einen versehentlich genannten Namen. Es gibt aber einen viel eleganteren Weg: Lassen Sie sich das Test-Transkript einfach von einer Cloud-KI erfinden. Synthetische Testdaten haben einen unschlagbaren Vorteil: Es gibt nichts zu übersehen, weil keine echten Daten existieren. Konkret funktioniert das so: Sie öffnen ChatGPT, Claude oder Gemini und geben einen Prompt wie diesen ein:

Für den Test von lokalen KI-Modellen brauche ich ein realistisches Test-Transkript. Erstelle ein etwa 10.000 Wörter langes Transkript einer simulierten Gemeinderatssitzung einer Kärntner Landgemeinde mit etwa 1.500 Einwohnern.

Anforderungen: 

– Vier bis fünf Tagesordnungspunkte mit unterschiedlichem Charakter (z. B. Budgetpunkt, Bauangelegenheit, Veranstaltung, Personalentscheidung, Bürgeranliegen)

– Drei bis vier Sprecher (Bürgermeister, mehrere Gemeinderäte), alle mit erfundenen Namen 

– Realistische österreichische Verwaltungssprache, gelegentlich umgangssprachliche Einwürfe 

– Bei mindestens zwei TOPs konkrete Beschlüsse mit Abstimmungsergebnis 

– Format wie ein Whisper-Rohtranskript: durchgängiger Text mit gelegentlichen Sprechermarkierungen ([Sprecher 1], [Sprecher 2] usw.), keine vorab strukturierten Abschnitte

Insbesondere Claude liefert hier sehr gute, glaubwürdige Ergebnisse – die generierten Sitzungen lesen sich erstaunlich realistisch, bis hin zu Zwischenrufen und kleinen Abschweifungen. ChatGPT funktioniert ebenfalls, tendiert aber etwas stärker dazu, „glatte” Sitzungen ohne Reibung zu produzieren. Gemini liegt dazwischen.

Ein Tipp für realistische Tests: Passen Sie den Generierungs-Prompt an Ihre tatsächliche Gemeindestruktur an. Eine 800-Einwohner-Gemeinde im Burgenland tickt anders als ein Vorort von Graz mit 12.000 Einwohnern. Themen, Sprecher, Diskussionsdynamik – all das beeinflusst, wie gut ein lokales Modell mit Ihren echten Sitzungen umgehen wird. Je näher das synthetische Transkript Ihrer Realität kommt, desto aussagekräftiger der Test.

Und das Schöne: Sie können beliebig viele solcher Test-Transkripte erzeugen lassen. Eine kurze, einfache Sitzung. Eine lange, komplexe. Eine mit vielen Beschlüssen. Eine mit hitziger Debatte. So sehen Sie, wo Ihre lokalen Modelle stark sind und wo sie ins Schwimmen kommen.

Der eigentliche Test im Detail

Mit einem solchen synthetischen Transkript in der Hand sieht der Selbsttest dann so aus:

Schritt 1 – Modelle in LM Studio vorbereiten. Sie laden alle Modelle, die Sie testen wollen, in LM Studio herunter. Drei oder vier sind ein guter Anfang – etwa Qwen3-8B, oder  vielleicht ein größeres Qwen-14B-Modell, falls die Hardware mitspielt.

Schritt 2 – Mit dem ersten Modell durchspielen. Das erste Modell auswählen, den Protokoll-Prompt aus dem letzten Abschnitt einfügen, das Test-Transkript anhängen, das Ergebnis abwarten.

Schritt 3 – Ergebnis sichern. Das generierte Protokoll in eine Textdatei oder ein Word-Dokument kopieren. Wichtig: Den Modellnamen klar im Dateinamen oder im Text vermerken – z. B. „Test-Qwen3-8B.txt”, „Test-Qwen3-14B.txt”.

Schritt 4 – Wiederholen für die anderen Modelle. Genau derselbe Prompt, genau dasselbe Transkript, jedes Modell einmal. Wer es ganz sauber haben will: bei jedem Modell die Standard-Einstellungen verwenden und nur das Modell ändern.

Schritt 5 – Bewerten lassen. Jetzt kommt der elegante Teil. Sie öffnen ein starkes Cloud-Modell – ChatGPT (Plus, Team oder Enterprise), Claude (Pro oder Team) oder Gemini in einer aktuellen Version. Dort fügen Sie einen Bewertungsprompt ein und darunter die Ergebnisse aller Modelle, sauber gekennzeichnet. 

Du erhältst gleich mehrere Sitzungsprotokolle, die unterschiedliche KI-Modelle aus demselben Rohtranskript erzeugt haben. Vergleiche die Ergebnisse anhand folgender Kriterien:

  1. Vollständigkeit: Sind alle wesentlichen Tagesordnungspunkte erfasst?
  2. Genauigkeit: Werden Fakten korrekt wiedergegeben oder gibt es Halluzinationen? 
  3. Struktur: Ist das Protokoll klar gegliedert und gut lesbar?  
  4. Sprache: Wird sachliches deutsches Amtsdeutsch verwendet? 
  5. Beschluss-Erfassung: Werden Beschlüsse präzise und unverändert wiedergegeben?

Erstelle für jedes Modell eine kurze Bewertung (2–3 Sätze pro Kriterium), vergib dann eine Gesamtnote von 1 (sehr gut) bis 5 (ungenügend), und sprich am Ende eine Empfehlung aus, welches Modell für die Aufgabe „Sitzungsprotokolle aus Rohtranskripten erzeugen” am besten geeignet ist.

Hier sind die Modell-Ergebnisse: 

Modell A – Qwen3 8B

[hier das von Qwen erzeugte Protokoll]

Modell B – Qwen3 14B

[hier das von Llama erzeugte Protokoll]

Das Cloud-Modell macht jetzt etwas, wofür es perfekt geeignet ist: sauber strukturierte Texte vergleichen. Die Bewertung ist erstaunlich differenziert – die großen Cloud-Modelle erkennen Halluzinationen, schiefe Formulierungen, fehlende Tagesordnungspunkte mit hoher Trefferquote.

Was Sie dabei lernen, geht über die Modellfrage hinaus: Sie sehen, wo Ihre lokalen Modelle Schwächen haben. Und Sie haben einen Maßstab, um in einem halben Jahr mit neuen Modellen denselben Test zu wiederholen – und zu entscheiden, ob ein Wechsel sich lohnt.

Was Sie realistisch erwarten können

Ein lokales 8B-Modell ist nicht GPT-5.5. Die Qualität der Protokollstrukturierung ist bei einfachen Sitzungen (ein klares Thema, wenige Sprecher, saubere Beschlüsse) sehr gut. Bei komplexen Sitzungen mit verschränkten Themen, vielen Zwischenrufen und impliziten Bezügen stößt das Modell an Grenzen: Es vereinfacht, verliert gelegentlich Nuancen, verwechselt Rednerzuordnungen.

Gut funktioniert: Strukturierung nach Tagesordnungspunkten. Herausfiltern klarer Beschlüsse. Identifizieren offener Aufgaben. Formale Sprache und übliche Protokollphrasen.

Eingeschränkt funktioniert: Genaue Abstimmungsergebnisse (wenn das Transkript selbst unklar ist). Komplexe Rednerzuordnung bei Diskussionen ohne Namensnennung. Sehr lange Transkripte über 40.000 Wörter – hier hilft es, in Abschnitten zu arbeiten (z. B. pro Tagesordnungspunkt einzeln).

Praxistipp: Wenn ein Transkript zu lang ist, teilen Sie es vor der Verarbeitung an den Übergängen zwischen Tagesordnungspunkten. Dann verarbeiten Sie die Abschnitte einzeln und fügen die Protokollteile anschließend zusammen. Das ist weniger elegant, aber robuster als ein einziger Mammut-Durchlauf.

Der Gewinn – und die Grenze

Wenn alles zusammenspielt, ist das Ergebnis bemerkenswert: Aus drei Stunden Aufnahme werden in knapp einer Stunde reiner Gesamtarbeitszeit (Transkription + Protokollstrukturierung + Gegenlesen) ein formal sauberes Protokoll. Ohne dass ein einziges Byte Ihrer Sitzung einen fremden Server gesehen hat.

Die Grenze ist dort erreicht, wo Gemeinderats-Protokolle rechtliche Anforderungen erfüllen müssen, die über das bloße Dokumentieren hinausgehen – etwa bei Beschluss-Formulierungen mit genauem Wortlaut, bei Abstimmungslisten mit namentlicher Erfassung oder bei Protokollen, die nach Gemeindeordnung eine besondere Form verlangen. Solche Details bleiben Handarbeit. Die KI liefert den Entwurf; Sie liefern die Rechtssicherheit.

Kleine Hausaufgabe für diese Woche

Sie brauchen für diese Hausaufgabe weder eine Sitzungsaufnahme noch ein Transkript: Lassen Sie sich von ChatGPT oder Claude ein synthetisches Test-Transkript einer fiktiven Gemeinderatssitzung Ihrer Region erzeugen. Laden Sie in LM Studio zwei oder drei lokale Modelle, lassen Sie alle das gleiche Transkript verarbeiten, und vergleichen Sie die Ergebnisse mit Hilfe einer Cloud-KI Ihrer Wahl. Sie haben dann nicht nur einen Test-Durchlauf – sondern auch eine fundierte Antwort auf die Frage, welches Modell für Ihre Gemeinde das richtige ist. Und das ist ein schönes Gefühl: nicht „ChatGPT hat mir gesagt, das sei gut”, sondern „ich habe es selbst getestet, mit Methode.”

KI KOMPAKT

Vom Transkript zum Protokoll: Die wichtigsten Punkte

Die Grundidee: Das Rohtranskript aus Whisper (Kolumne vom [Datum]) wird durch ein lokales Sprachmodell in LM Studio (Kolumne vom 9. Februar 2026) strukturiert. Beide Schritte laufen auf demselben Rechner, nichts verlässt das Haus.

Die Modell-Empfehlung: Ein Qwen3-Modell mit 8–14 Milliarden Parametern. Wichtig: langes Kontextfenster (mindestens 32.000 Tokens), damit längere Transkripte in einem Durchgang verarbeitet werden können. Alle Modelle in LM Studio kostenlos verfügbar.

Hardware-Erinnerung: Mac mini M4 mit 16 GB reicht für 8B-Modelle. Für 14B oder größer lieber 24 GB. Gaming-PC mit NVIDIA-Grafikkarte ab 12 GB Videospeicher: ebenfalls geeignet. Detailempfehlungen in der Februar-Kolumne.

Der Prompt entscheidet. Die Vorlage im Artikel deckt die wichtigsten Punkte ab: klare Struktur vorgeben, Halluzinieren verbieten („Erfinde nichts”), Fehlerquellen markieren lassen (z. B. unsichere Namen mit [?]), österreichisches Amtsdeutsch einfordern.

Modelle selbst testen statt nur empfohlene übernehmen: Mehrere Modelle in LM Studio dasselbe Test-Transkript mit dem gleichen Prompt verarbeiten lassen, Ergebnisse als Dateien speichern, und ein Cloud-Modell (ChatGPT, Claude, Gemini) als Schiedsrichter einsetzen.

Synthetische Testdaten als sauberster Weg: Lassen Sie sich Test-Transkripte von ChatGPT oder Claude erfinden – maßgeschneidert auf Ihre Gemeindegröße, Ihr Bundesland, typische Sitzungsthemen. Vorteil: keinerlei Datenschutzbedenken, weil keine echten Daten existieren. Claude liefert hier besonders glaubwürdige Ergebnisse.

Workflow in 5 Schritten: (1) Transkription in MacWhisper → (2) Modell in LM Studio laden → (3) Prompt + Transkript einfügen → (4) Ergebnis generieren lassen → (5) Gegenlesen gegen das Rohtranskript.

Was gut geht: Strukturierung nach TOPs, Extrahieren klarer Beschlüsse, Zusammenfassen von Diskussionen, Erzeugen formaler Protokollsprache.

Was weniger gut geht: Sehr lange Transkripte (> 40.000 Wörter) in einem Durchgang, präzise Rednerzuordnung ohne Namensnennung, rechtlich exakte Beschlussformulierungen.

Praxistipp bei langen Sitzungen: Transkript nach Tagesordnungspunkten teilen, Abschnitte einzeln verarbeiten, Protokollteile anschließend zusammenfügen. Robuster und oft präziser.

Die redaktionelle Verantwortung bleibt beim Menschen. KI-Protokolle sind Entwürfe – jedes Protokoll wird vor Unterzeichnung geprüft: Zahlen, Namen, Beschlüsse, Datum. Besonders wenn das Protokoll rechtliche Wirkung entfaltet.

Die komplette Werkstatt: Datenschutz-Grundlagen (Herbst-Kolumne) → Prompting (erste Kolumne) → lokale Sprachmodelle (Februar) → Transkription (letzte Kolumne) → Protokollerstellung (diese Kolumne). Fünf Bausteine, die zusammen eine eigenständige, DSGVO-freundliche KI-Infrastruktur für die Gemeinde ergeben.

Von: M.TREIBER (KIUMI – Die Agentur für Zusammenarbeit von KI und Mensch)

Empfehlungen für dich:

Anmeldung mit ID Austria
ID Austria

Melden Sie sich hier bequem mit
Ihrer ID Austria an.

Mit ID Austria anmelden Weitere Informationen zur ID Austria