Künstliche Intelligenz

28.04.2026

KI-KOLUMNE: Die lokale Transkriptionsstation – wenn nichts die Gemeinde verlässt

Drei Stunden Gemeinderatssitzung. Zehn Stunden fürs Protokoll. Das ist nicht unwahrscheinlich, wenn man gründlich ist, wenn man nachhört, wenn man Zitate sauber setzt. Und spätestens seit der Datenschutz-Kolumne wissen Sie: Diese Aufnahme der Gemeinderatssitzung einfach in ein Cloud-Tool hochzuladen, ist keine gute Idee. Dort sprechen Gemeinderäte namentlich, dort fallen Bürgerbeschwerden, dort werden Personalangelegenheiten verhandelt. Es gibt aber einen Weg die KI bei der Transkription mitarbeiten zu lassen, ohne dass auch nur ein einziges Byte Ihre Gemeinde verlässt. Und der Weg ist 2026 überraschend einfach.

Datenschutz by Design – was das konkret bedeutet

Die DSGVO kennt einen schönen Begriff: Datenschutz durch Technikgestaltung (Artikel 25). Die Idee dahinter ist simpel. Statt nach der Verarbeitung zu versuchen Daten irgendwie wieder einzufangen, baut man das System von Anfang an so, dass gar nichts passieren kann, was nicht passieren soll. Bei der Transkription heißt das: Die Audiodatei bleibt auf Ihrem Rechner. Die KI, die transkribiert, läuft auf Ihrem Rechner. Das Transkript entsteht auf Ihrem Rechner. Kein Upload, kein Server in den USA, kein AV-Vertrag nötig – weil niemand außer Ihnen die Daten überhaupt zu Gesicht bekommt: Die DSGVO-Frage stellt sich gar nicht erst.

Warum es beim Mac einfacher ist als beim PC

Für diese Aufgabe ist ein Apple Mac heute deutlich besser aufgestellt als ein normaler Windows-Arbeits-PC. Ein typischer Gemeinde-PC hat einen Intel- oder AMD-Prozessor mit integrierter Grafik, 8 bis 16 GB RAM und keine dedizierte Grafikkarte. Auf so einem Rechner funktionieren Transkription-Tools wie Whisper zwar, aber nur sehr langsam: eine dreistündige Aufnahme braucht dann 6 bis 12 Stunden Rechenzeit. Über Nacht laufen lassen und hoffen, dass nichts abstürzt. Das ist nicht praktikabel.

Der Weg über die Gaming-Grafikkarte funktioniert, kostet aber. Wer einen Windows-PC mit einer ordentlichen Nvidia-Grafikkarte hat (etwa einer RTX 4060 Ti mit 16 GB Videospeicher), kann Transkription-Tools wie Whisper flott laufen lassen. Solche Systeme kosten als Komplettrechner zwischen 1.200 und 1.800 Euro und brauchen mehr IT-Betreuung als ein Mac. In Gemeindeämtern stehen solche Gaming-konfigurierten PCs selten – und über die üblichen Rahmenverträge für Behördenrechner sind sie meist auch nicht bestellbar.

Was ist mit den neuen „KI-PCs“?

Seit 2024 werben Hersteller stark mit Geräten, die eine NPU haben – einen speziellen KI-Chip, zum Beispiel in AMDs Ryzen-AI-300-Serie oder Intels Core Ultra der zweiten Generation. Klingt passend, aber hier ist Vorsicht angebracht: Diese NPUs sind für kleine KI-Aufgaben gedacht – Hintergrund-Unschärfe in Videokonferenzen oder Geräuschunterdrückung. Transkription-Tools sind dafür aktuell zu groß und werden nicht oder nur eingeschränkt unterstützt.

Das kann sich in einer Hardware-Generation oder zwei ändern. Stand heute gilt aber: Ein „KI-PC“ im Verkaufsgespräch macht aus dem Büro-Rechner noch keine Transkriptionsstation. Und genau deshalb ist der Apple Mac mini für diese Aufgabe im Moment die einfachste und günstigste Lösung – Apple Silicon wurde von Anfang an für genau diese Art von Rechenlast mitgebaut.

Reicht nicht die Apple-Sprachmemos-App?

Seit macOS 15 transkribiert die eingebaute App „Sprachmemos“ Aufnahmen automatisch – komplett lokal, ohne Zusatzsoftware. Das klingt verlockend und ist für kurze englische Notizen tatsächlich ausgezeichnet. Für den Gemeindeeinsatz hat die Funktion aber drei praktische Grenzen.

  • Erstens die sprichwörtliche deutsche Genauigkeit: Sie liegt spürbar unter Transkription-Tools wie Whisper, besonders bei österreichischem Einschlag und in Sitzungssituationen mit mehreren Sprechern. Nutzerberichte beschreiben regelmäßig, dass bei deutschen Aufnahmen Wörter verändert oder Sätze umgebaut werden. Für persönliche Sprachnotizen okay, für offizielle Protokolle zu unzuverlässig.
  • Zweitens funktioniert die Transkription nur für Aufnahmen, die direkt in Sprachmemos gemacht wurden. Eine bestehende Audiodatei vom Konferenzrecorder lässt sich nicht einfach hineinziehen. Wer mit externem Aufnahmegerät arbeitet – und das ist bei Sitzungen die Regel – kann die Funktion nicht nutzen.
  • Drittens gibt es keine Sprechertrennung und keine brauchbaren Exportoptionen. Das Transkript kommt als durchgehender Textblock ohne Struktur, Zeitstempe oder getrennte Sprecher.

Die Zutaten

Für unsere Transkriptionsstation brauchen wir drei Dinge: einen passablen Mac, eine App und ein Sprachmodell. Konkret:

Der Rechner. Ein Mac mit Apple-Silicon-Chip (M1 oder neuer) und 16 GB RAM genügt für Transkription-Tools wie Whisper – die auf dem Mac üblichen Implementierungen laufen mit optimierten, speicherschonenden Versionen des Modells und brauchen zur Laufzeit etwa 4 GB Arbeitsspeicher. Der Rest bleibt für das Betriebssystem und Ihre sonstige Arbeit.

Konkret gut geeignet für eine dauerhafte Station ist der Mac mini M4 mit 16 GB/256 GB – ab rund 700 Euro. Dieser Desktop-Rechner ist nur etwa 13 × 13 Zentimeter groß, sehr leise, stromsparend, unauffällig neben dem Monitor. Er kann permanent laufen und im Hintergrund arbeiten, während Sie etwas anderes tun.

Für den ersten Test brauchen Sie aber gar kein neues Gerät: Jeder halbwegs aktuelle Mac der letzten fünf Jahre reicht aus. Wer einen solchen Rechner im Büro oder privat besitzt, kann die Sache gleich ausprobieren – mit der kostenlosen Basis-Version von MacWhisper und einer vorhandenen Aufnahme. Der Unterschied zwischen „einmal testen“ und „dauerhaft betreiben“ ist dann nur noch eine Frage der Bequemlichkeit.

Die App. Die einfachste Variante heißt MacWhisper. Sie wird von einem einzelnen Entwickler in Amsterdam gepflegt, kostet in der Pro-Version einmalig rund 75 Euro (kein Abo), und sie macht Whisper für normale Menschen nutzbar. Alternativ gibt es Whisper Notes, funktional schlanker, deutlich günstiger (rund 7 Euro für Mac und iPhone zusammen). Beide Apps lassen sich mit kostenlosen Basis-Versionen erst einmal ausprobieren, bevor Sie investieren.

Für technisch versierte Nutzer gibt es auch den Weg über die Kommandozeile – whisper.cpp ist kostenlos und extrem effizient, verlangt aber technisches Know-How über die Arbeit mit Terminals. Für den Gemeindealltag empfehlen wir klar die App-Variante.

Das Sprachmodell. Hier kommt Whisper ins Spiel. Whisper ist ein Open-Source-Modell von OpenAI, das speziell für Spracherkennung trainiert wurde. Es gibt es in mehreren Größen – vom winzigen „Tiny“ (schnell, aber ungenau) bis zum großen „Large-v3„, das die beste Qualität liefert. Für Gemeinderats-Aufnahmen mit mehreren Sprechern und gelegentlich österreichischem Dialekt ist Large-v3 die richtige Wahl.

Daneben gibt es noch „Large-v3 Turbo“ – eine optimierte Variante, die mehrfach schneller läuft bei fast identischer Genauigkeit für deutsche Sprache. Wer viel transkribiert, sollte Turbo ausprobieren. Der Download des Modells übernimmt die App automatisch beim ersten Start.

Der Workflow – einmal durch die ganze Sitzung

  • Schritt 1 – Aufnahme

    Ein ordentliches Tischmikrofon oder ein guter Konferenzrecorder. Einfache USB-Konferenzmikrofone gibt es ab rund 100 Euro; für ganze Sitzungssäle mit mehreren Sprechertischen sind Sie eher bei 200 bis 500 Euro. Als Audiodatei speichern: MP3, WAV oder M4A – alles, was Whisper akzeptiert, und das ist fast alles.

  • Schritt 2 – Ab in MacWhisper

    App öffnen, Audiodatei per Drag-and-Drop hineinziehen, Sprache auf Deutsch stellen, Modell „Large-v3″ (oder „Large-v3 Turbo“) auswählen, Transkription starten. Der Rechner arbeitet dann im Hintergrund.

  • Schritt 3 – Warten, aber nicht lange

    Auf einem aktuellen Mac mini M4 dauert die Transkription einer dreistündigen Aufnahme mit Large-v3 etwa 15 bis 25 Minuten. Mit Large-v3 Turbo deutlich weniger. Zum Vergleich: Manuelles Abtippen dauert typischerweise die vier- bis sechsfache Audiolänge – also 12 bis 18 Stunden. Der Unterschied spricht für sich.

  • Schritt 4 – Das Rohergebnis

    Was herauskommt, ist ein durchgehender Text mit Zeitstempeln, exportierbar als Word-Dokument, PDF, Textdatei oder als Untertitel-Datei. MacWhisper Pro bietet auf Apple-Silicon-Macs auch eine lokale Sprechertrennung an – hilfreich bei Sitzungen, weil das Transkript dann nach „Sprecher 1″, „Sprecher 2″ usw. strukturiert ist. Die Namen müssen Sie danach selbst ergänzen. Wichtig: Wählen Sie die lokale Variante, nicht die Cloud-Optionen (ElevenLabs, Deepgram), die MacWhisper ebenfalls anbietet – sonst verlassen die Daten doch wieder das Haus.

  • Schritt 5 – Was Sie mit dem Rohtranskript machen

    Ein Whisper-Transkript ist noch kein Protokoll. Es ist ein sehr langer, ungefilterter Text – wortgetreu, aber ohne Struktur. Und hier stoppen wir in dieser Kolumne bewusst. Denn das Rohtranskript ist bereits enorm nützlich: Sie können per Stichwort suchen, Zitate heraussuchen, Passagen in Ihr Textprogramm übernehmen und von Hand strukturieren. Die Tippzeit ist weg. Was bleibt, ist die redaktionelle Arbeit – die ohnehin in Ihrer Hand bleiben soll.

    In der nächsten Kolumne schauen wir uns an, wie aus diesem Rohtranskript mit einem zweiten lokalen KI-Schritt ein fertiges Protokoll wird. Aber das ist Ausbaustufe zwei. Stufe eins läuft auch schon allein wunderbar.

In der nächsten Kolumne schauen wir uns an, wie aus diesem Rohtranskript mit einem zweiten lokalen KI-Schritt ein fertiges Protokoll wird. Aber das ist Ausbaustufe zwei. Stufe eins läuft auch schon allein wunderbar.

Praxis-Check: Wie schnell ist das wirklich?

Getestet auf einem fünf Jahre alten MacBook Air M1 mit 16 GB Arbeitsspeicher: eine 55-minütige Sitzungsaufnahme, transkribiert mit Whisper Large-v3 Turbo – fertig in fünf Minuten. Das entspricht gut elffacher Echtzeit-Geschwindigkeit, und zwar auf einem Einsteigermodell von Ende 2020. Ein aktueller Mac mini M4 mit aktiver Kühlung und stärkerer Neural Engine legt noch einmal spürbar nach.

Die Lehre daraus: Die Hardware ist fast nie das Problem. Viele Gemeindemitarbeitende haben Geräte dieser Generation bereits im Einsatz – als Arbeitsnotebook, privat zu Hause oder in der IT-Ausstattung schlummernd. Ein erster Test kostet nichts: kostenlose Basis-Version von MacWhisper laden, eine bestehende Aufnahme hineinziehen, fünf Minuten warten. Überzeugt das Ergebnis, folgt die Pro-Version (75 Euro einmalig). Wird es zur regelmäßigen Arbeit, zahlt sich die dedizierte Station in Form eines Mac mini aus. Drei Stufen, jede einzeln sinnvoll.

Wie gut ist das wirklich?

Generell ist MacWhisper wirklich beeindruckend gut, jedoch gibt es klaren Grenzen.

Was sehr gut funktioniert: Klar gesprochenes Hochdeutsch, Standard-Österreichisch, einzelne Sprecher, saubere Aufnahmequalität. Fachbegriffe aus der Verwaltung (Flächenwidmungsplan, Voranschlag, Rechnungsabschluss) erkennt Large-v3 zuverlässig.

Wo es hakt: Starker Dialekt, mehrere gleichzeitig redende Personen, schlechtes Mikrofon, Hintergrundgeräusche. Ortsnamen und Eigennamen werden manchmal nicht korrekt erkannt. Whisper hat außerdem eine bekannte Eigenheit: Es erfindet gelegentlich bei Pausen oder Hintergrundrauschen Sätze dazu, oft so Sachen wie „Vielen Dank fürs Zuschauen“ – Reste aus dem YouTube-lastigen Trainingsmaterial.

Die Konsequenz: Ein Whisper-Transkript ist ein exzellenter Rohentwurf, kein fertiges Dokument. Sie sparen den gesamten Tipp-Aufwand. Was bleibt, ist Gegenlesen, Namen korrigieren, Unsinn entfernen, Struktur geben. Das ist weiterhin Ihre Arbeit – und genau da soll sie auch bleiben. KI transkribiert, Sie redigieren.

Was das für die Gemeinde konkret bedeutet

  • Für den ersten Test: null Euro. Wenn ein halbwegs aktueller Mac vorhanden ist, reicht die kostenlose Basis-Version von MacWhisper für die Entscheidung, ob sich das Ganze lohnt.
  • Für den regelmäßigen Einsatz: MacWhisper Pro (ca. 75 Euro einmalig) und ein ordentliches Mikrofon (ab ca. 150 Euro). Keine Abos, keine externe Datenverarbeitung, kein AV-Vertrag nötig.
  • Für die dauerhafte Station: zusätzlich ein Mac mini M4 mit 16 GB (ab ca. 700 Euro) – damit das Arbeitsnotebook nicht blockiert ist, während im Hintergrund transkribiert wird. Gesamtbudget unter 1.000 Euro, einmalige Anschaffung.

Dafür bekommen Sie eine Station, die Gemeinderatssitzungen, Ausschuss-Sitzungen, Bürger-Sprechstunden, Projektmeetings und vieles mehr transkribieren kann – alles DSGVO-konform, weil schlicht nichts das Haus verlässt.

Für kleinere Gemeinden lohnt sich das eventuell erst im Verbund. Zwei oder drei Nachbargemeinden teilen sich eine solche Station, jede bringt ihre Audiodatei auf einem USB-Stick oder über einen geschützten Netzwerk-Ordner – und der Schreibprozess wird zu einer gemeinsam getragenen Infrastruktur.

Der Kern des Ganzen

KI kann Ihnen viel Arbeit abnehmen. Aber bei sensiblen Inhalten gilt die alte Faustregel: Der sicherste Datenfluss ist der, der gar nicht erst stattfindet. Eine lokale Transkriptionsstation ist keine Spielerei – sie ist die saubere, technische Antwort auf die Datenschutzfrage, die seit zwei Jahren über allen KI-Diskussionen schwebt. Einmal aufgesetzt, braucht sie kaum Wartung. Und sie macht aus „Ich darf das eigentlich nicht“ ein entspanntes „Kein Problem, läuft hier.“

In der nächsten Kolumne nehmen wir uns die Ausbaustufe vor: Wie wird aus dem Whisper-Rohtranskript ein strukturiertes Protokoll – ebenfalls lokal, mit einem zweiten KI-Modell direkt auf demselben Rechner. Der zweite Schritt in derselben Werkstatt.

Kleine Hausaufgabe für diese Woche

Schauen Sie sich eine typische Aufnahmesituation in Ihrer Gemeinde an – eine Sitzung, ein Bürgergespräch, ein Interview für die Gemeindezeitung. Überlegen Sie: Würden Sie diese Aufnahme heute in die Cloud hochladen? Wenn die Antwort „lieber nicht“ lautet, dann haben Sie gerade den perfekten Anwendungsfall für eine lokale Transkriptionsstation gefunden. Und wenn zufällig ein Mac in Reichweite ist: Einfach mal mit der kostenlosen MacWhisper-Version ausprobieren. Das kostet nichts außer fünfzehn Minuten Zeit.

KI KOMPAKT

Lokale Transkription: Die wichtigsten Punkte

Das Grundprinzip: Audio wird direkt auf dem eigenen Mac transkribiert. Keine Daten verlassen das Gerät. DSGVO-Frage beantwortet sich dadurch von selbst – „Datenschutz durch Technikgestaltung“ im Sinne von Artikel 25 DSGVO.

Die Hardware: Apple-Silicon-Mac (M1 oder neuer), mindestens 16 GB RAM. Für den ersten Test reicht ein vorhandener Mac der letzten fünf Jahre. Für die dauerhafte Station eignet sich ein Mac mini M4 mit 16 GB/256 GB – klein, leise, ab etwa 700 Euro.

Warum nicht einfach der Büro-PC? Ohne dedizierte Nvidia-Grafikkarte transkribiert Whisper Large-v3 auf normalen PCs viel zu langsam (6–12 Stunden für eine 3-Stunden-Aufnahme). PCs mit passender Grafikkarte kosten 1.200–1.800 Euro und brauchen mehr IT-Betreuung. „KI-PCs“ mit NPU (AMD Ryzen AI, Intel Core Ultra) unterstützen aktuell nur kleinere Whisper-Modelle – Large wird von den NPUs noch nicht getragen.

Reicht nicht Apples Sprachmemos-App? Seit macOS 15 transkribiert sie lokal und kostenlos. Für Deutsch liegt die Qualität aber spürbar unter Whisper Large-v3, und sie verarbeitet nur Aufnahmen, die direkt in der App gemacht wurden – keine externen Audiodateien. Keine Sprechertrennung, kein strukturierter Export. Für persönliche Notizen gut, für Sitzungsprotokolle zu limitiert.

Das Sprachmodell: Whisper von OpenAI, Open Source, kostenlos. Empfohlene Variante: Large-v3 (höchste Genauigkeit) oder Large-v3 Turbo (fast gleiche Genauigkeit für Deutsch, deutlich schneller). RAM-Bedarf zur Laufzeit auf dem Mac: etwa 4 GB.

Die App: MacWhisper Pro (ca. 75 Euro einmalig, mit lokaler Sprechertrennung) oder Whisper Notes (rund 7 Euro, Mac und iPhone zusammen). Beide haben kostenlose Basis-Versionen zum Ausprobieren.

Typische Geschwindigkeit: Eine 55-minütige Sitzungsaufnahme braucht auf einem fünf Jahre alten MacBook Air M1 rund 5 Minuten (Large-v3 Turbo). Ein Mac mini M4 ist nochmal spürbar schneller. Zum Vergleich: Manuelles Abtippen etwa 4–6 Stunden für dieselbe Aufnahme.

Was gut geht: Klares Hochdeutsch, saubere Aufnahme, Verwaltungs-Vokabular, Einzelsprecher. Was hakt: Starker Dialekt, Eigennamen, mehrere gleichzeitig Redende, schlechte Audioqualität.

Die Grenzen: Whisper liefert ein Rohtranskript – noch kein fertiges Protokoll. Strukturierung, Namenskorrektur, redaktionelle Arbeit bleiben beim Menschen. Die KI spart die Tippzeit, nicht die inhaltliche Bearbeitung.

Drei Stufen des Einstiegs: (1) Kostenlos testen auf vorhandenem Mac → (2) MacWhisper Pro für 75 Euro, wenn sich der Workflow bewährt → (3) Dedizierter Mac mini, wenn es zur regelmäßigen Arbeit wird.

Für Gemeinden im Verbund: Eine Station im Nachbarschaftsverbund betreiben – Audiodateien werden per USB-Stick oder geschütztem Netzwerk-Ordner ausgetauscht. Senkt die Kosten pro Gemeinde erheblich.

Vorschau: Nächste Kolumne – aus dem Rohtranskript wird ein strukturiertes Protokoll. Eine zweite KI für den zweiter Schritt, immer noch vollständig lokal.

  • Listentitel 1

  • Listentitel 2

  • Listentitel 3

  • List Title 4

Klicke hier, um Ihren eigenen Text einzufügen

© Copyright - Kommunalnet