Untertitel und Transkripte mit Aiko (iOS)

(Leider nicht mehr kostenfreie!) iPad-App mit Whisper für automatisch erstellte Untertitel

Whisper ist eine Open-Source-KI zur Erstellung automatisch generierter Untertitel und Transkripte. Sehr benutzerfreundliche steht sie auf Mac-Geräten über das kostenfrei nutzbare Tool MacWhisper zur Verfügung, von dem wir sehr begeistert sind und welches wir häufig nutzen. Was aber, wenn man zwar ein iPad, jedoch keinen Mac zur Verfügung hat? Zwar wurde angekündigt, dass MacWhisper bald auch als App für iPad zur Verfügung stehen soll – in der Zwischenzeit kann man jedoch die bereits verfügbare iOS-App Aiko (leider nicht mehr kostenfrei, sondern für 19 Euro im Appstore) nutzen, die ebenfalls auf Whisper basiert. Das Besondere an Whisper ist, dass die KI lokal auf den Geräten arbeitet. Das bedeutet, für die Datenverarbeitung bzw. die Erstellung der Untertitel bzw. Transkripte ist keine Internetverbindung nötig und werden keine Daten an Server geschickt. Das macht die Anwendung gerade aus datenschutzsensibler Perspektive interessant.

Die Bedienung von Aiko ist absolut simpel und selbsterklärend:

Für Whisper gibt es die kostenfrei zur Verfügung stehenden Sprachpakete „Tiny“, „Base“ und „Small“: „Small“ hat die beste Qualität und sollte ausgewählt werden: Die Spracherkennung von Whisper funktioniert bei guter Sprachqualität sehr gut und beinhaltet Groß- und Kleinschreibung sowie die Interpunktion. Man kann über die Einstellungen die Sprache auswählen oder die Einstellung auf „Auto-Detect“ (automatische Erkennung der Sprache) stehen lassen.

+-Symbol  tippen und entweder eine Audio-Datei (über „Import File“) oder eine Video-Datei (über „Import Video from Photo Library“) hinzufügen und Verarbeitung abwarten: Der Bildschirm sollte nicht geschlossen werden in der Zeit. Alternativ kann auch in der App direkt eine Audioaufnahme erstellt werden (über „Record Audio“ oder das Mikrofon-Symbol). Zu beachten ist, dass die Transkription erst nachträglich erfolgt, die App sich also z. B. nicht eignet für die direkte Kommunikation mit schwerhörigen Menschen.

Über die Einstellungen lässt sich auswählen, ob der Zeitstempel angezeigt werden soll oder nicht („Show timestamps“): Der Zeitstempel ist die Zeitangabe, an welcher Stelle im Video die Untertitel eingeblendet werden. Außerdem kann man über die Einstellungen einstellen, dass die Untertitel bzw. das Transkript automatisch in Englisch übersetzt werden sollen. 

Das Transkript bzw. der Untertitel lässt sich in mehreren Formaten herunterladen: z. B. als Text, Text mit Zeitstempel oder als Untertitel-Datei. Ein häufig genutztes Untertitel-Datei-Format, welches z. B. auch beim Hochladen auf Social-Media-Plattformen benötigt wird, ist das SRT-Format.

Einziges echtes Manko ist die fehlende Möglichkeit der Nachbearbeitung: Bei MacWhisper können falsch erkannte Wörter und Begriffe direkt korrigiert werden, diese Möglichkeit fehlt in Aiko. Was man machen kann – was aber relativ umständlich ist: Über die Einstellungen und „Word Replacements“ lassen sich falsch erkannte Wörter ersetzen. Damit diese dann richtig erkannt werden, muss man die Erkennung erneut starten. Ansonsten kann man den Untertitel bzw. das Transkript in einen Editor einfügen und hier die Korrektur vornehmen.