Dieser Ansatz bietet Teams, die wöchentlich oder täglich Content in mehreren Sprachen bereitstellen und deren Entwickler mit S3, Lambda und Step Functions vertraut sind, deutlich mehr Skalierbarkeit und Kontrolle als traditionelle Prozesse. Die Content-Lokalisierungslösung auf AWS automatisiert die Aufnahme, ML-Verarbeitung (Transkription, Übersetzung) und Ausgabe von vertriebsfertigen Assets, die mit der Nutzerbasis mitwachsen.
Architektur der Content-Lokalisierungslösung auf AWS
Eine robuste Lokalisierungslösung auf AWS basiert auf einer ereignisgesteuerten Architektur. Dabei werden Microservices orchestriert, anstatt einen monolithischen Server aufzubauen. Der Prozess beginnt typischerweise mit dem Hochladen einer Medien- oder Videodatei in einen Amazon Simple Storage Service (S3)-Bucket.
Diese Aktion löst eine AWS-Lambda-Funktion aus. Dieser serverlose Compute-Service fungiert quasi als Verkehrskontrolle, validiert den Dateityp und initiiert den AWS-Step-Functions-Workflow. Step Functions werden eingesetzt, da Lokalisierung selten ein einzelner Schritt ist, sondern eine Abfolge aus Transkription, Übersetzung, Untertitelerstellung und Encoding.
Die Verwendung von Amazon S3 macht Quell- und Zieldateien langlebiger. Egal, ob große Mengen an Videoinhalten oder kleine Textfragmente vorliegen, die AWS-Lokalisierungspipeline bewältigt die Last ohne manuelle Serverbereitstellung.
Machine Learning und Amazon Translate
Der Kern dieses Arbeitsablaufs nutzt Amazon Translate und verwandte KI-Services. Amazon Web Services bietet eine Reihe von neuronalen Machine-Learning-Tools, die sich nahtlos per API integrieren lassen.
Bei Videoinhalten kommt zunächst Amazon Transcribe zum Einsatz. Dieser Service konvertiert Sprache in Text und generiert zeitgestempelte Untertitel. In spezialisierten Branchen wie dem Gesundheitswesen lässt sich die Genauigkeit durch benutzerdefinierte Vokabulare von Amazon Transcribe verbessern.
Nach der Transkription wird der Text an Amazon Translate übergeben. Dieser Service verwendet neuronale maschinelle Übersetzung, um den Text in mehrere Sprachen zu konvertieren. Um die Markenkonsistenz zu wahren, sollten Entwickler benutzerdefinierte Terminologien von Amazon Translate implementieren. So wird sichergestellt, dass spezifische Produktnamen oder Fachbegriffe nicht wörtlich übersetzt werden.
Für Szenarien, die Voice-overs erfordern, kann Amazon Polly den übersetzten Text wieder in lebensechte Sprache umwandeln. Durch die Integration von Amazon Transcribe und Amazon Translate entsteht eine Feedback-Schleife, in die Rohinhalte eingehen und lokalisierte Untertitel sowie Audio ausgegeben werden.
Workflow und Logik mit AWS Step Functions

Der Status dieser verschiedenen Services muss verwaltet werden. Ein AWS-Step-Functions-Workflow ermöglicht die Visualisierung und Koordination der Komponenten. So kann der Übersetzungsprozess beispielsweise erst beginnen, nachdem die Transkription abgeschlossen ist.
Eine State-Machine-Definition in Step Functions könnte wie folgt aussehen:
- Input: Videoinhalte lösen den Workflow aus.
- Prozess: AWS Elemental MediaConvert extrahiert das Audio.
- Transkription: Amazon Transcribe generiert das Quellskript.
- Übersetzung: Das System nutzt Amazon Translate zur Generierung der Zielsprachen.
- Eine Lambda-Funktion formatiert die Ausgabe in standardisierte Untertiteldateien (SRT/VTT).
Dieser Workflow mit Step Functions gewährleistet eine robuste Fehlerbehandlung. Bei einem fehlgeschlagenen Vorgang wiederholt das System diesen automatisch, sodass der Content-Lokalisierungs-Workflow nicht unbemerkt abbricht.
Verwaltung von Untertiteln und Videoinhalten
Videos stellen die größte Herausforderung bei der Content-Lokalisierung dar. Die manuelle Erstellung von Untertiteln für ein zehnminütiges Video ist sehr zeitaufwendig. AWS Machine-Learning-Services beschleunigen diesen Prozess durch eine „First-Pass“-Genauigkeit von 80–90 %.
Beim Deployment der Lösung lässt sich Media Insights on AWS nutzen. Dieses Framework kombiniert Services wie Amazon Rekognition zur Identifizierung von Bildschirmtext und Objekten sowie Amazon Comprehend für die Sentiment-Analyse, um der Lokalisierung Kontext hinzuzufügen.
Ein sogenannter Human-in-the-Loop-Ansatz bleibt jedoch wichtig. Die Ausgabe von Amazon Translate und Amazon Transcribe sollte an eine Webanwendung übergeben werden, in der Content-Ersteller oder professionelle Linguisten die Untertiteldateien überprüfen können. Dieser Hybridansatz, bei dem KI für Geschwindigkeit und Menschen für Nuancen zuständig sind, stellt die effektivste Methode zur Verwaltung mehrerer Sprachen dar.
Deployment der Lösung
Für die Implementierung müssen nicht alle Konsoleneinstellungen manuell konfiguriert werden. Mit AWS CloudFormation kann die Infrastruktur als Code definiert werden. Dadurch sind wiederholbare Deployments der Lösung über verschiedene Umgebungen hinweg (Staging, Produktion) möglich.
Im AWS Marketplace sind auch vorgefertigte Lösungen verfügbar. Diese enthalten oft eine Frontend-Webanwendung, die nicht-technischen Teams den Zugriff auf die Webanwendung sowie das Hochladen und Herunterladen von Dateien und übersetzten Assets ermöglicht.
Die Benutzerauthentifizierung wird über AWS Identity and Access Management (IAM) und Amazon Cognito gehandhabt, sodass nur autorisiertes Personal die Lambda-Funktion auslösen oder auf AWS-Inhalte in den Buckets zugreifen kann.
Häufig gestellte Fragen zur AWS-Lokalisierung
Was kosten die AWS-Services für Lokalisierung?
Die Kosten hängen von der Nutzung ab. Amazon Translate, Amazon Transcribe und Amazon S3 folgen einem Pay-as-you-go-Modell. Die Preisseiten der einzelnen Services enthalten spezifische Tarife pro Minute oder Zeichen.
Können benutzerdefinierte Vokabulare verwendet werden?
Ja. Die aktive benutzerdefinierte Übersetzung wird unterstützt. So können für Amazon Translate benutzerdefinierte Terminologien und für Amazon Transcribe benutzerdefinierte Vokabulare definiert werden. Dadurch bleiben bei Transkription und Übersetzung die Markenstimme und Fachbegriffe erhalten.
Wie verhält es sich im Vergleich zur traditionellen Lokalisierung?
Die traditionelle Lokalisierung ist linear, manuell und im Zeitalter der KI weitgehend überholt. Die AWS-Lokalisierung erfolgt dagegen asynchron und skalierbar. Während die traditionelle Lokalisierung eine sehr hohe kulturelle Nuancierung bietet, reduziert die Content-Lokalisierung auf AWS die Bearbeitungszeit und die Kosten für hochvolumige Inhalte erheblich.
Welche Sprachen werden unterstützt?
Amazon Translate nutzt Deep-Learning-Modelle, um eine breite Palette von Sprachen zu unterstützen. Die Übersetzung von Inhalten in mehrere Sprachen kann simultan innerhalb eines einzigen Workflows erfolgen.
Wie erfolgt der Einstieg?
Das Deployment kann über AWS CloudFormation oder die vorgefertigte Content-Lokalisierungslösung aus der AWS Solutions Library erfolgen. Empfohlen wird der Start mit einem Proof-of-Concept für eine einzelne Video-Pipeline, die dann auf die gesamte Content-Bibliothek skaliert werden kann.
