Open AI Whisper: alles, was Sie wissen müssen

Whisper, ein ASR-System, wird mit 680.000 Stunden mehrsprachiger, durch Multitasking überwachter Daten aus dem Internet trainiert. Bei einem so vielfältigen Datensatz treten jedoch Probleme mit Akzent, Hintergrundgeräuschen und sogar Fachsprache auf. Whisper ist in der Lage, in mehreren Sprachen zu transkribieren. Sie können auch aus jeder Sprache ins Englische übersetzen. Das Hochladen von Dateien ist derzeit auf 25 MB begrenzt. Unterstützt Dateien wie MP3, MP4, MPEG, M4A, WAV und WebM. 

OpenAI hat behauptet, dass Benutzer Audio zu einem Preis von 0,006 $/Minute transkribieren oder übersetzen können. Da das Whisper-Modell Open Source ist, können Sie es kostenlos auf Ihrer Hardware ausführen. Wenn Sie jedoch auf leistungsschwächeren Geräten wie Mobiltelefonen transkribieren möchten, ist die API die beste Option. Dadurch erhalten Sie eine schnelle Antwort. 

Transkripte

La Transkriptions-API Nimmt als Eingabe die Audiodatei, die Sie transkribieren möchten. Im Gegenzug werden Sie nach dem gewünschten Ausgabeformat für die Audiotranskription gefragt. Whisper unterstützt mehrere Eingabe- und Ausgabeformate. Mit der Audio-API können Sie jedoch auch herkömmliche Parameter in einer Anfrage festlegen. 

Übersetzungen

Die Übersetzungs-API akzeptiert als Eingabe Audiodateien in jeder unterstützten Sprache. Transkribieren Sie bei Bedarf die Audiodatei ins Englische. Der Unterschied besteht darin, dass die Ausgabe nicht in der ursprünglichen Eingabesprache erfolgt. Stattdessen wird es in englischen Text übersetzt. 

Unterstützte Sprachen

Das Modell wurde auf 98 Sprachen trainiert. Beim Testen erreichten einige Sprachen jedoch eine Wortfehlerrate von <50 %. Der WER ist ein Industriestandardparameter zur Messung der Genauigkeit des Speech-to-Text-Modells. Whisper unterstützt derzeit die folgenden Sprachen, sowohl bei Transkriptionen als auch bei Übersetzungen. 

Whisper übertrifft überwachtes SOTA bei der Zero-Shot-Übersetzung von CoVoST2 ins Englische, wenn es darum geht, eine effektive Sprache-zu-Text-Übersetzung zu erlernen.

Afrikaans, Arabisch, Armenisch, Aserbaidschanisch, Weißrussisch, Bosnisch, Bulgarisch, Katalanisch, Chinesisch, Kroatisch, Tschechisch, Dänisch, Niederländisch, Englisch, Estnisch, Finnisch, Französisch, Galizisch, Deutsch, Griechisch, Hebräisch, Hindi, Ungarisch, Isländisch, Indonesisch, Italienisch, Japanisch, Kannada, Kasachisch, Koreanisch, Lettisch, Litauisch, Mazedonisch, Malaiisch, Marathi, Maori, Nepali, Norwegisch, Persisch, Polnisch, Portugiesisch, Rumänisch, Russisch, Serbisch, Slowakisch, Slowenisch, Spanisch, Suaheli, Schwedisch, Tagalog, Tamilisch, Thailändisch, Türkisch, Ukrainisch, Urdu, Vietnamesisch und Walisisch.

Längere Einträge

Flüster-KI unterstützt Dateien kleiner als 25 MB. Allerdings müssen Sie die Datei in 25-MB-Blöcke aufteilen oder ein komprimiertes Audioformat verwenden. Dies kann dazu führen, dass etwas Kontext verloren geht. Es wird empfohlen, das Teilen der Audiodatei mitten im Satz zu vermeiden. Sie können das Open-Source-Python-Paket PyDub verwenden, um das Audio aufzuteilen.

Zu konsultieren

Sie können eine Eingabeaufforderung verwenden, um die Qualität der von der Whisper-API generierten Transkription zu verbessern. Das Ansagesystem ist begrenzt und bietet nur eine begrenzte Kontrolle über den erzeugten Ton. Das Modell reproduziert jedoch den Stil der Bekanntmachung. Wenn die Eingabeaufforderung dies auch tut, werden Sie wahrscheinlich Großbuchstaben oder Satzzeichen verwenden. 

  • Die Eingabeaufforderungen können dabei hilfreich sein, die richtigen Wörter oder Akronyme im Audio zu erkennen, die möglicherweise falsch erkannt werden.
  • Sie können das Modell bitten, das vorherige Segment zu transkribieren, wenn eine Audiodatei geteilt wird. Alle oben genannten Punkte werden ignoriert und die Anfrage berücksichtigt nur die letzten 224 Token. Whisper verwendet einen benutzerdefinierten Tokenizer für mehrsprachige Eingaben. Nur englischsprachige Einträge verwenden den standardmäßigen GPT-2-Tokenizer. 
  • Sie können verhindern, dass der Indikator die Interpunktion ignoriert, indem Sie sie in den Indikator aufnehmen. 
  • Das Model verwendet möglicherweise nicht immer den Schreibstil, den Sie für die Transkription wünschen. Es gibt beispielsweise traditionelles Chinesisch und vereinfachtes Chinesisch. Sie können sich verbessern, indem Sie den von Ihnen bevorzugten Schreibstil angeben. 

Zuverlässigkeit

Whisper erkennt ungewöhnliche Wörter oder Akronyme oft nicht. OpenAI hat sich jedoch mit der Verwendung des Prompt-Parameters oder der Nachbearbeitung mit GPT-4 befasst Verbessern Sie die Whisper-Zuverlässigkeit

Fazit

GPT-Modelle, die sich ständig weiterentwickeln, machen nicht nur Prozesse effizienter, sondern erleichtern auch den Benutzern die Arbeit. OpenAI hofft, dass Entwickler das Beste aus Whisper herausholen können, indem sie einer breiteren Palette von Anwendungen eine Sprachschnittstelle hinzufügen.

Häufig gestellte Fragen (FAQs)

Wie viel kostet Whisper AI?

Der Flüsterpreis beträgt 0,006 $/Minute. Wenn Sie mehrere Audiodateien erstellt haben, beträgt der Preis etwa 0,0001 US-Dollar pro Sekunde, während 1000 Sekunden 0,10 US-Dollar kosten würden.

Ist OpenAI flüsterfrei?

Whisper ist ein Open-Source-trainiertes neuronales Netzwerk, das frei verwendet, verteilt und geändert werden kann. Im Gegensatz zu anderen STT-Systemen befinden sich alle Whisper-Dateien in einem GitHub-Repository. Whisper verfügt über keine Download-Site. 

Was ist das Limit von Whisper für OpenAI?

Derzeit sind Datei-Uploads auf Whisper auf 25 MB begrenzt. Unterstützte Dateien sind MP3, MP4, WAV und WebM. Eine größere Datei kann in Blöcke aufgeteilt werden.