Whisper, un système ASR, est formé avec 680.000 25 heures de données supervisées multilingues et multitâches collectées sur le Web. Cependant, un ensemble de données aussi diversifié se heurte à des problèmes d’accent, de bruit de fond et même de langage technique. Whisper est capable de transcrire dans plusieurs langues. Vous pouvez également traduire de n’importe quelle langue vers l’anglais. Les téléchargements de fichiers sont actuellement limités à 3 Mo. Prend en charge les fichiers tels que mp4, mp4, mpeg, mXNUMXa, wav et webm.
OpenAI a affirmé que les utilisateurs peuvent transcrire ou traduire l'audio au prix de 0,006 $/minute. Le modèle Whisper étant open source, vous pouvez l'exécuter gratuitement sur votre matériel. Toutefois, si vous souhaitez transcrire sur des appareils moins puissants, comme des téléphones, l’API est la meilleure option. Cela vous fournira une réponse rapide.
Transcriptions
La API de transcription prend en entrée le fichier audio que vous souhaitez transcrire. En retour, il vous demande le format de sortie souhaité pour la transcription audio. Whisper prend en charge plusieurs formats d'entrée et de sortie. Cependant, l'API Audio vous permet également de définir des paramètres traditionnels dans une requête.
Traductions
L'API de traduction prend en entrée des fichiers audio dans n'importe quelle langue prise en charge. Si nécessaire, transcrivez l’audio en anglais. La différence ici est que la sortie n'est pas dans la langue d'entrée d'origine. Au lieu de cela, il est traduit en texte anglais.
langues prises en charge
Le modèle a été formé sur 98 langues. Cependant, lors des tests, certaines langues ont atteint un taux d'erreur de mot <50 %. Le WER est un paramètre standard de l’industrie pour mesurer la précision du modèle parole-texte. Whisper prend actuellement en charge les langues suivantes, à la fois dans les transcriptions et les traductions.
Whisper surpasse le SOTA supervisé dans la traduction CoVoST2 vers l'anglais sans tir lorsqu'il s'agit d'apprendre une traduction parole-texte efficace.
Afrikaans, arabe, arménien, azerbaïdjanais, biélorusse, bosniaque, bulgare, catalan, chinois, croate, tchèque, danois, néerlandais, anglais, estonien, finnois, français, galicien, allemand, grec, hébreu, hindi, hongrois, islandais, indonésien, Italien, japonais, kannada, kazakh, coréen, letton, lituanien, macédonien, malais, marathi, maori, népalais, norvégien, persan, polonais, portugais, roumain, russe, serbe, slovaque, slovène, français, swahili, suédois, tagalog, Tamoul, thaï, turc, ukrainien, ourdou, vietnamien et gallois.
Entrées plus longues
IA chuchotée prend en charge les fichiers inférieurs à 25 Mo. Cependant, vous devrez diviser le fichier en morceaux de 25 Mo ou utiliser un format audio compressé. Cela peut entraîner une perte de contexte. Il est conseillé d’éviter de diviser l’audio au milieu d’une phrase. Vous pouvez utiliser le package Python open source PyDub pour diviser l'audio.
Consulter
Vous pouvez utiliser une invite pour améliorer la qualité de la transcription générée par l'API Whisper. Le système d'invite est limité et ne fournit qu'un contrôle limité sur l'audio généré. Toutefois, le modèle reproduira le style de la notice. Vous utiliserez probablement des majuscules ou des signes de ponctuation si l'invite le fait également.
- Les invites peuvent être utiles pour reconnaître les mots ou acronymes corrects dans l'audio qui pourraient être mal reconnus.
- Vous pouvez demander au modèle de transcrire le segment précédent si un fichier audio est fractionné. Tout ce qui précède sera ignoré et la demande ne prendra en compte que les 224 derniers jetons. Whisper utilise un tokenizer personnalisé pour la saisie multilingue. Les entrées en anglais uniquement utilisent le tokenizer standard GPT-2.
- Vous pouvez empêcher l’indicateur d’ignorer la ponctuation en l’incluant dans l’indicateur.
- Le modèle n’utilise pas toujours le style d’écriture souhaité pour la transcription. Par exemple, il existe le chinois traditionnel et le chinois simplifié. Vous pouvez vous améliorer en utilisant l'indication du style d'écriture que vous préférez.
Fiabilité
Whisper ne reconnaît souvent pas les mots ou acronymes inhabituels. Cependant, OpenAI a résolu l'utilisation du paramètre d'invite ou le post-traitement avec GPT-4 pour améliorer la fiabilité de Whisper.
Conclusion
Modèles GPT, en constante évolution, non seulement rendent les processus efficaces, mais facilitent également les choses pour les utilisateurs. OpenAI espère que les développeurs pourront tirer le meilleur parti de Whisper en ajoutant une interface vocale à un ensemble plus large d'applications.
Foire Aux Questions (FAQ)
Combien coûte Whisper AI ?
Le prix chuchoté est de 0,006 $/minute. Si vous avez réalisé des lots d'audio, cela coûtera environ 0,0001 $/seconde, alors que 1000 0,10 secondes coûteraient XNUMX $.
OpenAI est-il sans chuchotement ?
Whisper est un réseau neuronal open source et formé qui peut être librement utilisé, distribué et modifié. Contrairement aux autres systèmes STT, tous les fichiers Whisper se trouvent dans un référentiel GitHub. Whisper n'a pas de site de téléchargement.
Quelle est la limite de Whisper pour OpenAI ?
Actuellement, les téléchargements de fichiers sur Whisper sont limités à 25 Mo. Les fichiers pris en charge sont mp3, mp4, wav et webm. Un fichier plus volumineux peut être divisé en morceaux.