Whisper de Open AI: todo lo que necesitas saber

Whisper, un sistema ASR, está entrenado con 680.000 horas de datos supervisados multilingües y multitarea recogidos de la web. Sin embargo, un conjunto de datos tan diverso se enfrenta a problemas de acento, ruido de fondo e incluso lenguaje técnico. Whisper es capaz de transcribir en varios idiomas. También puede traducir de cualquier idioma al inglés. Actualmente, la carga de archivos está limitada a 25 MB. Admite archivos como mp3, mp4, mpeg, m4a, wav y webm.

OpenAI ha afirmado que los usuarios pueden transcribir o traducir audio a un coste de 0,006 dólares/minuto. Dado que el modelo Whisper es de código abierto, puedes ejecutarlo en tu hardware sin un coste de ny. Sin embargo, si lo que quieres es transcribir en dispositivos menos potentes, como teléfonos, la mejor opción es la API. Esto le proporcionará una respuesta rápida.

Transcripciones

La API de transcripción toma como entrada el archivo de audio que desea transcribir. A cambio, le pregunta por el formato de salida deseado para la transcripción de audio. Whisper admite múltiples formatos de entrada y salida. Sin embargo, la API de audio también le permite establecer parámetros tradicionales en una solicitud.

Traducciones

La API de traducción toma como entrada archivos de audio en cualquier idioma compatible. Si es necesario, transcribe el audio al inglés. La diferencia aquí es que la salida no está en el idioma de entrada original. En su lugar, se traduce a texto en inglés.

Idiomas admitidos

El modelo se entrenó en 98 lenguas. Sin embargo, durante las pruebas, algunos idiomas lograron una tasa de error de palabra <50%. El WER es un parámetro estándar de la industria para medir la precisión del modelo de voz a texto. En la actualidad, Whisper es compatible con los siguientes idiomas, tanto en transcripciones como en traducciones.

Whisper supera al SOTA supervisado en la traducción CoVoST2 a inglés zero-shot en lo que respecta al aprendizaje eficaz de la traducción de voz a texto.

Afrikaans, árabe, armenio, azerbaiyano, bielorruso, bosnio, búlgaro, catalán, chino, croata, checo, danés, neerlandés, inglés, estonio, finés, francés, gallego, alemán, griego, hebreo, hindi, húngaro, islandés, indonesio, italiano, japonés, kannada, kazajo, coreano, letón, lituano, macedonio, malayo, marathi, maorí, nepalí, noruego, persa, polaco, portugués, rumano, ruso, serbio, eslovaco, esloveno, español, swahili, sueco, tagalo, tamil, tailandés, turco, ucraniano, urdu, vietnamita y galés.

Entradas más largas

Whisper AI admite archivos de menos de 25 MB. Sin embargo, tendrás que dividir el archivo en trozos de 25 MB o utilizar un formato de audio comprimido. Esto puede hacer que se pierda algo de contexto. Es recomendable evitar dividir el audio a mitad de frase. Puedes utilizar el paquete PyDub de código abierto de Python para dividir el audio.

Para consultar

Puede utilizar un prompt para mejorar la calidad de la transcripción generada por Whisper API. El sistema de avisos es limitado y sólo proporciona un control limitado sobre el audio generado. Sin embargo, el modelo reproducirá el estilo del aviso. Es probable que utilice mayúsculas o signos de puntuación si el prompt también lo hace.

Los avisos pueden ser útiles para reconocer las palabras correctas o las siglas en el audio que podrían reconocerse erróneamente.
Puede pedir al modelo que transcriba el segmento anterior si se divide un archivo de audio. Todo lo anterior se ignorará y la petición sólo tendrá en cuenta los 224 tokens finales. Whisper utiliza un tokenizador personalizado para entradas multilingües. Las entradas sólo en inglés utilizan el tokenizador GPT-2 estándar.
Puede evitar que el indicador omita la puntuación incluyéndola en el indicador.
Es posible que el modelo no siempre utilice el estilo de escritura que usted desea para la transcripción. Por ejemplo, hay chino tradicional y chino simplificado. Puedes mejorar utilizando la indicación del estilo de escritura que prefieras.

Fiabilidad

Whisper a menudo no reconoce palabras poco comunes o acrónimos. Sin embargo, OpenAI ha abordado el uso del parámetro prompt o el posprocesamiento con GPT-4 para mejorar la fiabilidad de Whisper.

Conclusión

Los modelos de GPT, en constante evolución, no sólo hacen que los procesos sean eficientes, sino que también facilitan las cosas a los usuarios. OpenAI espera que los desarrolladores puedan sacar el máximo partido de Whisper añadiendo una interfaz de voz a un conjunto más amplio de aplicaciones.

Preguntas frecuentes (FAQs)

¿Cuánto cuesta Whisper AI?

El precio del susurro es de 0,006 $/minuto. Si has hecho lotes de audio, será de unos 0,0001 $/segundo, mientras que 1000 segundos costarían 0,10 $.

¿Está OpenAI libre de susurros?

Whisper es una red neuronal entrenada y de código abierto que se puede utilizar, distribuir y modificar libremente. A diferencia de otros sistemas STT, todos los archivos de Whisper se encuentran en un repositorio de GitHub. Whisper no tiene un sitio de descargas.

¿Cuál es el límite de Whisper para OpenAI?

Actualmente, la carga de archivos en Whisper está limitada a 25 MB. Los archivos compatibles son mp3, mp4, wav y webm. Un archivo más grande puede dividirse en trozos.