Descubra Whisper, la mejor herramienta de conversión de voz a texto desarrollada por OpenAI

Whisper speech to text

¡Hola compañía, soy vuestro humilde servidor, Nicolas, de AIonsultive.com!

¡Ah, hoy es un día de celebración! Tengo el honor, o más bien el privilegio, de presentaros Whisper, este prodigio de la tecnología Speech-to-Text, fruto de los increíbles trabajos de nuestros amigos de OpenAI. Ya sabéis, esos genios que parieron monstruos de la potencia como ChatGPT, GPT-3, 3.5, 4 y todo el resto de la familia… La pequeña historia cuenta que vendieron su alma a la ciencia, ¡pero esa es otra historia!

.

¡Una transcripción más exacta que un reloj suizo!

Entonces, ¿qué nos depara nuestro nuevo amigo Whisper? Bueno, para empezar, esta joyita ya lleva más de año y medio entre nosotros. Y vaya si lo ha conseguido. Ofrece transcripciones quirúrgicamente precisas para todas tus necesidades lingüísticas: inglés, francés, italiano, español… Puede hacerlo todo. Si necesita transcribir un vídeo de YouTube o una grabación de audio de su smartphone en un abrir y cerrar de ojos, Whisper se encargará de todo. Y por si fuera poco, incluso te lo traducirá al inglés. Perfecto para impresionar a tus colegas en el aperitivo

.

¡Despeguemos hacia el maravilloso mundo de Whisper!

Venga, basta de cháchara, veamos más de cerca nuestro bello descubrimiento. La página de presentación de Whisper es un auténtico catálogo de proezas tecnológicas: transcripción de discursos más rápidos que la luz, contenidos en francés (pero sí, ya sabes, ese idioma con montones de reglas incomprensibles), vídeos de K-Pop (ideales para aprender a bailar al mismo tiempo), ¡e incluso palabras pronunciadas con acento! Me quito el sombrero ante ti, Whisper

Para los amantes de la tecnología que quieran indagar bajo el capó, Whisper ofrece una sección dedicada a su motor interno. Tokens, codificación, descodificación, todo está ahí. Es casi como un curso de mecánica cuántica, pero no te preocupes, no hace falta ser Albert Einstein para utilizar la herramienta básica

.

Instrucciones de uso de Whisper

[En sus marcas, ¡prepárense! Emprendamos un apasionante viaje al corazón del uso de Whisper. Antes de nada, que no cunda el pánico, el acceso es libre en Google Collab, sin restricciones. Sí, has leído bien, gratis. Entonces, ¿cómo se hace?

Aquí tienes el enlace a la herramienta:https://colab.research.google.com/drive/1d6QsX4M3ySzOESzypk0g4APyTRPY2nTV

Paso 1:Comprobamos el acceso a la GPU en Google Collab.

Primera parada, la GPU en Google Collab. Para qué sirve? Para darle alas a nuestra transcripción. Para comprobarlo, un clic rápido en la esquina superior derecha de tu página de Collab, en «Cambiar tipo de ejecución». Comprueba que estás en la GPU ‘T4' y escribe, el Ferrari de las GPUs libres

.

Paso 2: Instalamos las librerías necesarias

.

Segunda parada, las librerías de Python. Que no cunda el pánico, un pequeño script en la primera celda hace todo el trabajo por ti. Es como tener un cocinero personal que te prepara todo mientras disfrutas de tu aperitivo

.

Paso 3: Configuramos la carpeta de copia de seguridad

.

Paso tres, definir dónde Whisper almacenará todas esas preciadas transcripciones. Google Drive u otra carpeta local, la elección es tuya. No te preocupes si la carpeta no existe, Whisper la creará por ti. A que es bonito?

Paso 4: Elegimos nuestro modelo.

Cuarto paso, elegir tu modelo. Una elección crucial, un poco como elegir el sabor de tu helado. Whisper ofrece una gran gama, desde el «pequeño» hasta el «grande». El «mediano» suele ser un buen compromiso entre velocidad y precisión

.

Paso 5: Se selecciona el vídeo a transcribir.

Quinta parada, elige el vídeo a transcribir. Un vídeo de YouTube o un archivo local, depende de ti. Un simple copiar y pegar para YouTube, o una selección del archivo local, y listo

.

Paso 6: Configuramos las opciones de salida.

Sexta parada, las opciones de salida. Quieres un texto plano o un formato estructurado como JSON, VTT, SRT, TSV? Whisper se adapta a tus deseos

Paso 7: Ejecutamos el modelo.

Séptimo paso, ponemos el turbo. Pinchamos en el botón para lanzar la célula y Whisper se pone manos a la obra. Un poco de paciencia y ya tienes tu transcripción lista para funcionar

.

Paso 8: Se analiza y comprueba la transcripción

Octavo y último paso, un vistazo rápido a la transcripción. Whisper es un profesional, pero nadie es perfecto. Puede que sean necesarias algunas pequeñas correcciones manuales

.

Whisper, nuestro amigo de todos los días

Whisper es desconcertantemente sencillo. No necesitas saber Python ni trastear con código. Solo tienes que seleccionar, hacer clic y listo. Obtendrás una transcripción tan precisa como un reloj suizo, lista para usar

.

Una herramienta con mil facetas

Whisper es como una navaja suiza, tiene un montón de usos. ¿Quieres transcribir vídeos de YouTube a diferentes idiomas, traducir contenidos de audio, tomar notas en reuniones o conferencias? Está ahí para ti. Whisper es el compañero ideal para cualquiera que necesite transcripciones rápidas y precisas. Y todo esto mientras te tomas un café. ¿Qué más se puede pedir?

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *