Soy un apasionado de los podcasts. Me interesa todo, desde la fascinante búsqueda del origen de la energía oscura hasta los épicos relatos históricos, como el del milagroso giro de los acontecimientos en la batalla de Empel. Sin embargo, siempre me he encontrado con un problema: cuando quiero recordar quién dijo algo, en qué episodio o en qué momento, resulta casi imposible localizarlo.
Con Sttcast, verba non volant, las palabras permanecen y pueden ser buscadas y recuperadas cuando se desee.
Además, Sttcast es también mi forma de combatir la edaditis, el prejuicio que asocia la innovación solo con los jóvenes. Yo no lo soy y creo que eso ha beneficiado enormemente al sistema. La experiencia aporta valor y este proyecto es una forma de demostrarlo con resultados.
Qué es Sttcast
Sttcast es un sistema que convierte audios (como los de un pódcast) en texto y permite hacer búsquedas inteligentes para encontrar lo que se dijo, quién lo dijo y cuándo.
Su principal valor es que no hace falta recordar las palabras exactas: basta con describir lo que buscas y Sttcast localiza el fragmento más relevante.
Por ejemplo: si alguien pregunta “¿En qué episodio han hablado de un artefacto griego de la antigüedad que se encontró en un pecio?”, Sttcast llevará al fragmento sobre el mecanismo de Anticitera (ver figura). O si se menciona “ese templo muy antiguo en Turquía”, encontrará las referencias a Göbekli Tepe.
Cómo funciona
El sistema utiliza varias inteligencias artificiales. La que transcribe es whisperx, de OpenAI. Se hace uso también de pyannote, una inteligencia de código abierto que es capaz de separar hablantes. Sttcast permite añadir firmas vocales para que la separación se transforme en identificación.
Las transcripciones se almacenan en ficheros HTML que facilitan su lectura y su escucha en cualquier navegador, incluyendo los de dispositivos móviles. Con cada fichero se incluye un índice que conduce al interior del documento. También un resumen realizado por un LLM.
Sttcast toma un fichero de audio, lo transcribe a texto y lo divide en intervenciones en las que se identifica el hablante. Cada uno de las intervenciones es transformada en un vector para poder utilizar la tecnología RAG (Retrieved Augmented Generation). Con RAG, para cada pregunta se obtienen los fragmentos más cercanos al sentido de la consulta (los vectores de menor distancia semántica al vector de la pregunta),
Estos fragmentos constituyen el contexto. Pregunta y contexto se pasan al LLM (modelo de lenguaje de gran tamaño) para obtener la respuesta. En el mundo de la IA, llamamos modelo al sistema que produce una salida a partir de una entrada. En los LLM puros entradas y salidas son textos. Sin entrar en los detalles diferenciadores, los modelos en IA son lo que en otras ramas de la informática llamamos programas, rutinas, aplicaciones, etc.
El resultado final es que Sttcast genera una respuesta en función del significado de la pregunta, no de su forma. Se permiten, por lo tanto, sinónimos, faltas de ortografía, perífrasis, etc. Todo esto se ofrece mediante una interfaz web, que permite buscar por voz o texto y consultar transcripciones y audios. La resìesta es función, fundamentalmente, del contenido de la colección, independientemente de cómo se haya entrenado el modelo.
En el proceso de transcripción se genera también información estructurada en una base de datos relacional. En la figura siguiente se ve un ejemplo de explotación de esta información para ver los intervinientes en diez años de Coffee Break. Como curiosidad, se pueden identificar varios premios Nobel
La instalación de Sttcast,no precisa contar con hardware especializado, gracias a la posibilidad de ejecutarlo en la nube. También facilita las herramientas para publicar el resultado en la web.
Dónde probarlo
El software es de código abierto y está disponible en https://github.com/pulijon/Sttcast
Como ejemplo práctico, se han transcrito los diez años del pódcast de divulgación científica Coffee Break. Se accede al sistema de búsquedas por https://cb.awebaos.org. También están los últimos años del pódcast para cinéfilos Cowboys de Medianoche en https://cm.awebaos.org y también del pódcast sobre gestión y emprendimiento en la era digital Listening Leaders https://ll.awebaos.org
Un proyecto abierto al futuro
Sttcast es una herramienta diseñada para ser útil y para poner la experiencia al servicio de la innovación. El único requisito para quienes lo usen es que conserven la atribución original, como forma de contribuir a que las palabras no se pierdan y a que el valor de la experiencia se reconozca.
La evolución natural de este proyecto es la de permitir el acceso normalizado a varios podcasts simultáneamente a través de interfaces para agentes de IA. Esto permitiría preguntas del tipo: “¿En qué podcasts y en qué episodios se ha hablado de la llegada del Apolo 11 a la Luna?”. Espero poder tener alguna prueba de concepto en breve. Hay muchas ideas, algunas de ellas sugeridas por los propios directores de los podcasts (Héctor Socas, Raúl Castro, gracias de corazón).
Tengo que agradecer de forma muy especial al grupo Talento+50 del Colegio de Ingenieros de Telecomunicación su ánimo, su firmeza al remar contra corriente y, por supuesto, por las facilidades para la difusión.
Por Jose Miguel Robles