Avances en las IA: Otter.ai la aplicación que puede transcribir sus reuniones en tiempo real y de forma gratuita
El CEO de AISense, la compañía detrás de Otter.ai - Liang, comenzó a explicar cómo la startup de 15 personas de Los Altos, California, adoptó un enfoque diferente para comprender los datos de audio que Amazon Alexa, el Asistente de Google y las otras compañías que trabajan en reconocimiento de voz. Todo mientrás tenían la aplicación grabando el discurso.
Cuando Liang dio su discurso, Otter comenzó a escupir texto, con aproximadamente 2-3 segundos de retraso. Y dado que Liang había establecido nuestra reunión en la aplicación de antemano, el software reconoció automáticamente cuando su compañero de equipo Seamus McAteer intervino con sus propios comentarios o interrumpí con preguntas de seguimiento.
Mientras que el procesamiento del lenguaje natural de Otter no era perfecto de ninguna manera: la puntuación falta, las palabras no se entienden, los hablantes a veces se identifican erróneamente, es notablemente estrecha, especialmente considerando su velocidad y el hecho de que la aplicación es gratuita.
"Nuestra tecnología es bastante diferente", dijo Liang. "Lo llamamos 'inteligencia de voz ambiental' y usamos la palabra ambiente para indicar que esto está funcionando en segundo plano ... Su cerebro solo puede recordar el 10-20% de la información [de una reunión] ... Así que pensamos podemos ayudar a las personas a capturar esa información y luego buscarla realmente rápido".
La búsqueda es la mejor característica. Una vez que finaliza la grabación, el aprendizaje automático de la aplicación crea automáticamente alrededor de 10 palabras clave para que sepa de qué se trató la reunión. Y puede comenzar a buscar el texto completo de inmediato. También es útil que una vez que ingrese una palabra clave, puede presionar el botón reproducir para escuchar la sección del audio donde ocurrió.
La siguiente mejor característica de la aplicación es que puedes compartir reuniones grabadas. Por lo tanto, si tiene una reunión y un colega no puede asistir, puede enviarles la transcripción y el audio posteriormente, para que puedan encontrar las cosas que son relevantes para ellos.
Todas estas características avanzadas son más fáciles si conecta su cuenta de Google a la aplicación e importa sus contactos, por lo que funciona especialmente bien si su organización usa Google Apps. La integración de Google no es sorprendente ya que Liang es un ex ingeniero de Google.
McAteer ha estado trabajando en análisis de datos y dispositivos móviles durante más de 20 años. El resto del equipo está formado por antiguos empleados de Google, Facebook, Yahoo y Nuance, así como por doctores y científicos informáticos del MIT, Stanford y otros programas tecnológicos de primer nivel.
El equipo ha estado trabajando en la tecnología detrás de Otter desde enero de 2016. Tienen una API que han autorizado a otros socios durante el año pasado, principalmente para ofrecer la transcripción de archivos de audio después de que hayan terminado de grabar. AISense utilizó todos los datos de ese socio para sintonizar y entrenar sus algoritmos.
En enero, anunciaron una asociación de licencia con Zoom, el servicio de videoconferencia de rápido crecimiento, que ahora ofrece una opción para transcribir las videoconferencias una vez que se han grabado, con la tecnología de AISense.
Con el lanzamiento de su propia aplicación gratuita con transcripción en tiempo real, la compañía pasará a la siguiente etapa. Eventualmente planea lanzar una versión premium de su aplicación, que se basará en la funcionalidad de la versión gratuita. Por ejemplo, la versión gratuita le permitirá buscar reuniones en los últimos 90 días. La versión premium extenderá eso.
"La capacidad de recordar, buscar y compartir sus conversaciones de voz es la próxima frontera en colaboración", dijo Liang. "Otter le permite al usuario utilizar la inteligencia artificial para las conversaciones cotidianas, de modo que pueda concentrarse en lo que se dice y olvidarse de tomar notas".
Puede encontrar la aplicación en Otter.ai, Apple App Store y Google Play Store. La versión de iOS es un poco más refinada en este momento, pero vale la pena probar ambas, y vale la pena ver cómo esta aplicación se desarrolla y mejora con el tiempo.
IBM Watson ofrece servicios de texto a voz en tiempo real, pero usa un superordenador para alimentarlo. De modo que es impresionante lo que AISense logró con una aplicación y un teléfono inteligente, y podría decirse que fue uno de los avances más importantes anunciados en el Mobile World Congress 2018.