DeepSpeech

Mozilla se suma al reconocimiento de voz en código abierto

El proyecto DeepSpeech de Mozilla supone el lanzamiento de un sistema de reconocimiento de voz en código abierto.

Una tecnología precisa de reconocimiento de voz no es fácil de conseguir. Hay infinidad de factores a tener en cuenta para que la identificación de las palabras sea adecuada. No solo eso. El sistema también tiene que ser capaz de reconocer expresiones, diferenciar acentos y tonos de voz.

La complejidad hace que los desarrolladores de esta tecnología la guarden celosamente. No es el caso de Mozilla, que ha publicado en código abierto su plataforma de reconocimiento de voz. El sistema se denomina DeepSpeech y consiste en algoritmos de machine learning capaces de procesar el lenguaje y transformarlo en texto. La tasa de error es del 6,5%, una buena marca.

DeepSpeech se nutre de una base de datos de 400.000 grabaciones, de 20.000 personas distintas. En total son 500 horas de audio que han servido para entrenar a los algoritmos. Por el momento, la plataforma solo funciona con inglés, pero Mozilla prevé lanzar el producto en modo multilingüe en 2018.

La de Mozilla no es la única en la comunidad del código abierto. De la John Hopkins University salió la plataforma Kaldi, mientras que de la Carnegie Mellon University emergió el sistema de reconocimiento de voz CMUSphinx. Hay otros nombres, pero lo cierto es que, hasta la fecha, no hay ninguna alternativa real al software propietario.

DeepSpeech

En estos momentos, los principales sistemas de reconocimiento de voz son cerrados. Google, Amazon, Apple y Microsoft mantienen los derechos sobre su tecnología. Esto no quiere decir que un desarrollador, incluso un fabricante de altavoces, no pueda usar Alexa. De hecho, puede hacerlo, pues esta ha sido la estrategia de Amazon para progresar en el mercado de los asistentes personales. Pero la compañía de Jeff Bezo se reserva para sí el desarrollo del software.

Incluso la empresa Nuance, especializada en el campo del reconocimiento de voz, y que comercializa su tecnología para que la usen terceros, tampoco ofrece una plataforma de código abierto. Sin embargo, el proyecto DeepSpeech de Mozilla podría ser la primera iniciativa de código abierto que lograra tener envergadura suficiente como para competir en este terreno.

Imágenes: rawpixel, goranmx

Sobre el autor

RELACIONADOS

GPTs Custom

Cómo hacer GPTs Custom

Hace unos meses, OpenAI presentó una nueva función para ChatGPT, el popular chatbot de la compañía que funciona gracias a GPT-4, su modelo de...