Productos con procesamiento de voz

Alternativas para desarrollar productos con procesamiento de voz. Ventajas y costes. 

Introducción al desarrollo de productos con procesamiento de voz

Los productos con procesamiento de voz, son dispositivos que, independientemente de sus funciones y objetivos, tienen la capacidad de recibir órdenes y alterar su funcionamiento, a través de la recepción e interpretación de comandos de voz. 

El desarrollo de productos con procesamiento de voz es una clara alternativa de mejora en la relación de los usuarios con las máquinas. La inclusión de procesamiento de voz en los productos puede perseguir objetivos muy variados:

  • Mejorar la experiencia de los usuarios al interactuar con los productos. 
  • Modificar la función de los productos, en escenarios donde es imposible o complejo interactuar con interfaces tipo pantallas o botones.
  • Reducir costos de operaciones intensivas en recursos humanos. 

A continuación, veremos algunos ejemplos de productos donde el control con procesamiento de voz, aporta mucho valor en la experiencia de usuarios,  así como las principales alternativas que hemos trabajado en Let´s Prototype para insertar el procesamiento de voz en los prototipos.

productos con procesamiento de voz

Clave para elegir tecnologías de procesamiento de voz para nuevos productos.

Antes de analizar las alternativas utilizadas en nuestro laboratorio de inventos para incluir procesamiento de voz en productos innovadores, es clave comprender el equilibrio entre: libertad de procesamiento Vs Costes y plazos vinculados al desarrollo. 

En un extremo de máxima complejidad, encontramos productos capaces de escuchar, interpretar, responder y customizar funciones, en escenarios ruidosos donde es más complejo el diálogo. Por el contrario, el extremo opuesto en nivel de complejidad, está ocupado por productos con reconocimiento de voz, capaces de realizar determinadas funciones tras escuchar comandos muy concretos y  predefinidos. 

Precisamente, las alternativas tecnológicas para crear productos con procesamiento de voz, deben elegirse, en función de las necesidades operativas de los productos innovadores que se pretendan desarrollar. 

Alternativas para crear productos innovadores con procesamiento de voz.

Existen 4 alternativas para insertar en un producto la capacidad de procesar voz y realizar funciones. Estas varían en función de los requisitos funcionales del producto. 

Necesidad

Alternativa adecuada

Costes

Escuchar + realizar función

Uso de soluciones hardware. Chips con modelos predefinidos

$$

Escuchar, realizar función, mejorar comportamiento del modelo.

Modelos de reconocimiento creados en plataformas No-code. 

$$$

Escuchar, interpretar, responder, realizar funciones, mejorar comportamiento del modelo, trazabilidad de los datos, customizar estructura. 

Desarrollo y entrenamientos de redes neuronales a medida. 

$$$$$

Escuchar, interpretar, realizar funciones, responder.

Integraciones con soluciones IA de lenguaje natural. 

$$$$

1. Inclusión de chips o elementos hardware con modelos embebidos

En Let´s Prototype trabajamos frecuentemente con componentes hardware, establecidos en el mercado como soluciones estables y democratizadas, que permiten su control a través de tecnologías totalmente compatibles con el desarrollo de prototipos electrónicos

Los chips de reconocimiento de voz, consisten en pequeños componentes electrónicos, capaces de identificar comandos de voz muy concretos, que pueden establecerse desde una plataforma, sin necesidad de asumir grandes desarrollos. 

Principales ventajas de los chips de reconocimiento de voz.

  • No requieren grandes inversiones en materia de desarrollo y entrenamiento de modelos IA.
  • Rápida inclusión en diseños electrónicos compatibles con prototipos electrónicos.
  • Suelen proporcionar kits de desarrollo muy completos y fáciles de utilizar para el ajuste de comandos. 
  • Gran versatilidad en la definición de comandos de voz. 
  • No requieren conectividad.
  • Sus dimensiones, afectan en menor medida las geometrías previstas para el diseño electrónico de los productos. 
  • Sus costes son muy reducidos, por lo que es una inversión viable para el proceso de prototipado rápido.

Principales desventajas de los chips de reconocimiento de voz.

  • Genera cierto nivel de dependencia con los fabricantes de estos componentes hardware. 
  • Limitación en la lista de comandos de voz que pueden activar determinadas funciones del producto. 
  • No interpretan diálogos ni generan la capacidad de establecer una comunicación humana.

Ejemplos de productos con reconocimiento de voz a través de chips.

Gafas útiles para cirujanos y dentistas: Las gafas de protección para quirófanos, también utilizadas por los dentistas, suelen incorporar un sistema de iluminación, controlado mediante botones. Por razones higiénicas y limitación de movimientos, natural en estos procedimientos médicos, el uso de los botones, se hace tedioso y poco ergonómico. La incorporación de chips de procesamientos de voz en este tipo de productos, podría representar una mejora sustancial la experiencia de uso. Imaginemos que con comandos como: “on” o “off”, podrían ser reconocidos por el producto y así, evitar la necesidad de contactos con la gafa. 

Dispositivos inteligentes de seguridad: No son pocos los productos que se ven en el mercado, para garantizar la seguridad de personas que puedan encontrarse en riesgo de acoso o situaciones de peligro. Desde Let´Prototype hemos desarrollado algunos dispositivos, donde la identificación de peligro puede identificarse a través de comandos simples, que a su vez, activan las lógicas de emisión de notificaciones. 

Televisiones inteligentes: Los dispositivos electrodomésticos más modernos, incluyen en algunos casos, chips de identificación de comandos de voz. En este caso, no nos referimos a la capacidad de escucha y búsqueda de contenidos, sino a operaciones concretas a partir de determinados formatos, como pueden ser: encender, apagar, subir o bajar volumen. El caso de la escucha y localización de contenidos, lejos de funcionar mediante comandos predefinidos o modelos de reconocimiento de voz, suele resolverse con un sistema de conversión de voz a texto, que luego se introduce en las plataformas de contenido.

2. Productos con reconocimiento de voz con plataformas no-code.

En este contexto, las plataformas no-code son escenarios amigables, que permiten a los equipos de desarrollo de productos, entrenar redes neuronales con apoyo de recursos visuales. Estas plataformas, incluyen herramientas muy prácticas, que agilizan el proceso de entrenamiento de modelos AI. 

A diferencia de los chips que permiten agregar la capacidad de escuchar comandos de voz predefinidos, en este tipo de plataformas, pueden prepararse escenarios de escucha e interpretación algo más complejos. Además, elimina la dependencia de los componentes electrónicos de proveedores muy concretos, que comercializan tales soluciones. 

Según nuestro criterio, además de la complejidad de los modelos IA resultantes, una diferencia clave es que: en el caso de los chips de comandos de voz, nunca podemos llevar la capa de inteligencia a nuestro propio software de control electrónico. Por el contrario, los modelos de procesamiento de voz que se entrenan en las plataformas no-code, permiten y facilitan el uso de los modelos como parte integrada (embebida) del firmware propio que se desarrolle para el control electrónico del producto en cuestión. 

Dichos de otra forma, con el uso de chips, el modelo inteligente de reconocimiento de voz, nunca podrá ser parte de tu solución software, mientras que en el entrenamiento de redes neuronales, con apoyo de plataformas no-code, obtendrás modelos optimizados para ser incorporados como parte de tu solución, con las ventajas y flexibilidad que esto conlleva. 

Ventajas de modelos de reconocimiento de voz entrenados en plataformas no-code.

  • Se trata de escenarios amigables y su curva de aprendizaje no es imposible. 
  • Apoyo de herramientas didácticas, visuales e intuitivas.
  • Se obtienen redes neuronales eficientes e integrables en el desarrollo propio, incluso, cuando se utilizan componentes electrónicos habituales en el prototipado. 
  • Se exporta fácilmente a dispositivos con capacidad de procesamiento sin internet. 
  • Permite entrenar y mejorar en el tiempo la eficiencia del modelo. 
  • Las licencias no son excesivamente caras.
  • Se trata de herramientas bien documentadas y, normalmente, con buenos equipos de soporte. 

Desventajas de soluciones de reconocimiento de voz entrenadas en plataformas no-code.

  • Los resultados de estos modelos, normalmente no funcionan bien en entornos ruidosos. 
  • La capacidad de customización de la red neuronal, es limitada, ya que no se accede al código del modelo. 
  • Existe cierto nivel de dependencia a la plataforma de creación, especialmente para procesos de ampliación del modelo o reentrenamiento.

Casos de uso de modelos de reconocimiento de voz creados en plataformas No-code.

Los ejemplos de productos con reconocimiento de voz, que requieran activaciones con comandos poco complejos, son los idóneos para el desarrollo en plataformas no-code. En Let´s Prototype utilizamos este tipo de modelo de reconocimiento de voz o los chips antes descritos, en función de variables que condicionan no sólo la viabilidad técnica del producto, sino la viabilidad del futuro modelo de negocio, plazos de puesta en marcha, recursos disponibles, etc…

Wearables para deporte con reconocimiento de voz: En dispositivos con ciertas restricciones de tamaño y autonomía, donde se requería la interpretación de comandos de voz, relacionados con el sistema de marcadores de puntos, hemos decidido utilizar modelos entrenados en plataformas no code. 

Wearable para baseball: Por ejemplo, en una pulsera inteligente para el baseball, podemos anunciar el tipo de swing que estamos ejercitando mediante comandos de voz, y la pulsera realiza evaluaciones precisas para este tipo de movimientos en tiempo real. Anunciando el % de similitud entre los movimientos del usuario, y los patrones de profesionales recogidos en la propia pulsera. Además, reconoce comandos para contar vueltas entrenamientos de running, entre otras funciones muy concretas, que pueden activarse y desactivarse con comandos de voz muy sencillos. 

Máquina de exprimido de naranjas con comandos de voz: En Let´s Prototype hemos desarrollado una máquina de exprimido de naranjas que, al terminar de hacer el zumo, tiene la opción de iniciar y detener procesos de autolimpieza, con comandos de voz. Además, la máquina es capaz de escuchar órdenes en diferentes idiomas y con un abanico de varios sinónimos. En este caso, la solución electrónica integrada, no requiere ningún chip o componente hardware que incremente sus costos producción en serie, no requiere conexión internet, ni pagos de licencias recurrentes, ni entrenamientos del modelo para nuevas versiones.

3. Entrenamientos de modelos de reconocimiento de voz desde cero, para productos innovadores.

En determinados productos, las necesidades de procesamiento de voz, exceden las funciones básicas: escuchar – identificar- ejecutar. Se trata de productos tecnológicos complejos donde es clave una experiencia de comunicación “máquina – humano” mucho más fluida. En este tipo de escenarios, es clave el desarrollo o evolución continua del modelo, trazabilidad de los datos utilizados para el entrenamiento, transparencia del funcionamiento del modelo y control absoluto sobre su comportamiento. En este tipo de dispositivos con reconocimiento de voz y análisis de comandos complejos, las soluciones de los chips con modelos de reconocimiento de voz pre programados y las soluciones software no-code para el entrenamiento de redes neuronales, son insuficientes.

Ejemplos de productos con reconocimiento de voz mediante modelos complejos.

Robots con reconocimiento de voz para el sector sanitario: En Let´s Prototype tuvimos oportunidad de participar en el desarrollo de robot, capaz de brindar soporte y ayuda en proceso de triaje en hospitales, concretamente en servicios de urgencia. El robot es capaz de mantener conversaciones y captar en este contexto, datos útiles para tomar decisiones sobre tipos de consultas donde deben ser atendidos. La capacidad de comunicación del robot a través de diálogos junto a otros parámetros, permite al robot asignar niveles de urgencia.

Ventajas de modelos de procesamientos de voz custom para productos

  • Capacidad de customizar el modelo con máximo nivel de detalles. 
  • Posibilidad de customizar la arquitectura de datos y parámetros. 
  • Los modelos de reconocimiento de voz pueden evolucionar y escalar sin dependencia de fabricantes de chips o proveedores de plataformas no-code. 
  • Permite absoluta transparencia y trazabilidad de datos que influyen en la red neuronal. 
  • Preparado para funcionar sin conectividad. 

Desventajas de los desarrollos de procesamiento de voz a medida.

  • Altas barreras técnicas.
  • Costes de desarrollo y proceso de entrenamiento de la red neuronal.
  • Costes de mantenimiento.
  • Dificultad de integración en soluciones a medida. 

4. Productos con capacidad de procesamiento de voz a través de integraciones.

Las soluciones de lenguaje natural ya democratizadas en el mercado, son un apoyo significativo para el desarrollo de productos tecnológicos que deben mantener conversaciones coherentes con los usuarios. Como en el caso anterior de las redes neuronales entrenadas desde cero y con total flexibilidad, el objetivo es mantener conversaciones, escuchar conversaciones y tomar decisiones a partir de interpretaciones con la complejidad que requiera según el contexto. 

Aunque los objetivos pueden ser similares, cuando no existen restricciones de trazabilidad en los datos, una solución con nivel de complejidad intermedio, podría ser el uso de soluciones AI de lenguaje natural ya entrenadas: Google, Chat GPT, Amazon y Azure, son algunas de las más utilizadas. 

La trazabilidad y análisis de lógicas utilizadas para la generación de respuestas, en estos casos, es mucho menos controlada. Esta variable es clave a la hora de decidir cuándo es conveniente desarrollar un modelo propio y cuándo utilizar integraciones con soluciones de IA existentes.  

Los robots con capacidad de asesorar a usuarios en tiendas, analizando preferencias tendencias y relacionándola con la oferta existente, es uno de los ejemplos claros del potencial de los nuevos productos, con capacidad de procesar comandos de voz, humanizar la relación y conseguir objetivos predefinidos a partir de la interpretación y aprendizaje obtenido durante la relación con las personas. 

En Let´s Prototype estamos preparando un robot, cuyo contexto de operaciones son los restaurantes y el objetivo principal, es amenizar la experiencia de los usuarios, independientemente de su idioma. Esperamos en breve poder agregarlo como actualización a la presente página.

Prototipos con procesamiento de voz

El desarrollo de un prototipo con capacidad de procesar voz y ejecutar órdenes, puede estar entre los $25.000 y los $50.000. Para calcular el coste de crear un invento con capacidad de procesamiento de voz, es fundamental comprender todos los requisitos técnicos del producto.

No existe una alternativa tecnológica mejor que otra. En función de los requerimientos del caso de uso, debe estudiarse la mejor alternativa. Aun así, el entrenamiento de redes neuronales para reconocimiento de voz, con No-Code, sigue siendo la más usada en nuestro laboratorio de prototipos.

El proceso de diseño y desarrollo de un prototipo, capaz de escuchar comandos y realizar funciones concretas, puede estar entre los 4 y 6 meses aproximadamente.

¿Quieres convertir tu idea en producto?

El momento de dar vida a tus ideas, es ahora. Te acompañamos en todo el proceso: de la idea al producto.

 

 

 San Juan Ingenieros, S. L, es propietaria del dominio www.letsprototype.com, y según lo dispuesto en el Reglamento General de Protección de Datos (UE 1679/2016), trataremos tus datos exclusivamente para tramitar  tu petición de información.  Estás en todo el derecho de  rectificar o solicitar la supresión de los mismos en cualquier momento a través de hello@letsprototype.com.