SCADA/Automatización industrial con NLP: ¿es buena idea?
19 mayo 2020 por Oscar Calcaterra
Tiene sentido automatizar un ascensor con reconocimiento de voz para indicarle el nivel deseado; incluso es más rápido y eficaz gritar una orden de "¡Pare!", que saltar y localizar el botón correcto de apertura de puerta ante una eventualidad. Pero ¿tiene sentido contar con el mismo poder verbal en una línea de producción de alimentos o barbería?
Estamos muy acostumbrados a una pantalla (táctil o no) y teclado para interactuar con una máquina. Es tradicional, incluso ya familiar e intuitivo, el uso de interfaces muy estudiadas que mejoran la experiencia del usuario, todo gracias a décadas de evolución en tecnologías que hacen más económico fabricar, distribuir y usar pantallas digitales de todos los sabores.
También estamos habituados al uso de credenciales de acceso, generalmente en la forma de usuario/clave para ingresar a un sistema protegido y así identificarnos para realizar tareas autorizadas inherentes al grado otorgado. Esta metodología, combinada con cifrado, ha funcionado muy bien, proporcionando seguridad y privacidad.
Ahora bien, con la ayuda de NLP (Procesamiento de Lenguajes Naturales) podemos interactuar con una máquina de forma elocuente y sin necesidad de hablar de forma especial o técnica. Solo basta con indicar naturalmente en una corta frase la acción deseada y los algoritmos extraen con bastante certeza los parámetros y acciones a tomar, como lo vemos actualmente en productos tipo Alexa, Google Home o Siri, que proporcionan una forma de entrada al mundo del control y la automatización.
Interfaz de control industrial: ¿puede la voz reemplazar al teclado y la pantalla?
¿Tiene sentido controlar un SCADA industrial con la voz?
Estas reflexiones son producto de varias preguntas e hipótesis que he tenido mientras hacemos el desarrollo de proyectos para clientes. Con ello he tratado de buscar argumentos para determinar si estamos en el momento de invertir o enfocarnos en el desarrollo de interfaces controlables de forma verbal, o si es simplemente algún aditamento de moda que no tiene bondades tangibles y más bien puede representar grandes desafíos en temas de seguridad (identificar quién da el comando, por ejemplo).
Pedir una dirección al asistente virtual del teléfono y que nos dé un mapa detallado con instrucciones es una tarea común. Ya vemos el uso de bots en aplicaciones como WhatsApp para hacer pedidos de comida, consultar productos, disponibilidad de vuelos, información de conciertos, gestiones administrativas, etc., las 24 horas y con respuesta inmediata.
En NLP no es suficiente comprender solo palabras; se deberá comprender el conjunto de palabras que conforman una oración, y el conjunto de líneas que comprenden un párrafo. Esto da un sentido global al análisis del texto o discurso para poder sacar buenas conclusiones.
Nuestro lenguaje está lleno de ambigüedades, de palabras con distintas acepciones, giros y diversos significados según el contexto. Esto hace que el NLP sea una de las tareas más difíciles de dominar.
Hablemos entonces de automatizar una empresa, específicamente en la línea de producción que cuenta con un SCADA que permite el monitoreo y control de varios elementos y fases. Dicha línea es monitoreada por operadores humanos que realizan acciones de mantenimiento, producción y, algunas veces, paradas de emergencia (botón rojo).
El comando "aumentar 5 grados el horno 3" gana en perfección de entendimiento, pero ¿qué ocurre con la instrucción "un poco más frío este horno"? Con el primer ejemplo podemos extraer la variable (5 grados) y dónde debe ser cambiada (horno 3). Sin embargo, la segunda instrucción es tan ambigua que se requiere de la ayuda del NLP para determinar con algún grado de certeza cuánto se debe reducir la temperatura y en cuál horno. Es importante entender el mensaje y obtener del mismo la acción a tomar.
Los humanos no hablamos ni nos expresamos igual para referirnos a alguna acción a tomar; las instrucciones verbales pueden estar acompañadas de gestos con las manos que ayudan a comprender el mensaje. Por ello pienso en propuestas —dignas de un mundo utópico— que pueden ser logradas si usamos las "convenciones" técnicas correctas.
¿Qué hacemos con la seguridad y el reconocimiento de quién da el comando?
Hablar a un ascensor e indicar el nivel o piso deseado es una tarea trivial que no representa ningún riesgo de seguridad; cualquier persona de forma anónima puede indicar un piso y la máquina cumplirá su función de llegar hasta él para abrir sus puertas. Pero ¿qué hacemos en ambientes donde se requiere identificar a la persona que habla y verificar si tiene privilegios para realizar la acción deseada?
Si bien estamos hablando de reconocer y traducir el significado de una frase verbal, el NLP no identifica en ningún momento quién es la persona que habla. Para el dispositivo son iguales las instrucciones de un adulto que las de un niño pequeño.
Debemos contar con un identificador único de voz (así como usamos las huellas digitales, usuario/clave o ADN) para poder crear interfaces controladas solo por la voz del operador autorizado.
La identificación del hablante es un requisito crítico antes de integrar NLP en entornos industriales.
Reglamentación de seguridad y marco jurídico
El mundo avanza, las innovaciones son constantes y los métodos más aceptados terminan siendo regulados. No sería sorpresa que en algún momento se fomente globalmente el uso de normas, leyes y buenas prácticas cuando se interactúe con una máquina de control.
Establecer responsabilidades si el sistema es vulnerado, dañado o intervenido violando parámetros de seguridad es indispensable.
Estamos hablando de micrófonos encendidos en todo momento, capturando y analizando todos los sonidos. Las empresas requieren garantía en la privacidad de sus comunicaciones y prácticas correctas en cuanto al manejo de la información.
Conclusiones
El poder de procesamiento y almacenamiento de datos está distribuido globalmente y cada día en más locaciones al menor costo posible, gracias a la feroz competencia en la industria de los centros de datos y servicios en la nube. No debe sorprendernos entonces que existan herramientas como Dialogflow de Google disponibles básicamente sin costo de entrada para cualquier persona que requiera integrar NLP pero no cuente con la infraestructura en IA o redes neuronales.
Repensar cómo interactuamos con máquinas por medio de la voz es indispensable. Desconozco si existe algún manifiesto, guía o reglamentación a nivel de estado para regular, condicionar y promover el uso de estas tecnologías; esa es la siguiente tarea que tengo en esta búsqueda de argumentos.
¿Existen leyes (y precedentes) donde se pueda culpar a la persona X de una mala acción, cuando la orden vino de otra persona Y pero fue reconocida por la máquina como X?
Ciertamente habrá elementos donde agregar control por voz sea una buena idea, especialmente tras la pandemia del COVID-19 que ha creado un nuevo orden mundial y se busca evitar tocar cosas en sitios públicos. Veo parte del confort y buenas prácticas —al igual que contar con A/C, controles remotos o cámaras— en implementar servicios autónomos que no requieran tocar teclados, pantallas o dinero en efectivo.
Explicarle a un robot barbero el tipo de corte que deseamos por medio de comandos tan subjetivos y emocionales como lo puede ser un estilo de peinado puede no ser tan buena idea, y terminar con un estilo totalmente distinto al deseado, solo por la interpretación que hizo el robot del NLP.
Oscar Calcaterra — ocalcaterra@innotica.net