Los asistentes de voz llegaron a los smartphones para quedarse ya hace algún tiempo, y no solo eso, cada vez se amplian a más dispositivos como son el caso de los altavoces inteligentes que tienen Google, Amazon … smartTVs, dispostiivos de operadoras como Movistar Aura… Ahora ya es extraño que no tengamos un micrófono cerca de nosotros en todo momento.
Alexa, Siri, Cortana… , da igual como se llamen, todos los asistentes de voz nos pretenden hacer la vida más fácil. Una simple orden de voz y podremos acceder a sus funciones. Poner una canción en un servicio de streaming, pedir un producto que se nos ha acabado, llamar a un contacto… todo sin tocar nada, solo con la voz. Un mundo idílico… ¿o terrorífico?
Microfronos siempre a la escucha
No lo olvidemos, para poder cumplir con esta «maravillosa» funcionalidad es necesario tener al dispositivo en cuestión en modo de «escucha» constante. Es decir, que tenemos un micrófono encendido en todo momento, esperando que le indiquemos que necesitamos que haga algo por nosotros. Una simple orden, y el asistente virtual responderá a nuestra petición…
Las marcas de cualquier producto que ofrezca un servicio de asistente por voz se afanan en asegurar en todo momento que respetan la privacidad de los usuarios, y que sus datos están a salvo. La comunicación con sus servidores, teoricamente solo se produce cuando hay de veras una «orden» que active su asistente y el acceso a esos datos se supone que está totalmente protegida. Pero más de una vez han surgido polémicas en torno a la inseguridad de estos servicios como la más reciente en que el CNI invita a los usuarios a desactivar el asistente de Apple Siri.
Porque si, todos estos asistentes no funcionan directamente en nuestros dispositivos, sino que dependen de la gran red de redes. Nuestro teléfono, lo que hace es transferir nuestra orden de voz a un servidor, para que luego este devuelva al dispositivo necesario, la correspondiente orden a ejecutar. El proceso que parece transparente y que podríamos pensar que realiza nuestro teléfono, realmente se ejecuta en un servidor externo que es el encargado de la «interpretación» de nuestro audio. Así pues si no hay conexión a internet, estos asistentes pierden buena parte de su funcionalidad…
¿Es necesario que nuestros datos se envien a un servidor?
El proceso de transformar nuestro audio en una «orden» tiene cierta complejidad y es por eso que los asistentes lo que hacen es enviar nuestras peticiones a los servidores. Allí ordenadores más potentes son los encargados realmente de esa transformación, y luego los que le indican al teléfono lo que tiene que hacer.
El pasar esta tarea a un servidor es lo que ha mejorado sustancialmente su capacidad. Porque en el pasado, sin tanta conexión a internet ya existían estos asistentes, pero la capacidad de proceso de los dispositivos limitaba su funcionalidad. ¿Por qué ahora no se hace lo mismo? Ahora los dispositivos que tenemos en nuestras manos son mucho más potentes, y seguramente podrían resolver buena parte de esas órdenes, sin que nuestro dispositivo se vea tan «limitado» como nos quieren hacer creer. Pero claro, de esa forma, se estarían perdiendo un montón de cosas, porque al usar los asistentes de voz progresan en su capacidad para «recolectar aún más datos».
Veamos una rápida busqueda a las condiciones de uso de uno de estos asistentes lo que nos dice:
Además de estas grabaciones de audio, tu dispositivo también enviará otros datos, como los siguientes:
* los nombres, los alias y las relaciones que mantienen contigo tus contactos (por ejemplo, “Mi padre”), si los tienes configurados;
* la música, los libros y los podcasts que te gustan;
* los nombres tanto de tus dispositivos como de los miembros de una casa compartida en la app Casa;
* y los nombres de tus álbumes de fotos y los nombres de las apps instaladas en tu dispositivo, y los atajos que hayas añadido a través de *****.
Ahí lo tenemos, nuestro asistente no solo envia el audio con nuestra orden, también le envia datos… ¿que hasta que punto son necesarios? Seguramente argumentarán que para facilitar su función… pero seguramente podrían simplemente enviar el audio al servidor, «interpretar la orden» y una vez interpretada devolver la correspondiente orden a nuestro dispositivo en un «lenguaje» que entienda. Todo eso sin enviar ningún dato adicional…. y sin embargo no es así. Prefieren ejecutarlo todo en sus servidores, y de paso recopilan algunos datos extra.
¿Van más allá?
Algunos podrían pensar que todo esto tiene más peligros, y quizás no estén muy desencaminados. En su momento surgió cierta polémica en torno a una marca de televisiones y los microfonos activos de sus smartTVs. Y no son pocos los que aseguran que tras haber mantenido conversaciones sobre ciertos temas, en las sugerencias de los asistentes luego aparecen temas relacionados con lo tratado… puede todo esto ir más allá de una simple «ayuda digital». Lo peor de todo, es que ahora nuestros SmartPhones no podemos asegurarnos que de verdad estén en algún momento desconectados 100%. ¿Acaso no os habéis dado cuenta que ahora es cuasi imposible quitar una batería? Lo cual, dicho de otra forma, permitiría que tuviesemos una «desconexión efectiva» de nuestro dispositivo.
En fin, quizás el SmartPhone que tengo al lado del teclado mientras escribo sea capaz de «discernir» el sonido de mi tecleado y de esa forma sepa lo que escribo… quizás no, solo sea una imaginación.