Decisiones robóticas
En el ámbito de las mal denominadas “Ciencias” sociales, por aquello de que el enunciado es un oximorón, dado que contiene una contradicción intrínseca, se suele acudir a las encuestas, como procedimiento para aportar datos que provengan de la “realidad” y deducir consecuencias “empíricas”.
Como bien sabemos, en tiempos electorales nos llueven las propuestas de resultados con pronósticos que, rara vez, aclaran el nivel de fiabilidad que tienen. No es posible que si todos fueran igualmente confiables se puedan proponer pronósticos tan distintos, como ocurre en todas las elecciones a todos los niveles de representación. Ciertamente, los que se vislumbran perdedores apelan a que la única encuesta fiable es la del día de la votación. No les falta razón, por varios argumentos que podemos argüir. Si todos opinan, el resultado es cabalmente significativo. Otra cosa es cuando se extraen consecuencias a partir de una muestra.
Una muestra es un subconjunto del conjunto que queremos estudiar y que resulta caro, tanto en coste como en tiempo, abordar su estudio, considerando la totalidad de individuos que lo componen. Pero el nivel de confianza del resultado, que indica la probabilidad de que los resultados de nuestra investigación sean ciertos, por ejemplo, cuando se dice que el nivel de confianza es de un 95%, es equivalente a decir que nos podemos equivocar con una probabilidad del 5%. En la práctica, se suele situar entre el 95% y el 99%, según el caso. Esto es distinto del denominado error muestral, que es la diferencia que puede haber entre el resultado que obtenemos a partir de la muestra y el que obtendríamos si implicáramos al conjunto total. El error se suele situar, en función del caso, entre el 1% y el 9%
El tamaño de una muestra no es algo elástico y sin importancia, dado que es determinante en el significado del resultado obtenido. En muchos casos el objetivo es lograr discriminar, para determinar si hay diferencias entre los grupos que se comparan y si hay garantía en el resultado que se obtiene. Es muy frecuente en los estudios epidemiológicos.
Si utilizamos las fórmulas que proporciona la Estadística Matemática, encontramos, por ejemplo, que el tamaño de la muestra para una población de 500 individuos, con un nivel de confianza del 95% se aproxima a 218. Si lo planteáramos en idénticas condiciones, para una población de 100 individuos, obtendríamos 80 como tamaño de muestra. Para una ciudad de 53.000 habitantes, requeriríamos, para un nivel de confianza del 95%, que el tamaño de la muestra fuera de 382. Vemos la notable incidencia del tamaño de la población total. Para 500 necesitamos 218 y para 53.000 solamente 382. Hemos supuesto un error del 5%. Si requiriéramos un nivel de confianza del 99% y un error del 1%, entonces para una población de 53.000 individuos la muestra sería de 16.135. Para 45 millones de población, en esas condiciones de 1% de error y un nivel de confianza del 99%, la muestra sería de 16.635. Naturalmente, hay condiciones adicionales cuando analizamos una población equivalente a la de un país, porque la muestra debe responder a una distribución al azar de los elementos que pretendemos estudiar. Esta distribución es determinante. Pensemos que solamente aquellos elementos que se distribuyen de forma homogénea en toda la extensión que se estudia, puede contenerse en la distribución al azar que se considere. Los profesionales de las encuestas, publicitan los niveles de confianza y el error, pero no el colectivo muestral de lo que analizan. Este nunca lo desvelarán, aunque ciertamente, no todos utilizan un colectivo valioso, como se ve en los resultados y su proximidad a los resultados reales.
En este contexto, valoraremos en su justa medida el experimento denominado “Moral Machine”, llevado a cabo en el MIT Media Lab y publicado en 2018 en el que participaron, nada menos que 40 millones de personas. Simplemente, la consulta se hizo viral y se dio esta participación espectacular incluyendo gente de 233 países que a lo largo de tres años, emitieron contestaciones a una encuesta que pretendía deducir las restricciones de las valoraciones éticas. Planteaba el estudio, la valoración ética en nueve supuestos del famoso experimento mental del dilema del ferrocarril. Imagínese que conduce un convoy al frente de la locomotora y llega a una bifurcación en una de cuyas ramas hay una persona atravesada sobre las vías y en la otra hay cuatro o cinco personas en idéntica situación a la anterior. El dilema consiste en la decisión que va a tomar, siendo como es, irremediable el embestir a las personas en cualquiera de las ramas de la bifurcación, por no poder detener el tren. Las alternativas del experimento incluían que en una rama los perjudicados eran los pasajeros y en la otra las personas, en otra opción eran hombres y mujeres, en otra, de menores edad y de mayor edad, en otra de alto estatus social y de bajo, en otra de buena forma física y de baja, en otra mayor número de personas y menor número, en otra de personas que respetan la ley y las que no respetan y en otra personas y animales. No sé cuando haya leído esto, que posición habrá ido adoptando, pero más allá de las preferencias globales, los investigadores identificaron que las decisiones variaban de unos países a otros y había una estrecha relación entre la decisión y la cultura, nivel social y nivel económico. Por otro lado las personas de países limítrofes o próximos, tomaban decisiones similares y se agrupaban en tres grandes áreas dominantes: este, oeste y sur. En los países orientales, no hay preferencia de salvar a los jóvenes frente a los mayores, coincidente con la estimación que se otorga y reconoce a los mayores. En todo caso, se aprecia que lo “correcto” es relativo y, en todo caso, no es universal. De cara a la conducción autónoma, no está nada claro cuáles serían las reglas éticas para guiar en las decisiones autónomas de los robots o dispositivos basados en Inteligencia Artificial. Un reto, nada simple, como sucede, siempre que se va más allá de la técnica y se irrumpe en las genuinas capacidades humanas.
Este blog pretende ser una depresión entre dos vertientes: la ciencia y la tecnología, con forma inclinada y alargada, para que por la vertiente puedan circular las aguas del conocimiento, como si se tratara de un río; o alojarse los hielos de un glaciar de descubrimiento, mientras tiene lugar la puesta a punto de su aplicación para el bienestar humano. Habrá, así, lugar para la historia de la ciencia, las curiosidades científicas y las audacias científico-tecnológicas. Todo un valle.
El eldense Alberto Requena es catedrático emérito de Química de la Universidad de Murcia.