jueves, 13 de enero de 2011

El dilema del prisionero

El dilema del prisionero es un problema fundamental de la teoría de juegos que muestra que dos personas pueden no cooperar incluso si en ello va el interés de ambas. Fue desarrollado originariamente por Merrill Flood y Melvin Dresher mientras trabajaban en RAND en 1950. Albert W. Tucker formalizó el juego con la frase sobre las recompensas penitenciarias y le dio el nombre del "dilema del prisionero" (Poundstone, 1995).

En el dilema del prisionero iterado, la cooperación puede obtenerse como un resultado de equilibrio. Aquí se juega repetidamente, por lo que, cuando se repite el juego, se ofrece a cada jugador la oportunidad de castigar al otro jugador por la no cooperación en juegos anteriores. Así, el incentivo para defraudar puede ser superado por la amenaza del castigo, lo que conduce a un resultado cooperativo.


La enunciación clásica del dilema del prisionero es:
La policía arresta a dos sospechosos. No hay pruebas suficientes para condenarlos y, tras haberlos separado, los visita a cada uno y les ofrece el mismo trato. Si uno confiesa y su cómplice no, el cómplice será condenado a la pena total, diez años, y el primero será liberado. Si uno calla y el cómplice confiesa, el primero recibirá esa pena y será el cómplice quien salga libre. Si ambos confiesan, ambos serán condenados a seis años. Si ambos lo niegan, todo lo que podrán hacer será encerrarlos durante seis meses por un cargo menor.

Lo que puede resumirse como:


Tú confiesas
Tú lo niegas
Él confiesa
Ambos son condenados a 6 años
Él sale libre; tú eres condenado a 10 años
Él lo niega
Él es condenado a 10 años;
 tú sales libre
Ambos son condenados a 6 meses.

Vamos a suponer que ambos prisioneros son completamente egoístas y su única meta es reducir su propia estancia en la cárcel. Como prisioneros tienen dos opciones: cooperar con su cómplice y permanecer callado, o traicionar a su cómplice y confesar. El resultado de cada elección depende de la elección del cómplice. Por desgracia, uno no conoce qué ha elegido hacer el otro. Incluso si pudiesen hablar entre sí, no podrían estar seguros de confiar mutuamente.

Si uno espera que el cómplice escoja cooperar con él y permanecer en silencio, la opción óptima para el primero sería confesar, lo que significaría que sería liberado inmediatamente, mientras el cómplice tendrá que cumplir una condena de 10 años. Si espera que su cómplice decida confesar, la mejor opción es confesar también, ya que al menos no recibirá la condena completa de 10 años, y sólo tendrá que esperar 6, al igual que el cómplice. Y, sin embargo, si ambos decidiesen cooperar y permanecer en silencio, ambos serían liberados en sólo 6 meses.

Confesar es una estrategia dominante para ambos jugadores. Sea cual sea la elección del otro jugador, pueden reducir siempre su sentencia confesando. Por desgracia para los prisioneros, esto conduce a un resultado regular, en el que ambos confiesan y ambos reciben largas condenas. Aquí se encuentra el punto clave del dilema. El resultado de las interacciones individuales produce un resultado que no es óptimo; existe una situación tal que la utilidad de uno de los detenidos podría mejorar (incluso la de ambos) sin que esto implique un empeoramiento para el resto. En otras palabras, el resultado en el cual ambos detenidos no confiesan domina al resultado en el cual los dos eligen confesar.

Si se razona desde la perspectiva del interés óptimo del grupo (de los dos prisioneros), el resultado correcto sería que ambos cooperasen, ya que esto reduciría el tiempo total de condena del grupo a un total de un año. Cualquier otra decisión sería peor para ambos si se consideran conjuntamente. A pesar de ello, si siguen sus propios intereses egoístas, cada uno de los dos prisioneros recibirá una sentencia dura.

Si has tenido una oportunidad para castigar al otro jugador por confesar, entonces un resultado cooperativo puede mantenerse. La forma iterada de este juego ofrece una oportunidad para este tipo de castigo. En ese juego, si el cómplice traiciona y confiesa una vez, se le puede castigar traicionándolo a la próxima. Así, el juego iterado ofrece una opción de castigo que está ausente en el modo clásico del juego.

Una opción es considerar este dilema como una simple "máquina de la verdad". El jugador puede tomar no dos, sino tres opciones: cooperar, no cooperar o, sencillamente, no jugar. La respuesta lógica en este caso es "no jugar", pues el prisionero carece de información suficiente para jugar correctamente: no sabe cuál será la opción de su compañero. No hay tal dilema, pues no es posible el juego. Si juega, se trata de una "apuesta", más que de una solución lógica.

Pensemos también que el prisionero en realidad está "jugando" con su carcelero, no con el otro prisionero. El carcelero le ofrece una opción. Para él, la mayor ganancia sería condenar al prisionero a la pena mayor, pues ése es su trabajo. Si logra condenar a los dos a la máxima pena, doble ganancia. El prisionero sabe eso, en el fondo. Sólo "jugaría" si supiera con todo certeza que el policía cumpliría su palabra a pesar de su confesión. Pero tampoco lo sabe. En realidad, prisionero-carcelero y prisionero-prisionero están jugando al mismo juego: verdad o mentira.


Tú eres sincero
Tú mientes
Él es sincero
Máximo beneficio común
Tú ganas, él pierde
Él miente
Él gana, tú pierdes
Máximo perjuicio común

En este caso, decir la verdad equivale a cooperar, a callarse. Pero un jugador sólo optará por la casilla "verdad" si sabe que el otro jugador también opta por la misma solución. En la vida real, eso no lo sabemos: hay que "jugar", es decir, arriesgarse. Todo se basa en la "relación de confianza" existente entre los dos jugadores. Pongamos, por ejemplo, que los dos prisioneros son hermanos, con una relación de confianza muy estrecha. O que lo son uno de los prisioneros y el carcelero. Entonces sí sabrían (casi con toda seguridad, pero nunca completa) cuál sería la opción de su compañero, y entonces siempre jugarían correctamente: cooperarían.

La única solución lógica es, por tanto, decir la verdad. Y además será la que dará el máximo beneficio común. Este planteamiento nos lleva a la correcta solución del dilema, que es decir la verdad, cooperar. Pero en este caso el error estaba en el planteamiento correcto del dilema, que no es pensar en nuestro beneficio (ser egoísta) sino en el del "otro" (ser generoso). En este caso, jugando a "verdad" siempre conseguiremos que el "otro" gane. Si el objetivo del juego es que siempre gane el rival, hay pues una única solución lógica, y que no depende de la jugada del rival. Dilema resuelto.

Una solución "incorrecta" sería en el caso que el hermano traicione al hermano. Aun así, el juego es correcto (pues todo juego tiene una y sólo una solución lógica). Lo que ha sucedido es que ha cambiado el nombre del juego: ahora lo podríamos llamar "Descubre al mentiroso". Hemos ganado, pues descubrimos a un mentiroso.


Tú ganas
Tú pierdes
Él gana
Los dos dijeron la verdad
Él mintió
Él pierde
Tú mentiste
Lo dos mintieron

Es entonces una auténtica "máquina de la verdad".

El dilema del prisionero es pues siempre un juego dual; pero siempre tiene una solución lógica. Si los dos juegan lógicamente, es decir, con honestidad, el juego es beneficioso para ambos. Si uno engaña y el otro no, el juego se llama "Descubre al Mentiroso", y ambos vuelven a ganar.

Pero si pensamos en el Dilema como búsqueda egoísta, y no generosa, la jugada "incorrecta" del dilema impide la iteración, luego finaliza el juego. Por esa razón, el jugador "ilógico" siempre tendrá dos objetivos: uno, engañar al honesto; y dos, convencerle a posteriori de que no fue engañado, mediante otro ardid, para poder seguir engañándole. Un mentiroso siempre necesitará otra mentira para cubrir la primera.

Este tipo de estrategias es muy común en la vida cotidiana y se conoce como "manipulación". Para algunos, quizás exagerando, la política (la mala política) es el arte de la manipulación continua. Y que la estrategia funcione tiene tanto que ver con la "mentira" del tramposo como la "doble ingenuidad" del honesto. Fiarse de un mentiroso no es honestidad, sino estupidez. (De ahí que la estrategia conocida como "vengativa no rencorosa", o Toma y sea la más eficaz en ll dilema del prisionero iterado). Pero sabemos que el único resultado correcto es bueno para todos los jugadores, y éste sólo sucede cuando todos dicen la verdad. Si alguien miente, engaña o manipula, la solución siempre será incorrecta. O, dicho de otro modo, si la solución es incorrecta, es que alguien nos engañó o nos mintió.

Robert Axelrod, en su libro La evolución de la cooperación: el dilema del prisionero y la teoría de juegos (1984), estudió una extensión al escenario clásico del dilema del prisionero que denominó dilema del prisionero iterado (DPI). Aquí, los participantes deben escoger una y otra vez su estrategia mutua, y tienen memoria de sus encuentros previos. Axelrod invitó a colegas académicos de todo el mundo a idear estrategias automatizadas para competir en un torneo de DPI. Los programas que participaron variaban ampliamente en la complejidad del algoritmo: hostilidad inicial, capacidad de perdón y similares.
Axelrod descubrió que cuando se repiten estos encuentros durante un largo periodo de tiempo con muchos jugadores, cada uno con distintas estrategias, las estrategias "egoístas" tendían a ser peores a largo plazo, mientras que las estrategias "altruistas" eran mejores, juzgándolas únicamente con respecto al interés propio. Usó esto para mostrar un posible mecanismo que explicase lo que antes había sido un difícil punto en la teoría de la evolución: ¿cómo puede evolucionar un comportamiento altruista desde mecanismos puramente egoístas en la selección natural?

Se descubrió que la mejor estrategia determinista era el Toma y daca (tit for tat, "Donde las dan, las toman"), que fue desarrollada y presentada en el torneo por Anatol Rapoport. Era el más simple de todos los programas presentados, conteniendo únicamente cuatro líneas de BASIC, y fue el que ganó el concurso. La estrategia consiste simplemente en cooperar en la primera iteración del juego, y después de eso elegir lo que el oponente eligió la ronda anterior. Una estrategia ligeramente mejor es "tit for tat con capacidad de perdón". Cuando el jugador B deserta, en la siguiente ronda el jugador A coopera a veces de todos modos con una pequeña probabilidad (del 1% al 5%). Esto permite la recuperación ocasional de quedarse encerrado en un círculo de deserciones. La probabilidad exacta depende de la alineación de los oponentes. "Toma y daca con capacidad de perdón" es la mejor estrategia cuando se introducen problemas de comunicación en el juego. Esto significa que a veces la jugada de un jugador se transmite incorrectamente a su oponente: A coopera pero B cree que ha desertado.

Toma y daca funcionaba, mantenía Axelrod, por dos motivos. El primero es que es "amable", esto es, comienza cooperando y sólo deserta como respuesta a la deserción de otro jugador, así que nunca es el responsable de iniciar un ciclo de deserciones mutuas. El segundo es que se le puede provocar, al responder siempre a lo que hace el otro jugador. Castiga inmediatamente a otro jugador si éste deserta, pero igualmente responde adecuadamente si cooperan de nuevo. Este comportamiento claro y directo significa que el otro jugador entiende fácilmente la lógica detrás de las acciones de Toma y daca, y puede por ello encontrar una forma de trabajar con él productivamente. No es una coincidencia que la mayoría de las estrategias que funcionaron peor en el torneo de Axelrod fueron las que no estaban diseñadas para responder a las elecciones de otros jugadores. Contra ese tipo de jugador, la mejor estrategia es desertar siempre, ya que nunca puedes asegurarte de establecer una cooperación mutua fiable.

Para el DPI, no siempre es correcto decir que una cierta estrategia es la mejor. Por ejemplo, considérese una población donde todo el mundo deserta siempre, excepto por un único individuo que sigue la estrategia Toma y daca. Este individuo tiene una pequeña desventaja porque pierde la primera ronda. En una población con un cierto porcentaje de individuos que siempre desertan y otros que siguen la estrategia Toma y daca, la estrategia óptima para un individuo depende del porcentaje, y de la duración del juego. Se han realizado simulaciones de poblaciones, donde mueren los individuos con puntuaciones bajas y se reproducen aquellos con puntuaciones altas. La mezcla de algoritmos en la población final depende de la mezcla en la población inicial.

Si un DPI va a ser iterado exactamente N veces, para alguna constante conocida N, hay otro dato interesante. El equilibrio de Nash es desertar siempre. Esto se prueba fácilmente por inducción: El jugador A puede desertar la última ronda, ya que B no tendrá oportunidad de castigarle. Por ello, ambos desertaran la última ronda. Entonces, A puede desertar la ronda anterior, ya que B desertará en la última sin importar lo que suceda. Y se continúa de este modo. Para que la cooperación siga siendo atractiva, el futuro debe ser indeterminado para ambos jugadores. Una solución consiste en hacer aleatorio el número total de rondas N.
Otro caso especial es "jugar eternamente" el dilema del prisionero. El juego se repite un número infinito de rondas, y la puntuación es la media (calculada apropiadamente).
El juego del dilema del prisionero es fundamental para entender ciertas teorías de cooperación y confianza humana. En la suposición de que las transacciones entre dos personas que requieran confianza pueden ser modelizadas por el dilema del prisionero, el comportamiento cooperativo en poblaciones puede ser modelado por una versión para varios jugadores e iterada del juego.




¿DONDE CREES QUE SE PODRÍA APLICAR?