Glosario — Papiro

Cada entrada es un concepto que el material del máster usa sin explicar. Despliega un término para ver su definición y, si tiene términos hijos, expándelo de nuevo: la jerarquía es recursiva.

Algoritmos

Expectiminimax — expectimax con MIN

Extensión de Minimax para juegos estocásticos (con azar, p. ej. dados). Añade un tercer tipo de nodo —CHANCE— cuyo valor es la esperanza (media ponderada por probabilidad) de sus hijos. Usado en Backgammon y, en general, en cualquier juego con tiradas no controlables por el jugador.

Véase también: complejidad algoritmica

Análisis

Complejidad algorítmica — big-O (3)
Marco para describir cómo crece el coste de un algoritmo respecto al tamaño del problema. En árboles de juego se escribe como O(b^d), donde b es el factor de ramificación y d la profundidad.
- Factor de ramificación — branching factor · b
  
  Número promedio de hijos por nodo en un árbol de búsqueda. En ajedrez ≈ 35; en Go ≈ 250. Determina la base exponencial del coste de exploración.
- Notación O grande — O(·) · asymptotic notation
  
  Notación que acota el crecimiento de una función ignorando constantes y términos de menor orden. La poda Alfa-Beta, en el caso ideal, reduce la búsqueda Minimax de O(b^d) a O(b^(d/2)).
- Búsqueda iterativa por profundidad — iterative deepening · IDDFS
  
  Técnica que lanza búsquedas de profundidad creciente (1, 2, 3, …) hasta agotar el tiempo disponible. Permite combinar la garantía de la búsqueda en anchura con el bajo consumo de memoria de la búsqueda en profundidad, y devolver siempre la mejor jugada calculada hasta el momento.

Fundamentos

Agente racional — agente IA

Entidad que percibe su entorno y elige, en cada estado, la acción que maximiza el valor esperado de su función de utilidad. En juegos, el agente racional anticipa las respuestas del oponente y selecciona la jugada que mejor garantiza su objetivo.

Véase también: funcion utilidad

Fuente: M1T2 — Fundamentos IA
Suma cero — zero-sum

Juego en el que la ganancia de un jugador es exactamente la pérdida del otro: la suma de utilidades es siempre 0. Es la condición que permite a Minimax modelar al oponente como un minimizador puro.

Véase también: agente racional
Función de utilidad — recompensa · payoff

Función numérica que asigna un valor a cada estado terminal (típicamente +1 victoria, −1 derrota, 0 empate). Es el criterio sobre el que se construye toda decisión racional del agente.

Véase también: suma cero

Historia

Hitos de IA en juegos — AI milestones (5)
Sistemas que marcaron un antes y un después al derrotar a campeones humanos en juegos considerados intratables. La progresión histórica —ajedrez → Go → póquer → videojuegos en tiempo real— refleja también la evolución de la propia IA: del Minimax bruto al aprendizaje por refuerzo profundo.
- Deep Blue (1)
  
  Supercomputadora de IBM (1997) que derrotó al campeón mundial Garry Kasparov en un encuentro a seis partidas. Aún basada en Minimax + Alfa-Beta + heurísticas escritas a mano + bases de aperturas y finales; sin aprendizaje. Demostró que la fuerza bruta dirigida podía superar a la intuición humana en ajedrez.
  
  Véase también: garry kasparov
  
  Garry Kasparov
  
  Gran maestro ruso, campeón mundial de ajedrez 1985–2000. Su derrota frente a Deep Blue en 1997 es considerada el primer hito mediático de la IA frente a un humano de élite en un juego de información perfecta.
- AlphaGo (1)
  
  Sistema de DeepMind (2016) que derrotó por 4–1 al campeón Lee Sedol en Go. Combina redes neuronales profundas (policy + value) con búsqueda MCTS (Monte-Carlo Tree Search), entrenadas inicialmente con partidas humanas y luego refinadas por self-play.
  
  Véase también: lee sedol ·redes neuronales profundas
  
  Lee Sedol
  
  Profesional surcoreano de Go, 9-dan, uno de los jugadores más fuertes de la historia. Perdió 1–4 frente a AlphaGo en marzo de 2016; su única victoria sigue siendo la última partida en la que un humano venció a una IA de tope en Go.
- AlphaZero
  
  Sucesor de AlphaGo (DeepMind, 2017) que aprende desde cero, solo por self-play, sin partidas humanas. Domina ajedrez, shogi y Go con la misma arquitectura, mostrando que el aprendizaje por refuerzo + MCTS generaliza más allá de un único juego.
  
  Véase también: alphago ·aprendizaje por refuerzo
- OpenAI Five
  
  Equipo de cinco agentes de OpenAI (2018–2019) que ganaron a campeones mundiales de Dota 2. Primer salto serio del aprendizaje por refuerzo profundo a un entorno multiagente, en tiempo real, de información imperfecta y con horizontes de decisión muy largos.
- AlphaStar
  
  Agente de DeepMind (2019) que alcanzó nivel Grandmaster en StarCraft II. Extendió las técnicas de AlphaZero a un RTS real con información parcial, micro-gestión y acciones de altísima frecuencia, usando una población de agentes (league training) para evitar estrategias degeneradas.
  
  Véase también: rts

IA Moderna

Aprendizaje automático — machine learning · ML (3)
Subcampo de la IA en el que un sistema mejora su rendimiento a partir de datos o experiencia, sin ser explícitamente programado para cada caso. En videojuegos sustituye las heurísticas escritas a mano por modelos aprendidos de partidas reales o simuladas.
- Redes neuronales profundas — deep neural networks · DNN · deep learning
  
  Modelos de aprendizaje automático compuestos por múltiples capas de neuronas artificiales que extraen representaciones jerárquicas de los datos. Son el sustrato de AlphaGo, AlphaZero o AlphaStar, donde sustituyen a la función de evaluación heurística clásica.
- Aprendizaje por refuerzo — reinforcement learning · RL
  
  Paradigma en el que un agente aprende por ensayo y error: toma acciones, observa el estado y una recompensa, y ajusta su política para maximizar la recompensa acumulada a largo plazo. Base de los grandes hitos de IA en juegos desde 2016.
- Generación procedural de contenido — procedural content generation · PCG
  
  Creación automática de mapas, misiones, diálogos o niveles mediante algoritmos —ya sea por reglas, ruido, gramáticas o modelos generativos—. La IA generativa moderna lleva el PCG desde mazmorras aleatorias hasta NPCs con comportamientos emergentes.

IA Reactiva

Algoritmos de navegación — pathfinding (2)
Familia de algoritmos que calculan rutas óptimas o casi óptimas sobre un grafo (típicamente una malla de navegación o NavMesh). En tiempo real sustituyen a Minimax para decidir “a dónde moverse” en cada frame.
- Algoritmo A* — A-star
  
  Búsqueda informada que combina el coste real desde el origen g(n) con una estimación heurística al objetivo h(n), expandiendo siempre el nodo con menor f(n) = g(n) + h(n). Si h es admisible (nunca sobreestima), A* garantiza la ruta óptima.
- Algoritmo de Dijkstra — Dijkstra
  
  Caso particular de A* con heurística h(n) = 0: explora por coste real creciente y encuentra los caminos más cortos desde un origen a todos los demás nodos de un grafo con pesos no negativos.
Máquina de estados finitos — FSM · finite state machine

Modelo computacional formado por un conjunto finito de estados y transiciones disparadas por eventos. En NPCs codifica comportamientos del tipo patrullar → detectar → perseguir → atacar → huir, con coste de cómputo despreciable.
Árbol de comportamiento — behavior tree · BT

Estructura jerárquica de nodos —selectores, secuencias, decoradores y hojas de acción— que decide qué hacer recorriendo el árbol cada tick. Más mantenible que una FSM gigante; estándar de facto en NPCs de videojuegos AAA.
IA basada en utilidad — utility-based AI

Para cada acción posible, el agente calcula un score de utilidad combinando varios factores (vida, distancia, munición…) y elige la de mayor valor. Permite comportamientos matizados sin la rigidez de una FSM ni la verbosidad de un BT muy grande.

Juegos clásicos

Go — Weiqi · Baduk

Juego de tablero milenario (19×19) en el que dos jugadores colocan piedras para rodear territorio. Su espacio de estados (≈10^170) supera el número de átomos del universo observable, lo que hizo intratable a Minimax y motivó el salto al aprendizaje por refuerzo con redes profundas.
Backgammon

Juego de mesa para dos jugadores que combina decisión estratégica y azar (tirada de dados). Es el ejemplo canónico de juego estocástico de información perfecta y requiere variantes como Expectiminimax o, históricamente, TD-Gammon (red neuronal entrenada por refuerzo, 1992).

Videojuegos

NPC — non-player character · personaje no jugable

Cualquier entidad del juego controlada por la IA y no por un humano: enemigos, aliados, mercaderes, fauna ambiental. Su comportamiento se modela típicamente con FSMs, árboles de comportamiento, IA de utilidad o, modernamente, con modelos aprendidos.
RTS — real-time strategy · estrategia en tiempo real

Género de videojuegos en el que todos los jugadores actúan simultáneamente sobre un mapa, gestionando economía, ejércitos y exploración. Ejemplos canónicos: StarCraft, Warcraft III, Age of Empires. Es el caso de prueba más exigente para la IA en tiempo real por la enorme cantidad de estados y agentes concurrentes.