Article reviews
Este articulo, consiguen las condiciones en las que un POP continua siendo viable (ejecutable) por medio de la regression de los goal a través de la estructura de un POP.
Primero convierten un plan secuencial (classical planning) en un POP (relajan innecesarias restricciones de orden en el sequential plan para producir un deordering [Baeckstroem, 1998])
Crean una estructura (structured policy) expresada como un esquema ordenado de decisión algebraica (OADD). Esta estructura abarca state evaluation y action selection.
Se centran en dos etapas del proceso de monitorización: state evaluation (evalúa si el execution puede continuar), action selection (selecciona la acción a ejecutar). Dejan de un lado una primera etapa state estimation y la etapa final que es cuando el plan falla (replanning).
Para que un sistema de monitorización se considere efectivo debe determinar el sub-conjunto de condiciones relevantes que mantiene la validez del plan y enfocarse en detectar discrepancias con respecto a esas condiciones.
Execution Monitoring of a POP (EM POP)
Utilizan el POP por su flexibilidad y robustez.
Estado del arte: SIPE y Prodigy, dos sistemas que monitorizan la validity de un POP entero que falta por ejecutarse. Shakey the robot
El principal objetivo del EM POP es determinar si el POP puede continuar ejecutando se (POP viability) con respecto a el current state, utilizan el método de regression para identificar las condiciones relevantes que mantienen el POP viability y se aseguran que esas condiciones se mantienen en el current state. Si no se detecta ninguna condición, el EM System decide re-planificar (Sequential Method).
Condition-Action list
Desarrollan un algoritmo que determina que acciones se deben ejecutar cuando se cumple una condición(es) en el estado actual (condition to actions).
NOTA: Ellos solo quieren continuar ejecutando una sola acción y no un conjunto de ellas.
POP Policy
Desarrollan una estructura (OADD) fácil y sencilla para mapear states to one action (Boutilier et al., 1995). Dado un estado, la táctica consiste en retornar la acción que nos permite estar más cerca del objetivo (POP Method) - ver figura 1.
Evaluation, POP method vs standard EM Method (sequential Method)
Generaron los planes con FF, y luego su POP correspondiente, aplicando deordering, que es generalmente más práctico que calcular un POP desde cero.
Con respecto a la eficiencia, ellos concluyen que el uso de la structured policy puede tener una ganancia sustancial cuando se trata de reaccionar rápidamente (Un agente debe evaluar el estado y decidir sobre una acción a ejecutar de forma rápida).
Expository domains: Se realiza con los IPC domains de las competiciones, los cuales fueron diseñados para sequential planning algorihms (Depots, Driverlog, TPP, Zenotravel y Rovers).
Genera resultados malos cuando se imponen ciertas restricciones en los dominios, como paralelismo, critical orderings, extra support (multiples acciones que consiguen una precondición), etc.
Parallelism: Como no se tiene un ordering constraints en las acciones en paralelo, un dominio puede tener un número largo de soluciones (linearizations); con k parallel actions, hay k! linearizations. Para cada linearization el POP method captura cada una de las condiciones, generando una cantidad exponencial de estados, que empeoran el state covarage a medida que se va incrementando k.
Futuros trabajos
- Usar regression en un deterministic version of a probabilistic planning problem.
- Replanificar utilizando la información que ya se ha conseguid en el proceso de policy (abre una gran variedad de replanning estrategias).
- Conseguir una heuristica mejor informada para calcular un plan secuencial que produzca un POP con las propiedades que permitan un buen preformance en la aproximacion de EM que ellos plantean.
- Usar el POP method con planificadores probabilisticos tales como FF-Replan.