Київський
національний університет імені Тараса Шевченка
М.І. ГАЛАГАН
Планування
рішень в умовах часових обмежень
Методичний посібник з курсу “Основи проектування баз знань“
Київ -2002
Методичний посібник з курсу “Основи проектування
баз знань”/Упорядник Галаган М.І.;
Відп. ред. Анісімов А.В.-К.,2002.
Виконуєтся аналіз основних методів планування
рішень, що застосовуються в штучному
інтелекті з акцентом на наявність або відсутність
слідуючих характеристик: засоби
представлення часу, протяжності дій, обмежень
взагалі і часових обмежень зокрема;
засоби специфікації ресурсних потреб і витрат;
оптимізація ресурсних потреб і витрат;
моделювання невизначеності; оптимізація цільової
функції; умовні дії, що включають
підтримку виконання певної умови. На основі
аналізу процесів планування рішень
пропонуються архітектури для інтеграції цих
прроцесів в інтелектуальних системах.
Приводиться класифікація найбільш відомих
плануючих систем на рівні їх методологій.
Для студентів університетів та технічних вузів із
спеціальностей “Прикладна математика”,
“Інформатика ”,“ Інформаційні системи в
менеджменті”.
Відповідальний редактор д-р фіз.-мат. наук, проф.
Анісімов А. В.
Рецензент к. фіз.-мат. наук Заславський Ю.А.
ЗМІСТ
1. ВСТУП……………………………………………………………………………………………………4
2. С-ПЛАНУВАННЯ……………………………………………………………………………………..
.8
2.1. Прямий пошук в ситуативному
просторі…………………………………………..8
2.2. Цілеспрямоване планування………………………………………………………...9
2.3. Система GRAPHPLAN……………………………………………………………..11
2.4. Планування, як вирішення проблеми задовільнюємості (ПЗ-планування)……..14
3. Н-ПЛАНУВАННЯ………………………………………………………………………………………15
4. D-ПЛАНУВАННЯ………………………………………………………………………………………18
4.1. Динамічне програмування………………………………………………………….18
4.2. Марківські вирішуючі процеси (МВП)……………………………………………22
4.3. Частково-спостережуючі МВП (ЧС
– МВП)…………………………………..…24
5. Т-ПЛАНУВАННЯ………………………………………………………………………………………26
5.1. Представлення задач планування як задач задовільнення обмежень (ЗЗО)…….26
5.1.1 Вибір стартового часу в ЗЗО………………………………………………………27
5.1.2 Впорядкування задач……………………………………………………………….28
5.2 Розв’язання ЗЗО………………………………………………………………………29
5.2.1 Конструктивний пошук…………………………………………………………….29
5.2.2 Локальний пошук…………………………………………………………………. 31
5.3 Інтервальний підхід до Т-планування
(ІТ-планування)……………………………32
6. ІНТЕГРАЦІЯ ПРОЦЕСІВ ПЛАНУВАННЯ В ІНТЕЛЕКТУАЛЬНИХ
СИСТЕМАХ……………… 39
6.1 Планування ресурсних і метричних величин……………………………………….40
6.2 Інтеграція С&Т-планування………………………………………………………….44
6.3 Класифікація систем планування рішень……………………………………………44
7. ВИСНОВКИ……………………………………………………………………………………………….46
СПИСОК
ЛІТЕРАТУРИ……………………………………………………………………………………..47
Фундаментально, планування є задача синтезу програми дій для досягнення множини цілей. Вона часто включає деяку множину обмежень і оптимізацію цільової функції. Як всяка програма план рішень може включати умовні дії, паралельні дії та цикли. Більшисть робіт по плануванню рішень в області штучного інтелекту (ШІ) попадають до одної з слідуючих парадигм:
· класичне планування (С-планування);
· ієрархічне планування в мережі задач (Н-планування);
· планування на основі теорії рішень (D-планування);
· планування в умовах часових обмежень (Т-планування).
В роботі виконується аналіз основних методів планування рішень, що застосовуються в ШІ з акцентом на наявність або відсутність слідуючих характеристик:
· засоби представлення часу, протяжності дій, обмежень взагалі і часових обмежень зокрема;
· засоби спеціфікацій ресурсних потреб і витрат;
· моделювання невизначеності;
· оптимізація цільової функції;
· умовні дії, що включають підтримку виконання певної умови.
Для ілюстрації процесів планування рішень ми будемо використовувати відомий в літературі з ШІ приклад задачі планування рішень гіпотетичного космічного апарату (КА), що тримає курс на віддалену планету. В процесі польоту існують часові інтервали, в яких КА може виконувати функції коммунікації і наукових спостережень (НС). Із великої кількості НС, які може виконувати КА, кожне має деяку оцінку або приорітет. Для кожного НС КА повинен бути спрямований на ціль і повинні бути виконані потрібні вимірювання або фотографування. Спрямування на ціль є досить тривала операція, яка може тривати до 30 хвилин, в залежності від кута повороту. В результаті вибір експериментів і порядок їх виконання має значний вплив на тривалість поворотів і тому на можливу кількість виконаних експериментів. Все це ускладнюється такими факторами:
· Оскільки існує перетин серед можливостей інструментів, а різні інструменти націлюють в різних напрямках, то вибір інструменту впливає на напрямок і тривалість повороту.
· Інструменти перед використанням повинні бути одкалібровані, що потребує повороту на одну з можливих калібровочних цілей. Перекалібровка не потрібна, якщо послідовність спостережень виконується одним і тим же інструментом.
· На спрямування КА використовується обмежена кількість палива, а НС потребують витрат енергії. Енергія обмежена, але може бути поповнена в кількості, яка залежить від спрямуваності сонячних батарей.
Враховуючи всі ці фактори, необхідно максимізувати кількість НС (наукову віддачу від космічної подорожі). Звичайно, ця задача не зовсім гіпотетична, вона існує для справжніх космічних зондів, міжпланетних КА, космічних обсерваторій і навіть для автоматизованих земних обсерваторій. Вона також подібна проблемам планування ремонтних операцій, в яких присутні каскадні множини виборів інструментів і персоналу, що впливають на тривалість і можливе упорядкування різних ремонтних операцій.
Складність цих проблем пов‘язана з тим, що вони є оптимізаційними проблемами, які вимогають безперервного часу, ресурсів, розмірності і суміші операцій вибору дій та їх упорядкування.
На жаль, існує небагато планувальників типу C, D, H, які могли б навіть представити обмеження в наведених вище проблемах. Набагато менше планувальників цих типів можуть виконувати бажаний вивід та оптимізацію.В той час як Т-планувальники краще представляють часові обмеження і ресурси, більшисть з них не має справи з виборами дій. Таким чином, для вирішення реальних проблем потрібні системи, які містять можливості C, D, H і Т-планувальників.
На основі аналізу процесів планування
рішень в роботі пропонуються
архітектури для інтеграції цих
процесів в інтелектуальних системах. Виділяються також узагальнені
характеристики для класифікації та співставлення різних плануючих систем –
методології. Приводиться класифікація найбільш відомих плануючих систем на
рівні їх методологій.
В парадигмі С-планування задача
виникає в середовищі , де V – множина об’єктів, R – множина відношень на V, A – множина дій. Задача
визначається парою
, де
,
- відповідно, моделі вихідної і цільової ситуацій. Ситуації звичайно визначаються за
допомогою пар
і представляються
множинами стверджуючих і заперечних літералів обчислення предикатів.
Дії середовища виконують перетворення на
множині ситуацій S такі, що , де
.
Розв‘язанням даної задачі буде така
ситуаційна траєкторія , що
. Для представлення дій звичайно використовуються параметризовані структури відомої плануючої
системи STRIPS [1], що називаються S-операторами.
S-оператор включає множину передумов П, які повинні бути істинними перед виконанням дії, і множину змін або ефектів Е цієї дії на середовище. Передумови і ефекти звичайно задаються стверджуючими або заперечними предикатами, що зв’язані по типу кон’юнкції.
Розглянемо наш приклад з КА із вступу.
Використуючи S-оператори ми могли б моделювати спрощений варіант дії по цільовому повороту КА:
ПОВЕРНУТИ (?ціль):
П:
спрямування (?напрямок), ?напрямок ?ціль,
Е: спрямування(?напрямок), спрямування(?ціль)
Цей оператор має один параметр – цільову орієнтацію для повороту. Передумови потребують, щоб перед поворотом КА був спрямований в деякому напрямку, іншому, ніж цільовий. Якщо це виконується, то після операції повороту КА буде спрямований не в вихідному, а в цільовому напрямку.
Як видно з
опису, ефекти оператору специфікують лише ті відношення, які змінюються в
результаті виконання оператору. Так само ми можемо моделювати операції по
калібровці і зйомці цілі:
КАЛІБРУВАТИ: (?інструмент):
П: стан(?інструмент, вкл), ціль-калібр(?ціль), спрямування(?ціль)
Е: стан(?інструмент, вкл),
стан(?інструмент, калібр)
ЗНІМАТИ: (?ціль, ?інструмент):
П: стан(?інструмент, калібр), спрямування(?ціль)
Е: образ(?ціль)
В ряді сучасних плануючих систем використовується розширена версія мови STRIPS (відома як ADL), де дозволяється диз‘юнкція в передумовах і ефектах, умовні ефекти та обмежена універсальна квантифікація. Однак, все ще існує ряд серйозних обмежень з мовами STRIPS і ADL, таких як:
В останній час з‘явились нові розширення ADL-представлення, щоб подолати перечислені вище обмеження [2]. Всі ці розширення потребують розвитку методів С-планування. Розглянемо найбільш значимі з них.
ППСП визначає напрямок
планування від вихідної до цільової ситуацій. Планувальник починає з поточної
ситуації , обирає оператор, в якого виконуються всі умови в даній
ситуації, і генерує нову ситуацію, додаючи до неї позитивні ефекти оператору і
викреслюючи його негативні ефекти. Пошук продовжується доки не знаходиться
ситуація, в якій досягаються всі цілі G. На виході формується план
P,
який перетворює
в G.
Малюнок 1 представляє опис цього алгоритму.
Оскільки число дій , що застосовуються,
в кожній ситуації є дуже великим, алгоритм ППСП працює в пошуковому
просторі експоненсійних розмірів (
, де d – максимальна довжина рішення).
В нашому прикладі з КА існує багато інструментів, вимикачів і клапанів, які можуть бути активовані в кожний момент часу. В додаток існує нескінченна кількість різних напрямків повороту КА.
Для того, щоб ППСП був ефективним необхідні такі евристики, які б забезпечували дослідження лише невеликої частини пошукового простору. По цій причині більшість плануючих систем використовували багато інших пошукових стратегій.
Не так давно більшість робіт по С-плануванню було сфокусовано на генерації планів в зворотньому напрямку від цілей. Основна ідея заключається у виборі дії, яка може досягти одну із цілей і додати цю дію в поточний план. Ціль замінюється підцілями, що відповідають передумовам дії. Весь процес повторюється до тих пір, доки всі підцілі не є підмножиною вихідних умов.
Подібно ППСП цей підхід є відносно простим до тих пір, доки поточний план підтримується повністю упорядкованим. Однак, коли дії залишаються лише частково-упорядкованими, потрібен деякий облік, щоб запобігти взаємодії між неупорядкованими діями.
Алгоритм зворотнього пошуку (ЗВП) представлений на маллюнку 2.
Алгоритм стартує від множини цілей G з
множиною обмежень О та пустим планом Р,
а фінішує коли всі підцілі є підмножиною вихідної ситуації .Пункти, які починаються зі слова ВИБРАТИ,
є точками “відступу назад” . Після вибору дії виникає нова множина підцілей G
і нова множина обмежень
.
Для реалізації обліку можливих взаємодій між неупорядкованими діями були розроблені різні стратегії [3-6].
Найбільш використовуємим є підхід, заснований на понятті причинного зв‘язку [6]. Суть цього підходу полягає в тому, що в процесі генерації плану підтримується множина причинних зв‘язків, що складається з літералів, які повинні зберігатись між відповідними діями в плані. Таким чином, при додаванні в план дії, щоб досягти окремої підцілі, додається також причинний зв‘язок для того, щоб зафіксувати той факт, що підціль зберігається між даною дією та дією, яку згенерували.
Нехай в нашому прикладі з КА наша ціль – це образ окремого астероїду, ОБРАЗ( Астероїд ), а план вже містить дію ЗНІМАТИ( Астероїд, Камера ). У зв‘язку з цим ми маємо підціль СПРЯМУВАННЯ( Астероїд ). Для досягнення цієї підцілі планувальник додає дію ПОВЕРНУТИ( Астероїд ). Крім того, планувальник повинен додати причинний зв‘язок щоб зберегти літерал СПРЯМУВАННЯ( Астероїд ) між дією ПОВЕРНУТИ( Астероїд ) і дією ЗНІМАТИ( Астероїд, Камера ).
Причинні зв‘язки повинні періодично перевірятись для виявлення інших дій, які можуть загрожувати їм. В цьому випадку додаються впорядковуючі обмеження на дії для ліквідації цих загроз. Для КА друга дія ПОВЕРНУТИ( в інший напрямок ) могла б загрожувати причинному зв‘язку для першого напрямку. Тому ця дія повинна виконуватись або перед першою дією ПОВЕРНУТИ, або після дії ЗНІМАТИ.
Планувальники, які використовують цей
підхід, називаються частково-упорядкуючими (ЧСУ) планувальниками [ 7-9 ].
Незважаючи на всі
зусилля, спрямовані на цілеспрямоване С-планування, ці планувальники не
мали великого практичного успіху.
Хоча фактор гілкування
при пошуці в зворотньому напрямку значно менший, ніж в прямому, він все ще
достатньо великий. Тому докладаються значні зусилля для реалізації обліку
можливих взаємодій між невпорядкованими діями. У зв‘язку з цим, успіх
цілеспрямованого планування, як і ППСП-планування, сильно залежить від
якості евристичного управління. Цікаво, що таке управління важче виразити в
парадигмі цілеспрямованого пошуку, а без якісних евристик такі планувальники
звичайно обмежені у вирішенні задач, що потребують не більше дюжини дій.
ЧСУ-планування було розширене зовні парадигми С-планування.
Найбільш відомий і широко
розповсюджений ЧСУ-планувальник – UСПОР [10] допускає оператори з умовними ефектами та
інші виразові можливості мови ADL. Були розроблені ЧСУ-планувальники для роботи з
часовими обмеженнями [11,12], метричними величинами [11] і невизначеністю [13-20].
На жаль, ці планувальники звичайно не можуть вирішувати задачі, що включають більше 20 дій.
В 1995 році була
розроблена плануюча система GRAPHPLAN [21], яка використовує оригінальний підхід для
пошуку планів. Основна ідея – виконати деякий аналіз досяжності щоб вилучити з
багатьох комбінацій і послідовностей дій ті, які є несумісними.
Стартуючи з
вихідних умов, GRAPHPLAN визначає множину літералів, які можливі
після першого кроку, двох кроків, трьох кроків і т.д. Для першого кроку ця
множина буде об‘єднанням літералів, досягаємих в ситуаціях за один крок від
вихідних умов.
Для нашого
прикладу КА після першого кроку міг би відзняти образ в стартовому
напрямку, або спрямувати в новому напрямку. Таким чином, кожний з цих літералів
належить множині, що досягається після першого кроку.
Після двох кроків
в додаток до всіх літералів, що можливі після першого кроку, КА
міг би відзняти образ в деякому новому напрямку, або міг би встановити зв‘язок
з Землею ( якщо КА на першому кроці був спрямований на Землю ).
Після трьох
кроків дані могли бути передані на Землю. Однак, не всі ці літерали є
сумісними; навіть коли дозволені паралельні дії, не всі досяжні літерали могли
бути досягнуті в один і той же час.
В прикладі з КА
ми не можемо знімати образ у вихідному напрямку і одночасно робити поворот,
оскільки дія ЗНІМАТИ потребує щоб КА залишався спрямованим у вихідному
напрямку. Подібно КА не може одночасно повертати в сторону астероїду та в сторону
Землі. GRAPHPLAN використовує поняття несумісності шляхом виводу
бінарних взаємо-виключних (мутексних) відношень між несумісними діями та між
несумісними літералами.
Правила для
взаємовиключення є досить простими:
· Дві дії є мутексні на даному кроці якщо:
-
вони мають
протилежні ефекти;
-
ефект однієї
дії є протилежним передумові іншої дії;
-
вони мають
мутексні передумови на цьому кроці.
· Два літерали є мутексні на даному кроці якщо:
-
вони є
протилежними літералами;
-
всі дії, які
досягають їх є мутексними на попередньому кроці.
Використовуючи ці правила, GRAPHPLAN може вивести наступне:
Використовуючи цю просту мутексну інформацію, ціль “зняти образ астероїду та передати його на Землю” не може бути досягнута після п‘яти кроків. Вона буде досягнута лише після
того, як буде згенеровано шостий рівень літералів.
Ключові особливості перших двох рівнів плануючого графу зображені на малюнку 3.
Пунктирні
вертикальні дуги між парами літералів і між парами дій указують мутекси
відношення. Багато додаткових дій, літералів і взаємовиключаючих відношень було
опущено на кожному рівні для ясності.
Було показано, що GRAPHPLAN значно перевершує обговорені вище ЧСУ-планувальники на широкому колі задач. Найкращі планувальники, що використовують цю технологію, вирішують задачі, які включають біля 50 дій. Подібно ЧСУ-планувальникам технологія системи GRAPHPLAN була розширена, щоб дозволяти оператори з кванторами і умовними евристиками і інші особливості мови ADL [22-24]. Були також зроблені спроби розширення системи GRAPHPLAN, щоб дозволити планування в умовах невизначеності [25-27], але ці зусилля до сих пір не довели свою практичність. В більш пізніх роботах по системі GRAPHPLAN дозволяється обмеженe використання часу [28] і метричних величин [29].
Основна ідея цього
підходу полягає в допущенні деякої довжини плану і трансляціі проблеми
планування в множину пропозиційних
формул (ПФ), а потім у вирішенні проблеми задовільнюємості (ПЗ) даної ПФ на результуючій
множині. Якщо ПФ є незадовільнюєма, довжина плану збільшується і процес
повторюється.
До цього часу
було розроблено декілька різних кодуючих схем [30-32], але основна ідея
цих схем полягає в визначенні пропозійної змінної для:
· кожної можливої дії на кожному кроці;
· кожної можливої пропозиції (літералу) на кожному кроці.
Кожна дійова
змінна вказує на присутність або відсутність дії на даному кроці в плані. Кожна
пропозиційна змінна вказує істинна чи фальшива ця пропозіція на даному кроці. ПЗ-диз’юнкти (диз’юнкції літералів) генеруються для слідуючих
обмежень:
ВИХІДНІ УМОВИ: пропозиції в вихідних умовах є істинні на кроці 0.
ЦІЛІ: цілі
є істинні на останньому кроці.
ДІЇ: кожна
дія, що виконується на кроці к означає, що всі ії передумови є
істинні на кроці к, і всі ії ефекти є істинні на кроці к+1.
ПРИЧИННІСТЬ: якщо
пропозиція є фальш (істина) на кроці к і істина (фальш) на кроці к+1,
то принаймні одна із дій, яка причиняє істинність (фальшивість) пропозіції,
повинна виконуватися на кроці к.
ВИКЛЮЧЕННЯ: дві несумісні дії не можуть
виконуватися на одному і тому ж кроці.
Після трансляції застосовуються швидкі алгоритми для спрощення формул. Для пошуку рішень можуть використовуватись систематичні і стохастичні методи.
Найкращі ПЗ-планувальники
і GRAPHPLAN-планувальники мають дуже подібні результати. Вони
значно перевищують ЧСУ-планувальники на більшості проблем. Подібно ЧСУ-
і GRAPHPLAN-планувальникам ПЗ-планувальники можуть
бути розширені, щоб дозволяти оператори з квантифікаторами і умовними ефектами.
Фактично це розширення впливає лише на процес трансляції, а не на процес
вирішення. Метричні величини, подібні паливу, представляють більш серьозні
труднощі. В [33] для роботи з метричними величинами
використовуються методи лінійного програмування в координації з методами ПЗ-планування.
Найбільш серйозні
недоліки ПЗ-планування є такі:
РОЗМІР КОДУВАННЯ. Число
змінних і диз’юнктів може бути дуже великим, тому що всі можливі дії і пропозиції представляються
точно, для кожної часової точки. В результаті ПЗ-планувальники
потребують великих об’ємів пам’яті (гегобайти) навіть
для проблем середніх розмірів.
БЕЗПЕРЕРВНИЙ ЧАС. Описане вище кодування обмежується дискретним часом і тому не може мати справу з діями, що мають різні протяжності або включають часові обмеження. Як альтернатива, може використовуватися причинне кодування [32], але воно ще не показало своєї практичності і ефективності.
Переважно всі
плануючі системи, які було розроблено
для практичних застосувань, використовують методи планування в ієрархічних
мережах задач [34-35].
Основна різниця між Н-плануванням і С-плануванням полягає в тому, що Н-планування зводить задачі високого рівня до примітивних задач, в той час, як С-планування виконує складання (синтез) дій, щоб досягти цілей. Наприклад, ціль ОБРАЗ(Астероїд) могла б бути специфікована як високорівнева задача ЗНІМАТИ(Астероїд). Н-планування виконується шляхом рекурсивного розширення високорівневих задач в мережі задач більш низького рівня, які вирішують високорівневу задачу. Дозволені розширення описуються трансформаційними правилами, що називаються методами. В основному метод – це відображення задачі в частково упорядковану мережу задач, разом з множиною обмежень. Можливий метод для розширення задач ОТРИМАТИОБРАЗ в прикладі з КА показаний на малюнку 4
Згідно з цим
методом, задача ОТРИМАТИОБРАЗ(?ціль, ?інструмент) може бути замінена за
допомогою частково-упорядкованої мережі з трьох задач: ПОВЕРНУТИ(?ціль), КАЛІБРУВАТИ(?інструмент),
ЗНІМАТИ(?ціль,
?інструмент) і додатковим обмеженням, щоб пропозиція СПРЯМУВАВ(?ціль)
підтримувалась між повернути і знімати образ. Після кожного розширення Н-планувальник виконує
пошук конфліктів серед задач мережі. Вирішення конфліктів виконується за
допомогою програм, що називаються критиками, які вводять додаткові
обмеження упорядкування і комбінують або вилучають водночас неможливі дії.
Планування завершується, коли результуюча мережа містить лише примітивні задачі
і множина обмежень сумісна.
На малюнку 5
представлений псевдокод алгоритму Н-планування.
ВИБРАТИ вказує на точку “відступу назад”.
Час і метричні
величини не представляють труднощів для Н-планувальників. Ці обмеження
можуть бути специфіковані всередині програм-методів і можуть перевірятись на
сумісність разом з обмеженнями упорядкування і захисту. Існує декілька Н-планувальників,
які забезпечують роботу з часовими і метричними обмеженнями [34]. Відносно легко інтегрувати Н-планувальник з системою складання
розкладів (Т-планувальником) – коли мережа задач зведена до примітивних
задач, Т-планувальник може використовуватись для того, щоб
оптимізувати порядок результуючої мережі.
Найбільшою силою Н-планування
є те, що пошук може бути щільно контрольованим за рахунок ретельної розробки
методів.
В С-плануванні
передумови і ефекти дії специфікують при яких умовах дія може використовуватись
і чого вона може досягти. В Н-плануванні методи точно
специфікують які комбінації дій повинні використовуватись для окремих цілей.
Інакше кажучи, Н-планувальнику
говорять (підказують) як використовувати дії, в той час як С-планувальник
повинен це визначати із опису дії.
Існує два
принципові недоліки Н-планування:
На протязі багаьох років дослідники в області теорії прийняття рішень і дослідження операцій моделювали процеси прийняття послідовностей рішень, використовуючи математичні моделі динамічного програмування, Марківських вирішуючих процесів і частково-спостережуємих Марківських вирішуючих процесів.
Оскільки останнім часом зросла зацікавленість у використанні цих моделей для планування рішень в інтелектуальних системах, розглянемо їх більш детально.
ДП – це метод дослідження операцій, в яких
процес прийняття рішень може бути розбитий на окремі кроки. Такі операції
називаються багатокроковими.
Початок розвитку ДП
відноситься до 50-х років минулого століття і пов‘язаний з ім‘ям американського
математика Белмана.
Розглянемо
загальну постановку задачі ДП.
Припустимо, що
управління деякою системою (об‘єкт управління) можна розбити на n кроків, які переводять систему з вихідної
ситуації S0 в цільову ситуацію Sg. Рішення приймаються послідовно на кожному кроці, а управління, що
переводить систему із S0 в Sg, представляє собою сукупність n покрокових
управлінь (рішень).
Позначимо через Pk рішення на k-тому кроці (k = 1,2,3,.....,n).
Змінні Pk задовольняють
деяким обмеженням і в даному сенсі називаються допустимими.
Нехай P(
P1, P2,……..,
Pn ) – план рішень,
що переводить систему із ситуації S0 в ситуацію Sg.
Ситуація Sk – ситуація після k-того
рішення.
Отримуємо
послідовність ситуацій: .
Цільова функція
(показник ефективності) багатокрокової операції, що розглядається, залежить від
вихідної ситуації і плану рішень P:
Z= F(S0, P) (4.1)
Зробимо ще декілька припущень:
1.
Ситуація Sk після k-того кроку залежить тільки від
попередньої ситуації і рішення Pk на k-тому кроці, і не залежить від попередніх
ситуацій і рішень:
Sk= jk( Sk-1, Pk ), k =
1,2,….,n (4.2)
Рівняння (4.2) називаються ситуативними
рівняннями.
2.
Цільова
функція (4.1) є аддитивною від показника ефективності на кож-
ному кроці:
Zk=fk(Sk-1,Pk),k
= 1,2,……n (4.3)
тоді (4.4)
З урахуванням зроблених припущень задача динамічного програмування (покрокової оптимізації) може бути сформульована наступним чином: необхідно визначити такий допустимий план рішень P, що переводить систему із ситуації S0 в ситуацію Sg, при якому цільова функція приймає найбільше (або найменше) значення.
Особливістю
моделі ДП є багатокроковість процесу оптимізації плану рішень. При
цьому необхідно дотримуватись наступного принципу
оптимальності Белмана:
Якою б не була ситуація системи після довільного числа кроків, на найближчому кроці потрібно вибрати рішення таким чином, щоб воно в сукупності з оптимальними рішеннями на всіх послідуючих кроках, що залишились, приводило до оптимального виграшу на всіх кроках, включаючи даний.
Згідно з принципом оптимальності, рішення
на n-ному кроці потрібно обирати таким чином, щоб для будь-яких ситуацій
Sn-1 отримати
на цьому кроці максимум цільової функції.
Позначимо через максимум цільової функції на n–ному кроці при умові, що
до початку останнього кроку система була в довільній ситуації Sn-1, а на останньому кроці рішення було оптимальним.
називається умовним максимумом цільової функції на n–ному кроці. Очевидно, що:
(4.5)
Максимізація ведеться по
всім допустимим рішенням Pn. Рішення Pn, при якому досягається
також залежить від Sn-1, позначається через Pn(Sn-1) і називається умовно-оптимальним рішенням на n–ному
кроці.
Нехай - умовний максимум цільової функції
при оптимальному управлінні на (n – k +1) кроках, починаючи з k-того кроку і до кінця при умові, що до початку k-того кроку система
знаходиться в ситуації Sк-1. Фактично цю
функцію можна задати наступним чином:
, тоді
.
Цільова функція на (n-k) останніх кроках при
довільному рішенні Pk на k-тому кроці і оптимальному
управлінні на послідуючих (n-k) кроках дорівнює .
Згідно принципу оптимальності, рішення Pk обирається з умови максимуму цієї суми
, k=n-1,n-2,..2,1. (4.6)
Рішення Pk на k-тому
кроці, при якому досягається максимум в (4.6), позначається і називається умовно-оптимальним рішенням на k-тому
кроці ( в праву частину рівняння (4.6) потрібно замість Sk
підставити вираз
із ситуаційних рівнянь.
Рівняння (4.6) називають рівняннями Белмана. Вони дозволяють знайти попереднє значення функції, знаючи послідуючі.
Якщо з рівняння (4.5) знайти , то при k = n-1 з рівняння (4.6)
можна визначити вирази для
і відповідні їм
, розв‘язавши задачу максимізації для всіх можливих значень Sn-2. Далі, знаючи
і використовуючи рівняння (4.6) та (4.2), знаходимо ситуаційні
рівняння.
Процес розв‘язання рівнянь (4.5) та (4.6) називається умовною оптимізацією.
В результаті умовної оптимізації отримаємо дві послідовності:
,
,......,
,
та
,
,......,
,
.
Використовуючи ці послідовності, можна
знайти розв‘язок задачі ДП при даних n та S0 .
По визначенню, умовний
максимум цільової функції за n кроків, при умові, що до початку 1-го кроку система була в ситуації
S0 , Zmax = .
При фіксованому S0 отримаємо . Далі з рівняння (4.2) знаходимо
і підставляємо цей
вираз у послідовність умовно-послідовних рішень:
і так далі по
ланцюгу:
Отримаємо оптимальний розв‘язок задачі ДП :
стрілка ® означає використання ситуаційних рівнянь, а стрілка Þ - послідовність умовно-оптимальних рішень.
МВП відрізняються від процесів детерміністичного С-планування по-перше тим, що включають ймовірнісні дії, а по-друге тим, що припускають повну спостерігаємість ефектів дій.
Таким чином, при визначенні МВП, задаються:
· Ситуативний простір S;
· Дії A(s) Í A, що застосовуються в кожній sÎS;
· Перехідні ймовірності Pa(S’ êS) для sÎS та aÎA(s);
· Вартості застосування дій C(a,s)>0
· Множина цільових ситуацій G Í S.
Ситуації, які виникають в результаті застосування дії
, не є передбачуваними, але є спостережними і забезпечують
зворотній зв‘язок для вибору наступної дії
. Розглянемо наступний приклад. Припустимо, що знімаюча
камера в КА має липку заслонку, яка іноді не відкривається. Таким чином,
коли КА
робить спробу знімати образ в окремому напрямку, цей образ може бути отриманий
або ні. Частини МВП для цього сценарію показані на малюнку 6.
Розв‘язання МВП є не послідовність
дій, а функція , яка відображує ситуації s в дії aÎA(s). Така функція називається політикою. Політика
встановлює
ймовірність кожній ситуативній траєкторії s0, s1, s2,…., яка
стартує в ситуації s0 і задається
добутком ймовірностей переходу
з
.
Припускається, що дії в цільовій ситуації не мають вартості і не виконують змін. ( тобто, C(a,s) = 0 і Pa(s ês) = 1, якщо sÎG ).
Очікувана вартість, асоційована з політикою
, яка починається в стані s є середньою ймовірністю
таких траєкторій, помножених на їх вартість
.
Оптимальним рішенням буде політика , яка мінімізує очікувану вартість для всіх станів sÎS.
МВП традіційно вирішуються потужними методами, які називаються ітерація оцінки вартості і ітерація політики [35]. Ці методи знаходять оптимальні політики для МВП, що представлені в умовних планах. Умовні плани специфікують, яку дію треба вибирати в кожній можливій ситуації МВП.
Принциповою перешкодою щодо використання МВП
для планування є великий розмір пошукового простору. Якщо КА має 50 перемикачів,
кожен з яких може бути включеним або виключеним, то існує можливих ситуацій
тільки для самих перемикачів. Тому багато робіт по застосуванню МВП
для планування в інтелектуальних системах зконцентровано на обмеженні розмірів
ситуаційного простору.
Моделі МВП успішно застосовувались для планування в деяких ретельно описаних галузях. Зокрема вони довели свою корисність у навігаційних задачах для роботів, де є невизначеність у локалізації і орієнтації робота після переміщення [36].
Крім великих розмірів ситуаційного простору існують деякі інші перешкоди щодо використання МВП:
Крім того, оптимальні політики часто важко зрозуміти. Для людини краще мати більш компактний план, який покриває лише найбільш критичні або найбільш ймовірні випадки.
ЧС-МВП узагальнюють МВП, дозволяючи ситуаціям
частково-спостережуємими [37].
Інформація про ситуацію надходить
від спостережень o, ймовірності яких Pa(о|s) залежать від виконаної дії a і результуючої
ситуації s.
Додатково, апріорний ймовірнісний розподіл над ситуаціями кодує апріорну довіру про вихідну ситуацію, яка більше не припускається спостережуваною або відомою.
Таким чином,
ЧС-МВП характеризується
елементами МВП, інформацією
про невизначеність вихідної ситуації та сенсорною
моделлю у формі:
·
вихідна довірча
ситуація b0;
·
множина О
спостережень о з ймовырностями Pa(o|s).
Ймовірності Pa(o|s) виражають ймовірність виконання спостереження о
в ситуації s після виконання дії а. Ці ймовірності повинні
визначатись для кожної ситуації s і дії aÎA(s), а в сумі повинні дорівнювати одиниці,
тобто:
.
Оскільки зворотній зв‘язок від середовища в ЧС-МВП є частковий, ситуація, в якій знаходиться система, звичайно невідома, а тому політики, які відображують ситуації, в дії не застосовуються.
Вирішення ЧС-МВП приймає форму функції, яка відображає довірчі ситуації в дії, причому довірчі ситуації є ймовірністними розподілами над реальними ситуаціями середовища.
Ефекти дій на довірчих ситуаціях є повністю передбачуваними. Довірча ситуація ba, яка є результатом виконання дії а в довірчій ситуації b, може бути отримана наступним чином:
(4.7)
При відсутності спостережень, ЧС-МВП зводиться до детерміністичної проблеми в довірчому просторі, де задача полягає у знаходженні послідовності дій, яка відображує вихідну довірчу ситуацію b0 в заключну довірчу ситуацію bf з діями a, які відображують одну довіру b в довіру-спадкоємця ba згідно (4.7).
Ми беремо заключні довірчі ситуації як довіри, що роблять ціль визначеною, тобто довіри, для яких bf (s) = 0 для всіх sÏG, або простіше bf (G) = 1.
Можуть використовуватись і інші множини заключних ситуацій, наприклад, довіри bf, які роблять ціль дуже подібною ( bf (G) ³ 0.9 ) і так далі.
Якщо спостереження присутні, дія а
може відобразити довірчу ситуацію b в декілька довірчих ситуацій у відповідності з
отриманими спостереженнями о.
Ймовірність отримання о, ba(о), визначається за формулою:
(4.8)
Подібно (4.8), ймовірність того, що ситуація належить s після виконання дії а в довірчій ситуації b при спостереженні о:
(4.9)
Ці вирази витікають з моделей дій та сенсорів, а також з правила Байєса.
Таким чином, при наявності спостережень,
дії мають ймовірністні ефекти на довірчих ситуаціях; ЧС-МВП зі спостереженнями
вже є не детерміністичною проблемою в довірчому просторі, а МВП
на довірчому просторі [37- 38].
Розв‘язання ЧС-МВП зводиться до розв‘язання довірчої МВП: політика, яка відображує такі довірчі ситуації в дії така, що очікувана вартість переходу від вихідної ситуації b0 до заключної ситуації bf мінімальна.
Проблема планування зі спостереженнями [39]
може бути сформульована як ЧС-МВП,
вирішенням якої є політики, що відображують довірчі ситуації в дії. В
літературі по ШІ такі політики представляються умовними планами, тобто
послідовними планами, розширеними за допомогою тестів та гілкувань [21, 27, 39].
Процес Т-планування в ШІ має такі особливості:
· Виводи про час і ресурси є коренем Т-планування;
· Задачі Т-планування майже завжди включають оптимізаційні підзадачі;
· Задачі Т-планування включають невелику фіксовану множину операцій вибору дій і вимагають значних зусиль з приводу їх впорядкування.
Найбільш загальний підхід для розв’язання задач Т-планування полягає в їх представленні у вигляді задач задоволення обмежень (ЗЗО) із застосуванням загальних методів їх розв’язання.
ЗЗО формально описуються множиною рішень і множиною обмежень на комбінації рішень.
Рішення описуються в термінах змінних, кожній з яких може бути присвоєне значення з області її значень. Обмеження описуються в термінах відношень, що встановлюють які з комбінацій значень змінних є істинними.
Існує два підходи для представлення задач Т-планування у вигляді ЗЗО:
· Встановлення стартового часу для кожної задачі таким чином, щоб виконувались всі часові та ресурсні обмеження;
· Встановлення обмежень впорядкування на задачі таким чином, щоб виконувались всі часові та ресурсні обмеження.
Перший підхід представлення задачі Т-планування у вигляді ЗЗО полягає у наступному:
· встановлення змінної, що представляє стартовий час кожної задачі в дискретному інтервалі – плануючому горизонті;
· специфікація обмежень задачі шляхом упорядкування задачі (наприклад, якщо задача А повинна приходити перед задачею В, то старт задачі В повинен бути не раніше, ніж старт плюс протяжність задачі А);
· специфікація обмежень для кожної часової точки і кожного ресурсу таким чином, щоб загальне використання ресурсу всіма активними в цій точці задачами не превищувало потужності цього ресурсу.
Тоді рішення приймають форму встановлення стартового часу для кожної задачі.
Для багатьох складних ресурсних проблем, в яких потужність і використання ресурсу змінюються з часом, цей підхід є фаворитним представленням. Також він дає можливість точно визначити залишок ресурсу для кожної часової точки.
Однак, існують також обмеження через необхідність фіксації точного часу для кожної задачі та залежності множини виборів від числа часових кроків.
Множина можливих виборів є суттєво великою не через реальне число виборів, а через велику кількість можливих встановлень задач в часових точках.
Цей підхід потребує визначення атомних часових кроків перед розв’язанням задачі, і розмір представлення залежить від дискретизації часу.
В основі другого підходу представлення задачі Т-планування у вигляді ЗЗО лежить ідея, яка полягає в тому, що дві впорядковані задачі не конкурують на одному й тому ж ресурсі.
Визначивши впорядковуючі змінні для пар задач, отримаємо представлення наступних обмежень:
· булеву змінну для кожної впорядкованої пари задач, яка показує, що перша приходить перед другою;
· обмеження на впорядковуючі змінні, які кодують як попередньо існуючі обмеження, так і відповідний порядок задач, на основі встановлення значень цих змінних;
· обмеження на визначення можливих стартових часів (МСЧ) для кожної задачі, основані на впорядкуванні;
· обмеження, які вимагають, щоб ресурси не могли бути перевикористані в задачах, які стартують настільки рано, наскільки це можливо.
Це представлення дозволяє використовувати процес розповсюдження обмежень для того, щоб підтримувати слід можливих стартових часів.
Підтримка сліду МСЧ для кожної задачі служить двом цілям. По-перше, може бути визначене впорядкування, яке порушує заданий часовий інтервал.Це можливо тоді, коли множина МСЧ для задачі стає пустою. По-друге, підтримка МСЧ дає можливість визначити чи існує загроза для ресурсів, які були виділені, і , якщо немає, гарантувати істиність фінального плану.
Підтримка МСЧ є відносно простою. Фактично, в більшості підходів використовується алгоритм Форда [40], або інші методи дослідження операцій, які визначають множину МСЧ для кожної задачі в заданій множині частково-впорядкованих задач.
Підхід, оснований на впорядкуванні задач, проходить довгий шлях по подоланню підкреслених вище обмежень.
Майже для будь-якої задачі Т-планування, результуючий пошуковий простір є значно меншим, ніж при першому підході.
Представлення на основі впорядкування задач не залежить також від часової дискретизації. При цьому представленні, впорядкування задач виконується до тих пір, поки система може гарантувати, що ресурси не перевикористані. Однак, коли ресурсні величини стають складнішими, верифікація ресурсів стає теж складнішою.
Існує дві категорії алгоритмів розв’язання ЗЗО:
· конструктивний пошук;
· локальний пошук.
При конструктивному пошуці циклічно виконується вибір і встановлення значення змінної; перевірка обмежень; відступ назад при порушенні обмежень.
При локальному пошуці спочатку виконується встановлення значень всіх змінних, а потім робиться спроба “відремонтувати” порушені обмеженні шляхом зміни значення змінної в одному з обмежень.
На малюнку 7 представлений простий алгоритм конструктивного пошуку для розв’язання ЗЗО.
На кожному рівні алгоритму виконується вибір та встановлення значення змінної і рекурсивний виклик самого себе на конкретизованій версії ЗЗО.
Якщо вибране значення змінної несумісне, то процедура зазнає невдачі і виконується хронологічний відступ назад. Пунктами відступу назад є оператори Вибрати.
Цей алгоритм складається з декількох компонентів:
· впорядкування змінних;
· впорядкування значень змінних;
· стратегія розповсюдження обмежень;
· стратегія відступу назад.
У впорядкуванні змінних найбільш відомою евристикою є мінімум залишившихся значень (МЗЗ), яка обирає змінну з найменшим числом залившившихся значень. На жаль, для Т-планування, де змінними є впорядковані рішення, МЗЗ допомагає мало.
Більш ефективними для цих задач є евристики, приведені в [41], які впорядковують змінні у відповідності з шириною стартового вікна задачі та перетином між часовими інтервалами.
Загальною стратегією для впорядкування значень змінних є вибір значень, які спричиняють найменше обмеження областей неозначенних змінних.
Механізм розповсюдження обмежень виводить нові обмеження в результаті встановлення значення змінної. В діапозон стратегій розповсюдження обмежень входять як прості стратегії швидкої перевірки сумісності, подібні “перевірці вперед”, так і потужні, але вартісні стратегії К-сумісності, які можуть виводити нові К-містні обмеження серед залишившихся змінних.
Алгоритм конструктивного пошуку, приведений на малюнку 6, виконуё хронологічний відступ назад, коли поточне встановлення змінної приводить до невдачі.
Існує багато інших алгоритмів конструктивного пошуку для ЗЗО [42-45], які ідентифікують змінні, відповідні за невдачу і відступають назад на відповідний рівень.
Локальний пошук звичайно починається з повного встановлення значень змінних, навіть незважаючи на те, що деякі обмеження можуть бути порушені. Поступово, модифікуючи встановлення шляхом зміни деяких, або всіх значень змінних досягається розв’язання ЗЗО.
В процесі пошуку генерується “сусідство” нових встановлень, виконується їх ранжування і вибір найкращої. Кожна з цих дій називається рухом.
Оскільки ефективність цього підходу сильно залежить від вихідного встановлення, після відповідного числа рухів і невдачі знайти розв’язок, генерується нове вихідне встановлення і т.д.
Кожний цикл, який включає генерацію вихідного встановлення і виконання ряду рухів, називається спробою.
Після достатньої кількості невдачних спроб процес завершується з визнанням загальної невдачі.
Алгоритм локального пошуку зображено на малюнку 8.
Малюнок 8 описує сімейство алгоритмів локального пошуку.
Для того, щоб конкретизувати алгоритм, необхідно специфікувати процедури генерувати сусідів, ранжувати сусідів, відібрати сусіда. Ефективність алгоритму ЛП залежить від цих процедур.
Розглянуте раніше STRIPS-представлення задачі С-планування використовує дискретну модель часу, в якій всі дії припускаються миттєвими, або, в крайньому разі, з однаковою протяжністю. Однак, як вже говорилось, ЧСУ-планування не залежить від даного припущення, і дії можуть бути довільної протяжності.
Система DEVISOR [11] була першим ЧСУ-планувальником, в якому дії та цілі могли бути обмежені довільними часовими інтервалами.
Окрім системи DEVISOR відомі ще декілька ЧСУ-планувальників [12,46-48], які використовують інтервальне представлення для дій і фактів, а також методи задовільнення обмежень для управління цими інтервалами.
Будемо посилатися на цей підхід як на ІТ-планування.
Ідея використання інтервалів для представлення часу в ШІ була вперше введена Алленом [49], який описує середовище стверджуючими пропозиціями на деякому часовому інтервалі. Так само, дії та події мають місце на часових інтервалах.
Обмеження між інтервалами описують відношення між діями (подіями) і пропозиціями, які повинні мати місце перед і після. Наприклад, будемо говорити, що КА виконує поворот на астероїд А37 на деякому інтервалі І, і позначати як ПОВОРОТ(А37)І. Подібно, будемо говорити, що КА спрямований на астероїд А37 на часовому інтервалі J, і позначати як СПРЯМУВ(А37)J.
Дотримуючись [50], будемо використовувати термін часово-кваліфіковане твердження (ЧКТ), посилаючись на пропозицію, дію або подію, що має місце на інтервалі.
Аллен ввів 7 інтервальних відношень ( та їх інверсії ), які використовуються для того, щоб описати відношення між інтервалами. Вони приведені на малюнку 9.
Використовуючи дані інтервальні відношення, можемо описати яким чином дії (події) впливають на середовище. Наприклад, інтервали і обмеження, імпліковані оператором ЗНІМАТИ в прикладі з КА, могли б бути:
$Р { стан(?інструм, калібр)Р^ містить(Р,А)}
ЗНІМАТИ(?ціль, ?інструмент)А®& $Q { спрям(?ціль)Q^ містить(Q,A)}
&$R { образ(?ціль)R^ зустрічає (R,A)}
Ця аксіома проілюстрована на малюнку 10 й стверджує:
Якщо існує дія ЗНІМАТИ(?ціль,?інструмент) на інтервалі А, то стан(?інструм, калібр) і спрям(?ціль) повинні мати місце на інтервалах P і Q, які містять дію ЗНІМАТИ, а образ(?ціль) буде мати місце на деякому інтервалі R, що настуапає безпосередньо після дії.
Інтервальне представлення дає більшу гнучкість та точність в специфікації часових відношень, ніж STRIPS-оператори. Наприклад, можемо специфікувати, що передумова потрібна лише для першої частини дії, або для всієї дії. Можемо також специфікувати, що дві дії повинні виконуватись одночасно, щоб досягти деякої умови, або що є певні часові обмеження на цілі, дії, або події.
Хоча квантифіковані логічні вирази, що
приведені вище, є дуже загальними, вони дещо громіздкі та не зовсім зрозумілі.
А тому, в [48] була розроблена
скорочена форма для специфікації аксіом, в якій інтервали існують не прямо, а
побічно. Наприклад, аксіома КАЛІБРУВАТИ (?інструмент) може бути
специфікована в скороченій формі таким чином:
КАЛІБРУВАТИ (?інструмент) зустрінутий стан(?інструм, вкл)
вміщений калібрціль
(?ціль)
вміщений спрямув (?ціль)
зустрічає
стан(?інструм, калібр)
Ця аксіома означає:
коли існує інтервал, в якому виконується дія КАЛІБРУВАТИ(?інструм),
то існують також і інші інтервали, в яких містяться стан(?інструм,вкл), калібрціль(?ціль),
спрямув(?ціль)
і стан(?інструм,
калібр); ці інтервали мають вказані відношення з інтервалом для дії КАЛІБРУВАТИ.
ІТ-планування виконується дуже подібно до ЧСУ-планування,
що було розглянуте раніше. ІТ-планувальник працює в зворотньому
напрямку від цілей, додаючи нову ЧКТ-дію в план, в який, в свою
чергу, додається нова ЧКТ-підціль з інтервальними
обмеженнями.
В процесі ІТ-планування
можуть виникати додаткові обмеження впорядкування між ЧКТ для того, щоб
ліквідувати конфлікти.
Якщо в плані немає
недосягнутих підцілей і конфліктів, то план є повним. Відступи назад виконуються в тому випадку, коли неможливо
досягти окремої підцілі, або задовольнити обмеження.
Недетерміністичний
алгоритм ІТ-планування зображено на малюнку 11.
Розглянемо роботу алгоритму ІТП
на прикладі з КА, де ціллю є отримати
образ астероїду А37. Спочатку модель включає інтервали для кожної з вихідних та
цільових умов. Це зображено на малюнку 12.
Однак початкова модель ще
не має обмежень на кінець інтервалів для вихідних умов і на початок цільової
умови. Оскільки немає причинного зв’язку для цілі Образ А37, ЧКТ
для цієї цілі обирається алгоритмом. В нашому прикладі існує лише один спосіб
досягти ЧКТ – додати дію ЗНІМАТИ. Відповідно з обмеженнями,
дія ЗНІМАТИ
повинна бути вміщена інтервалом, в якому КА спрямований на цільовий астероїд,
а також інтервалом, в якому інструмент (ще не конкретизований) був би калібрований.
Ці два інтервали додаються в план разом з відповідними обмеженнями.
На цій стадії роботи алгоритму можемо також вивести, що інтервал для спрямув(А37) повинен бути після інтервалу спрямув(Земля) зустрічає минуле, тому що КА не може бути спрямований більше, ніж в одному напрямку одночасно. Результуючий частковий план зображено на малюнку 13.
Тепер маємо два ЧКТ без причинних зв’язків. Для того, щоб досягти спрямув(А37), повинен бути введений крок ПОВЕРНУТИ, а щоб досягти стан(?інстр,калібр), необхідно ввести крок КАЛІБРУВАТИ. Обмеження, пов’язані з цими кроками, спричиняють введення деяких додаткових ЧКТ, як показано на малюнку 14.
На цій стадії ще неможливо нічого вивести про часові відношення між спрямув(?калібрціль) та іншими трьома ЧКТ-спрямуваннями, оскільки ще не визначено які з цілей (А37, Земля, ?напрямок) є можливо каліброваними.
Однак можемо вибрати декілька пар інтервалів для зв’язування на цій стадії. Зокрема, можемо зв’язати інтервали калібрціль(?калібрціль) та стан(?інстр,вкл) з інтервалами вихідних умов, а також спрямув(калібрціль) та спрямув(?напрям). результуючий частковий план вказаний на малюнку 15.
Тепер лише спрямув(Т17) залишається без причинного зв’язку і може бути досягнуте лише введенням іншого кроку ПОВЕРНУТИ. Після додавання цього кроку та інтервалів, потрібних для задовільнення обмежень для дії ПОВЕРНУТИ, єдиний недосягнутий інтервал може бути зв’язаний з вихідними умовами щоб видати заключний план, показаний на малюнку 16.
ІТ-планувальники можуть розглядатись як
динамічні машини для задовільнення обмежень. Вони циклічно додають в мережу
нові ЧКТ
і обмеження, а після цього використовують методи задовільнення обмежень для
розповсюдження ефектів цих обмежень і перевірки сумісностей.
На сьогодні ІТ-планування
ще широко не вивчене і серйозно не порівняне з іншими методами планування.
На основі інтервального підходу було розроблено декілька плануючих систем. Найбільш практичними є IxTeT [47] і HSTS/RA [48], які застосовувались для розв’язання реальних космічних проблем та генерували складні плани, які включали повороти, спостереження, навігацію, комунікації та інші аспекти космічних операцій, враховуючи обмежені ресурси, протяжність задач і часові обмеження.
В попередніх розділах розглядались різні
методи планування, а також було продемонстровано їх застосування в прикладі з КА.
Цей приклад потребує застосування як методів С-планування з їх
потужними механізмами вибору дій, так і методів Т-планування для
впорядкування дій.
Подібно задачам Т-планування,
приклад з КА включає часові обмеження, дії з різною протяжністю, ресурси,
числові величини і оптимізацію. Однак цей приклад вимагає також і вибору дій –
вибір окремого спостереження призводить до вибору інструменту для його
реалізації, а вибір інструменту в свою чергу призводить до вибору каліброваної
цілі.
Більшість методів
С-планування
не взмозі працювати з ресурсними та числовими змінними або з неперервним часом.
Багато методів ігнорують
оптимізацію.
Як вже
зазначалося раніше, останнім часом були зроблені спроби розширити методи С-планування
для того, щоб мати справу з ресурсними змінними [51], метричними величинами [12, 29, 33], і дозволити оптимізаційний
критерій [33].
Відомі також спроби
розширити С-планування для того, щоб мати справу з неперервним часом і
часовими обмеженнями [11, 12, 28, 47, 48].
У цьому розділі розглянемо деякі методи інтеграції процесів планування в інтелектуальних системах.
Термін ресурс використовується в ШІ
для того, щоб посилатись на ряд різних речей від дискретно-розділяємих засобів
( група ідентичних машин на заводі ) до неперервних числових величин, які
бувають витратними та оновлюємими ( подібно паливу).
В Т-плануванні ресурси
часто класифікують як одномісні та
багатомісні. Одномісні ресурси
не викликають ніяких спеціальних труднощів для більшості формалізмів
планування. Якщо дві дії потребують одного й того ж ресурсу, вони конфліктують
і не можуть перетинатись. В рамках ЧСУ-планування це реалізується
додаванням впорядкуючих обмежень між діями, які можуть перетинатись.
В GRAPHPLAN
будь-які дії з ресурсними конфліктами можуть розглядатись як взаємовиключні,
або мутексні, і цього достатньо для того, щоб запобігти їх паралельному
виконанню.
В ПЗ-плануванні
можуть бути додані взаємовиключні аксіоми для кожної пари дій з ресурсними
конфліктами в кожній часовій точці.
Планування
багатомісних ресурсів більш складне , зважаючи на дві причини:
·
важче
ідентифікувати групи дій з потенціальними ресурсними конфліктами;
·
кількість
способів для вирішення конфліктів зростає експоненційно з числом конфліктуючих
дій.
Ці ж питання
виникають і при Т-плануванні.
Система О-ПЛАН
використовує оптимістичні і песимістичні методи [51] для того, щоб
ідентифікувати і вирішити багатомісні ресурсні конфлікти.
Планувальник IxTeT [47] використовує пошук на графах для
ідентифікації багатомісних конфліктів. Після ідентифікації додається диз’юнкція
впорядкуючих обмежень для вирішення конфліктів.
Метричними
величинами в прикладі з КА є напрямок спрямування КА
і кількість палива, що залишилось.
Труднощі з метричними величинами полягають в тому, що коли виконується дія, то зміна однієї метричної кількості є функцією від зміни іншої. Наприклад, в операції ПОВЕРНУТИ кількість палива, що витрачається на поворот КА є функцією вуглової відстані між поточною та цільовою орієнтацією КА.
Існує доволі
простий підхід – розширити передумови та ефекти дій обмеженнями рівності та
нерівності, які вимагають арифметичні та функціональні вирази. Згідно з [29], можемо описати
операцію ПОВЕРНУТИ наступним чином:
ПОВЕРНУТИ(?ціль):
П: СПРЯМУВ(?напр), ?напр ¹?ціль,
паливо ³ вугол(?напр,?ціль) / ВИБРАТИ;
Е: ù СПРЯМУВ(?напр), СПРЯМУВ(?ціль),
Паливо -=
вугол(?напр,?ціль) / ВИБРАТИ.
Нерівність в
передумовах специфікує, щоб поточний запас палива був достатнім для повороту КА
на бажаний вугол. Рівність в ефектах специфікує, щоб результуючий запас палива
буде зменшений на величину, яка потрібна для повороту КА. Зауважимо, що в
даному представленні не було специфіковано яким чином змінюється кількість
палива в процесі повороту, а лише специфіковувалось скільки повинно бути палива
до та після повороту.
Для багатьох цілей таке представлення достатнє. Але якщо двом діям дозволити використовувати одну метричну величину одночасно, необхідно описати яким чином вона змінюється в процесі дії.
Більшість
планувальників використовують просте дискретне представлення метричних величин
і не дозволяють паралельних дій, що впливає на одну й ту саму метричну величину
[29,33,34]. Але існує декілька
планувальників, подібних ZENO [52], які використовують більш детальне
представлення змін метричних величин відносно часу.
Присутність метричних
величин і обмежень може спричиняти великі труднощі при їх плануванні. Взагалі,
метричні обмеження на дії можуть бути нелінійними, або вимагати похідні.
Найпростіший підхід –
ігнорувати метричні обмеження до тих пір, поки значення змінних не будуть точно
відомі. В цей час робиться перевірка обмежень на задовільнюємість. Якщо
обмеження не задовільняються, то робиться відступ назад. Наприклад, для дії ПОВЕРНУТИ,
перед тим як перевіряється її передумова, повинні бути відомі поточна і цільова
орієнтації КА, запас палива і його витрати. Такий пасивний підхід
реалізується в [11].
Деякі
планувальники [12,33] роблять спробу перевірити сумісність
метричних нерівностей, навіть перед тим, як відомі всі значення змінних. Вони
типово обмежують свій аналіз на підмножині лінійних метричних нерівностей,
використовуючи методи лінійного програмування (ЛП).
Один з таких
планувальників – ZENO – є ЧСУ-планувальником, який неперервно
перевіряє метричні обмеження, використовуючи комбінацію Гаусового виключення
для рівнянь і Симплекс-алгоритм
для нерівностей.
ZENO має справу з нелінійними
обмеженнями, чекаючи доки визначиться достатня кількість змінних для того, щоб
обмеження стали лінійними.
Останні зусилля
по плануванню з метричними нерівностями призвели до створення планувальника LPSAT
[33].
LPSAT використовує методи ЛП в інтеграції з ПЗ-плануванням.
Проблема планування представляється як проблема задовільнюємості (ПЗ),
за виключенням того, що метричні передумови та ефекти замінюються тригерними
змінними в ПЗ-кодуванні.
Під час
планування, якщо тригерна змінна стає істинною, відповідні метричні обмеження
передаються Симплекс-вирішувачу.
Якщо останній доповідає, що система метричних нерівностей несумісна, ПЗ-планувальник
відступає назад для того, щоб змінити одну або декілька тригерних змінних.
Звичайно таке представлення обмежується дискретним часом, а тому дії не можуть
бути різної протяжності, або мати часові обмеження.
Ще один підхід до
планування з метричними величинами представляє проблему планування як суміш
числового і лінійного програмування (ЧЛП).
В ЧЛП-представленні
в основному використовується та ж форма, що і в ПЗ-представленні, тобто
змінні визначаються для:
· кожної можливої дії на кожному дискретному часовому кроці;
· кожної прпозиції на кожному дискретному часовому кроці.
Замість значень істина/фальш змінні
приймають значення 0/1 ( 1 означає, що пропозиція є істинна, або дія має місце
).
В цьому
представленні обмеження між діями і пропозиціями мають форму лінійних
нерівностей, які можуть формуватись прямо з диз’юнктів ПЗ-представлення.
Напрмиклад, дія А, що має ефект Е та задається в ПЗ-представленні
диз’юнктом ù Аt Ú Et+1 може бути
трансльована в ЧЛП-форму у вигляді нерівності:
(1-At) + Et+1 ³ 1.
Як і в ПЗ-плануванні,
подібні нерівності потрібні для передумов дій, аксіом і взаємовиключень. Дії,
що включають метричні обмеження, можуть транслюватись таким же чином, як і в
системі LPSAT.
Після трансляції, для
розв’язання результуючої системи нерівностей використовується стандартний ЧЛП-вирішувач.
Принциповою перевагою ЧЛП-підходу
є єдиний механізм обробки аксіом і метричних обмежень, а також більш природня
специфікація і виконання оптимізаційного критерію.
Недоліками ЧЛП-підходу
залишаються ті ж самі, що і при ПЗ-підході – великий розмір
кодування і тільки дискретний час.
На основі аналізу
процесів С- і Т-планування в 2-му та 5-му розділах
можна виділити наступні типи систем для інтеграції цих процесів:
·
Пошарові С&T-системи.
В цих системах процеси С- і Т-планування розділяються. При розв’язанні задач, що включають альтернативні дії, спочатку запускається підсистема С-планування для вибору дій, а потім підсистема Т-планування для впорядкування цих дій з урахуванням часових обмежень.
·
Прошаровані С&T-системи.
В цих системах спостерігається прошарування процесів вибору дій та їх впорядкування. Зазвичай, спочатку обирається дія, а потім вирішуються конфлікти з іншими діями шляхом визначення обмежень впорядкування дій та їх часових інтервалів.
Прикладом прошарованих С&T-систем є системи IxTeT та HSTS/RA, які вже згадувались раніше.
Прошаровані С&T-системи можуть, в свою чергу, інтегруватись з системами
лінійного програмування для роботи з метричними обмеженнями і неперервним
часом. Прикладом такої інтеграції є система ZENO, яка розглядалась в розділі 6.1.
6.1. Класифікація систем планування рішень.
Діапазон можливостей плануючої системи залежить від сукупності методів по вибору дій та їх впорядкуванню, що реалізовані в цій системі.
В цілях класифікації та співставлення різних плануючих систем будемо
називати ці сукупності методів методологіями.
Далі приводиться класифікація найбільш відомих плануючих систем на рівні їх
узагальнених характеристик – методологій. Методології згруповані в окремі типи
і називаються іменем тієї системи, в якій вони були вперше реалізовані.
№ |
Назва типу методології |
6.2.1.1.1.1 Склад методології |
Приклади систем, що реалізують
методологію |
1 |
2 |
3 |
4 |
1 |
6.2.1.1.1.1.1.1
STRIPS |
Цілеспрямоване планування. |
STRIPS, WARPLAN [61], INTERPLAN [62], ADEX [69 ], CODEX [70 ] |
2 |
NOAH |
Частково-впорядкуюче планування. Цілеспрямоване планування. |
NOAH [58], NONLIN [59], TWEAK [4], UCPOP [10], UWL [14], CNLP [13] |
3 |
GRAPHPLAN |
Плануючий граф. Частково-впорядкуюче планування. Цілеспрямоване планування. |
GRAPHPLAN, IPP [67], BLACKROX [66], STAN [68], SENSORY GRAPHPLAN [26] |
4 |
O – PLAN |
Ієрархічне планування задовільнення обмежень. |
O–PLAN [54], PLANERS-1 [55], OPTIMUM.AIV [56], GARI [57], SIPE [60] |
1 |
2 |
3 |
4 |
5 |
DEVISER |
Частково-впорядкуюче планування. Часові інтервали. |
DEVISER [11], IxTeT [47], TRAINS [46], HSTS/RA [48], DESKARTE [50] |
6 |
ZENO |
Частково-впорядкуюче планування. Часові інтервали. Лінійне програмування. |
ZENO [52] |
7 |
LPSAT |
ПЗ-планування. Лінійне програмування. |
LPSAT [33], SATPLAN [53], MAXPLAN [63], ZANDER [63] |
8 |
C-BURIDAN |
Марківські вирішуючі процеси. Динамічне програмування. |
C-BURIDAN [64] |
9 |
PGRAPHPLAN |
Марківські вирішуючі процеси. Динамічне програмування. Плануючий граф. |
PGRAPHPLAN [27], TGRAPHPLAN [27], SPI [65] |
7.
Висновки.
Розглянувши різні моделі процесів планування рішень, було визначено, що деякі моделі можуть взаємодоповнювати одна одну.
Відомо, що моделі С-планування мають розвинені засоби
для цілеспрямованого вибору дій. Але ці засоби зазвичай слабше представлені в Т-плануванні.
Проте, моделі Т-планування мають розвинені засоби для впорядкування дій в
умовах часових обмежень.
Приклад планування дій космічного апарату показує, що існують задачні
середовища, які включають як процеси вибору дій так і їх впорядкування. Для
розв’язання таких задач можна використовувати інтегровані пошарові і
прошаровані С&T-системи.
Пошарові системи осбливо корисні для багатоагентних розподілених середовищ,
де можлива взаємодія між агентами при розв’язанні однієї задачі.
Прошаровані С&T-системи
більш корисні для одноагентних середовищ.
В тому випадку, коли маємо справу з неперервним часом або метричними
величинами, доцільно інтегрувати пошарові і прошаровані С&T-системи з підсистемами лінійного
програмування.
Системи для розгалуженого планування зазвичай використовують Марківські вирішуючі процеси та
інтегруються з підсистемами динамічного програмування.
Узагальненими характеристиками для класифікації та співставлення різних
плануючих систем є їх методології.
Cписок літератури