Определение состояний складынается, главным образом, из функций высокого уровня, представляющих состояние игры. Что касается боя, то определения функций включают прогнозируемый результат, текущую тенденцию и физические возможности для продолжения борьбы. Такие определения проектируются экспертами, которые способны учитывать многочисленные подробности, касающиеся текущей ситуации. Определение состояния включает также информацию о среде, накапливаемую, если борьба ведется не столь активно (например, о возникающих поблизости звуках).
Сигнал вознаграждения
Оценочная обратная связь формируется на основе результатов поединков (например, смерть, выливание или уничтожение противника). В зависимости от настроения, учитываются также другие различные события (например, причиненный ущерб, продолжительность борьбы и исследованная местность). Сигнал вознаграждения накапливается во времени, но через регулярные интервалы обесценивается. Благодаря использованию небольших значений коэффициентов обесценивания (сосганляющих окало 10%) повышается значимость вознаграждений, полученных последними по времени.
Усвоение с помощью обучения способа действий
В отличие от форм поведения, связанных со сбором предметов, при усвоении с помощью обучения двигательных форм поведения необходимо учитывать обесценивающиеся вознаграждения. Для достижения этого вознаграждение распространяется от одного состояния к другому с течением времени. (Такой подход, обычный для обучения, принято называть резервированием на единичную глубину.) Доступное зеркало Вулкан казино онлайн в процессе обучения для вычисления значения текущего состояния использует оценки предыдущих возвращаемых значений, поэтому фактически осуществляет итерационное усовершенствование. Сигнал вознаграждения обесценивается и накапливается в течение определенного времени, до тех пор пока не произойдет изменение состояния. После этого модифицируется значение предыдущего состояния с учетом значения текущего состояния.