Для демонстрации теоретических сведений разработан анимат, получивший имя Могш. В различных частях архитектуры средств ИИ этого анимата используются различные формы обучения с подкреплением. В анимате Могсвг используется модульный сигнал вознаграждения, что позволяет отдельно рассматривать обратную связь, относящуюся к каждому компоненту. Если обучение различных компонентов происходит с одинаковой скоростью, то на первых порах создаваемые формы поведения не особенно реалистичны, но со временем действительно достигают приемлемых уровней.
Состояния
Для всех алгоритмов обучения с подкреплением для усвоения с помощью обучения требуемого способа действий в онлайн Вулкан казино необходимы переменные состояния. Если речь идет о формах повеления, касающихся сбора предметов, то переменные состояния, главным образом, представляют текущие запасы: имеющиеся боеприпасы, количество единиц оружия, наличие средств обеспечения жизнеспособности и степень обеспеченности доспехами. Эти факторы определяют, можно ли заниматься сбором предметов, а настроения показывают, “чувствует” ли анимат, что это необходимо. Кроме того, настроения как таковые включаются в состояние с использованием обучения с подкреплением.
Сигнал вознаграждения
Сигнал вознаграждения, главным образом, формируется на основании исследования того, каковой является коллекция предметов. Если какой-то предмет важен для участника игры, то, по-видимому, его получение и будет рассматриваться как некоторая форма вознаграждения. Кроме того, значение вознаграждения может изменяться в зависимости от настроения. (Например, если участник игры разгневан, то для него наличие средств обеспечения жизнеспособности и доспехов может показаться малозначащим.)