Выигрыш игрока в случае линейной тактики поведения в задаче о "-двуруком бандите"-

Тип работы:
Реферат
Предмет:
Физико-математические науки


Узнать стоимость

Детальная информация о работе

Выдержка из работы

Лобарёв Д.С.
ВЫИГРЫШ ИГРОКА В СЛУЧАЕ ЛИНЕЙНОЙ ТАКТИКИ ПОВЕДЕНИЯ В ЗАДАЧЕ О «ДВУРУКОМ БАНДИТЕ»
Рассмотрим автоматную модель в случае линейной тактики поведения игрока в задаче о «двуруком бандите» [1, 2].
Поведение игрока представим в виде ориентированного графа, изображенного на рис. 1.
В таком случае автомат имеет 2п состояний р1, ф2,…, фЩ и р 2, р2,…, фП по п на каждое действие (нижний индекс).
Рис. 1
Вектор финальных вероятностей р = (р11,р12,…, р1и, р П) найдется из системы
уравнений: р = р ¦ р.
_п ______ п-1. _п
К — К + К
— п-1 _-п-2 ^ і _п _
К — К + К Р1
2 1 3
К — + Р Р1
1 2 1
К — К1 Р1 + К 2 Р2 1 1 2
& lt- К2 — К1 Р1 + К2 Р2 ^ & lt-
2 1 3
К 2 — К 2 $ 2 + К 2 Р2
п-1 п-2 п
К2 — К2 $ 2 + К2 Р2
п п-1 п
К2 — К2 $ 2 + К2 $ 2
К1 + … + К1 + К 2 + … + К 2 — 1
КпР1 — КГ1 $ 1 КГ1Р1 — КГ2 $ 1
21 К1 Р1 — К1 $ 1
К11 Р1 — К21 Р2 21 К2 Р2 — К2 $ 2
К 2п-1Р2 — К 2п-2 $ 2 К 2Р2 — К 2п-1 $ 2
К + … + К1 + К 2 + … + К 2 — 1
где Рт и qm — это вероятности проигрыша и выигрыша соответственно игрока за произведенное действие, причем Рт + $т — 1, т — 1,2 (два действия выбора левой и правой рукоятки). Из последней системы легко получить:
/ п-'
~ 1 (1)
^ т.
(2).
Тогда, учитывая (1), получим р т = р т
/ / 2 / п-1
1 + Рт + Рт +. + Рт

ч Чт) V Чт 0 V Чт 0
. Откуда, если
Рт ^ Чт (равенство не должно выполняться, иначе Мп = М0), то по формуле суммы ряда
тт
геометрической прогрессии, имеем
1 —
(3).
Математическое ожидание выигрыша игрока Мп = р, • а, + р2 • а2, где ат = Чт — рт —
математическое ожидание выигрыша за действие /т.
Учитывая (3),
Мп = р П
1-
Ч,
1-р
Ч,
(Ч, — р,) + Р
1 —
Р2
Ч2
(Ч 2 — Р 2)
(4)
Связь финальных вероятностей крайних состояний р, п и р? найдем из (1) и (2):
р 1 = / Р 2 и / п-
р 2 Vр, 0 Ч2 2
Подставляя (5) в (4), после упрощения имеем:
Мп = Р1
п п п п
Ч, — Р, + Ч 2 — Р 2
Ч,
п-1
Ч 2
Р2
2
(5).
(6).
рп найдем из (3) и (5), учитывая что р, + р2 = 1:
Ч,
/ И
Ч, — Р, + Ч2 — Р 2 Р,
Ч, — Р, Ч2 Р 2 2Р
и
2=1
п
т
п
р т р т
Ч
Ч
2
/ п
— П р=
1 24
Тогда
Мп =
к-рп)+(к п-р п)• / Р_ р 2 2
?Г — р"х. кп — рп + • к — р1 к 2 — р 2 и р1 Р2) (8)
Оценим вероятности проигрыша на рукоятках р и р при которых математическое ожидание выигрыша игрока будет положительно, ситуация, когда игрок будет всегда выигрывать.
Так как знаменатель выражения (8) всегда положительный, следовательно, Мп & gt- 0 тогда,
когда
к — рп)+к — рп)
с р± р2 V 2
& gt- 0. Учитывая, что дт = 1 — рт, получим:
1 — Рх
V Р'- У
Проведем анализ полученного неравенства. Для этого построим график зависимости, например, вероятности р., от р в случае равенства и оп-
Л& quot-
1 — р
V РУ
& gt- 2
(9)
квадрате 0 & lt- р]. р-, & lt- 1, удовлетворяющих неравенству (9). Функция будет иметь вид:
р 2 = / (р1)='-
2 —
+1.
График этой зависимости с различными значениями параметра п представлен на рис. 2. Таким образом, точки плоскости, удовлетворяющие неравенству (9), расположены ниже графика. Нижняя огибающая (и = 1) изучена в [2]. С ростом числа II график приближается к ломаной. I Ж'-, которая образует квадрат в верхнем левом углу 0.5 & lt- р1- р2 & lt- 1.
Поэтому если вероятность проигрыша хотя бы на одной рукоятке меньше
1
1 + ^2
(в этом
случае вероятность на другой рукоятке может быть любой, см. рис. 2), то, следуя линейной тактике поведения, игрок всегда будет в выигрыше.
Литература
1. Варшавский В. И. Коллективное поведение автоматов.- М.: Наука, 1973. -407 с.
2. Лобарёв Д. С. Автоматное моделирование поведения человека на примере задачи о «двуруком бандите» // Вестник Псковского государственного педагогического университета. Сер. «Естеств. и физико-математич. науки». — Вып. 2. — Псков: ПГПУ, 2007. — С. 86−91.
+
1

ПоказатьСвернуть
Заполнить форму текущей работой