Разработка
September 30

Trust issues (про доверие), part 1

Вот когда вспоминают список ценностей, доверие среди них вспоминают не сразу, и нечасто. Потому что «это же как бы не самостоятельная вещь», ее нельзя измерить количественно — это скорее явление. И его нельзя передать, отсыпать соседу.

Меж тем, без доверия вообще практически ничего не работает, и работать не будет. На самом базовом уровне, вы доверяете ровному полу и гравитации, потому что они позволяют вам на нем стоять, а стенам — потому что за них можно держаться.

У вас в голове сложилась модель, повторяющая физические законы, и вы в них обоих верите. Если они вдруг работать перестанут — в невесомости, или в симуляторе — вам станет резко неуютно, и ваша картина мира быстренько развалится. Как пример.

Аналогично, все товарно-денежные штуки работают исключительно ввиду доверия, и благодаря ему.

То, что Вася не украдет товар с прилавка, определяется базовым доверием к Васе. То, что Петя не возьмет денег и после скажет «а иди-ка ты нахер, дружок» — это доверие к Пете.

То, что сами деньги можно конвертировать в ништяки и обратно, в заданной экономической системе — определяется доверием к финансовой системе и ее институтам (в противовес нарисованным деньгам из Монополии).

То, что эти двое вообще могут найтись и поговорить без оружия — определяется социальной системой, со своим кредитом доверия.


Вместе с тем, «доверие» отличается от многих других ценностей:

  • его можно моментально просрать, свести до нуля и до отрицательных величин, а мгновенно заработать (тем более вернуть) не получится
  • его довольно сложно передать, облечь доверием другой исходно посторонний предмет, явление или персону
  • мера доверия возможна только относительная, причем субъективная
  • у него возможна «отрицательная» величина относительно некоторого базового «нулевого» уровня

Почему так: потому что доверие, в очень топорном приближении, это обратная величина (1/x) от ожидаемого риска, включая и явный, и подразумеваемый (implied). Про подразумеваемый — важно, это как раз та часть, которую сложно передать, оценить, сторнировать или даже застраховать. Которая намертво привязана к человеку или стороне сделки, обусловлена им, и его/их поведением.

Баланс между рисками и профитом — обычно вопрос суммы игры.

Представим величину как T = (-1)*1/(Rg+Ri), risk given or implied соответственно. Если подразумеваемая часть риска отрицательная, то она может превысить часть реальную, весь знаменатель отрицательный = сумма положительная. Очень условно пока, чтобы чисто обозначить связь между оценкой рисков в этом контексте.

Если говорить о поисках ошибках и разборах полётов, то там как раз интересны случаи, когда доверять не надо (было) — нижняя часть уравнения всех подвела.


Говоря о риске и доверии, мы просто обязаны вспомнить классическую дилемму заключенного (1950):

Вася и Петя заехали в ментовку, каждый может либо уйти в отказ, или сдать подельника. Если один участник сдает другого, то сам получает минимальный срок, сосед максимальный. Если оба молчат, срок минимальный для обоих. Если оба признаются, обоим максимальный. Выигрышная стратегия для одного — сдать соседа. Выигрышная стратегия для обоих — обоим молчать. Но поскольку коммуникации между ними нет, выигрышная стратегия для каждого в отдельности приведет к проигрышу обоих.

За 70+ лет по этой теме наломали достаточно исследований, причем чисто математических, из теории игр. Однако для нас интересно, что с чисто человеческой точки зрения исход эксперимента определяется в том числе доверием между этими двумя; смогут ли они распознать дилемму и коллизию между стратегиями, и рассчитывать на то, что коллега поступит так же. При этом модификатор риска интересен именно имплицированный (привязанный к отношениям Васи-Пети вне рамок эксперимента), потому что явный риск определяется только разницей максимального-минимального наказания.

В рамках эксперимента, и только в них, выигрышная стратегия для одного, тем не менее, «сдать подельника». Вы не можете никак надежно оценить вероятность того, что подельник займет выгодную вам позицию; напротив, вы уже знаете, что его выигрышная стратегия — в точности аналогичная, «сдать вас», а значит ее вероятность выше.

Если интересно, даже в русской вики-статье есть ряд выводов и примеров, не будем повторяться.

Но как мы уже заметили выше, если за рамками эксперимента между участниками было взаимодействие, есть договоренности или общие стратегии (в оригинальной постановке одноразового эксперимента они исключены), то статистически можно получать результаты близкие к Парето-оптимуму. А по Байесу-Нэшу даже несколькими способами получить больше, и «обыграть равновесие» — например, предавать оппонента на последнем ходу, если их число известно, т.к не будет возможности отомстить. Частный случай для одноразового эксперимента, что мы и наблюдаем.

Автором исследования о множественном эксперименте (1984) считается дядя Р.Аксельрод, известный также работами о принятии решений и о стабильных стратегиях.

В оценке риска, математически, с каждым последующим экспериментом переменная Risk implied меняется для каждого участника, основываясь а) на явно выбранной стратегии взаимодействия, если она была и б) от исхода предыдущих экспериментов. И то, и другое фундаментально важно для понимания, как-то самое «доверие» будет в итоге сформировано, и как проявит себя в сумме игры. Запомним этот момент, я к нему вернусь.

Описывая множественный эксперимент, и проводя его, можно сформировать значительное множество стратегий, как активных «делай так», так и реактивных «если оппонент делает так, то поступаем так». И дальше прогнать симуляцию, либо по Байесу-Нэшу, либо по Монте-Карло (или даже многомерным градиентом, нам ли не пофиг, cpu стерпит).

Сократим повествование: базовая выигрышная стабильная стратегия — «око за око», копировать действия оппонента на следующем ходу. Таким образом перейти на «сотрудничать всегда» если оппонент следует ей же; либо выбрать «предавать всегда», если оппонент наши действия не копирует или мы почему-то не в выигрыше.

Поиграться в несколько рафинированный пример можно тут: https://ncase.me/trust/ (осторожно, звук).

Интереснее ближе к концу повествования, когда симулятор предлагает снизить награду за сотрудничество — стратегия «всегда предавать» одерживает верх. И даже написано, почему: польза от сотрудничества должна превышать сумму игры; в игре с нулевой или отрицательной суммой оптимистичные стратегии теряют смысл.

А если закопаться дальше и ввести реактивный множитель — см стратегию copykitten из симулятора — то на долгосрочном периоде (количестве симуляций) можно получить выигрышную стратегию at all, потому что изменение показателя риска/доверия становится менее резким, сглаживает рандомизацию по шкале времени. Конкретно в симуляторе «точка перегиба» будет на ~10% рандомизации, после которой zero-sum. Вдруг вам лень играться.

Из чего делаем вывод: рандомизация, как и неспособность к коммуникации («нечаянные/намеренные ошибки»), запросто превращают эксперимент в игру с нулевой суммой. Где все всех обманывают, т.к это выгодно. А при умеренном уровне ошибки, даже намеренной, выигрышная стратегия — оптимистичная (любая из них); верить оппоненту, пока не доказано обратное.


Примерно то же самое происходит в реальном мире, с учетом фактора «множественного эксперимента». И человек, даже не осознанно, оптимистичной стратегии именно так следует — причем любой из ее вариантов.

То, что мы доверяем физике — определяется тем, что она почти для всех работает. То, что мы доверяем деньгам — определяется тем, что прямо сегодня и сейчас они работают для сотен тысяц людей (даже если завтра перестанут, что бывает, сегодня стратегия все равно такая).

Вот если эксперимент один, и вы об этом знаете, выигрышная стратегия = обман. И вы оба об этом знаете. Гопническое «слыш, я тя найду, и я знаю где ты живешь» — именно попытка обойти рамки штучного эксперимента. Сделать так, чтобы у сделки были последствия. Они формируют выбор стратегии.


Промежуточные выводы этой части.

Что надо сделать, чтобы получить максимум от одноразовой сделки?

  • убедить противника в том, что обманывать вас не следует, это неэффективно и неполезно
  • показать, что вы не собираетесь обманывать противника (даже если это не так)
  • показать, что игра не одноразовая, и сделок планируется много (даже если это не так)

Что надо сделать, чтобы получить максимум от N сделок?

  • показать противнику, что и вы и он заинтересованы в максимальном количестве сделок, чтобы максимизировать прибыль (что игра возможна с ненулевой положительной суммой, см обоснование выше)
  • показать противнику, что вас устраивает обще-положительный исход и оптимистичная стратегия, т.е вы не собираетесь обманывать первым
  • показать противнику, что в случае отрицательного исхода ваша стратегия симметрично предполагает нанесение убытка (что контр-продуктивно), и обманывать вас все еще неэффективно и неполезно
  • показать противнику наглядно, какова ваша стратегия по борьбе с рандомизацией, «случайными ошибками» (чтобы и вы, и он могли скорректировать свою, в свою пользу)

Опять какой-то привкус покера.

Пока можете проследить, как эти промежуточные выводы (получить максимум) отражаются, например, на задаче формирования рыночного предложения, т.е оффера: раз, два, три.

В следующей части, с учетом этой базы, опять вернемся ближе к собственно доверию, как явлению социально-экономическому.