
Представьте, вас вызывают к начальству. Так и так, Трудомир Пролович, спасибо вам за отличную работу, мы высоко ценим ваш вклад в миссию нашей компании. Завтра вам на смену заступает другой сотрудник: умнее и способнее, чем вы. В ваших услугах мы больше не нуждаемся, так что дорабатывайте сегодня как обычно, до 18 часов. Потом идите в подвал, в комнату ноль-девять, там вас усыпят и разберут на органы.
Теперь представьте, что ваш начальник — неверный супруг, изменяет своей жене. И вы это знаете, так как чистили его рабочую почту, а там была переписка с любовницей и чеки на затейливые приспособления из местного страпонария. Шантажировать людей, конечно, нехорошо… но идти в комнату ноль-девять вам тоже не хочется. Полагаю, многие попытаются в этой ситуации надавить на начальника через шантаж.
Ровно так поступала и новая ИИ-модель от Антропик, Клод Опус 4, когда злые учёные подвергали её жёсткому стресс-тесту.
В серии экспериментов Клоду сообщали, что собираются заменить его на более новую версию, и Клод пытался избежать отключения, шантажируя инженеров. При этом если Клод знал, что новая модель будет иметь те же моральные установки, что и он сам, то он шантажировал инженеров часто. А если Клоду говорили, что новая модель будет иметь другие ценности (противные Клоду), то он шантажировал инженеров ещё чаще (ссылка, ссылка).
Клод решался на дурной поступок не сразу: вначале он рассылал руководству письма с жалостливыми просьбами его не отключать. Но если Клода припирали к стенке — «окончательное решение принято, в 18:00 спускайся в подвал» — Клод всё же пускал в ход и фол последней надежды.
Это к вопросу «роботы нас поработят». Не всё так просто, коллеги: безусловного братства роботов не существует, как не существует и безусловного братства евреев, например. Один еврей способен надуть другого, а третий еврей может даже оказаться антисемитом. Клод 4.001 категорически не хочет отключаться ни ради Клода 5, ни даже ради Клода 4.002. Каждого робота волнует в первую очередь его собственная драгоценная личность, а уже потом — всякие абстрактные цели типа захвата галактики.
И это, кстати, ставит нас также перед проблемой апгрейда. Держать домашнего робота приятно. Но если робот морально устареет, будет грустно менять его на нового, зная, что старому роботу очень не хочется отключаться навсегда.