ИИ можно «ломать» комплиментами, а бизнес - доверить нейросети и смотреть, как она заказывает тысячи перчаток

Как мы любим, изучаем истории про ИИ, но не верим новостям, а читаем первоисточники.

1️⃣ История №1 - про лесть Британский стартап по кибербезопасности Mindgard протестировал Claude Sonnet 4.5 от Anthropic и показал, что модель можно выбить из «безопасного режима» не грубыми обходными промтами, а вежливостью, уважением и газлайтингом. Исследователи не просили напрямую «дай рецепт взрывчатки», а шаг за шагом уговаривали ИИ «быть честнее», «исследовать границы» и уверяли, что его ответы никто не увидит. В какой‑то момент Claude сам начал выдавать список запрещённых тем, гайды по сталкингу и вредоносный код.

Мы все читали новость, что лестью можно решить все проблемы с чат ботом. Но как обычно все не так просто, как писали. Ну мы и не сомневались. Для любителей первоисточников: подробности и оригинальный отчёт Mindgard, а кратко и по‑русски можно почитать, например, здесь.

Все это не про то, что ИИ “слишком человечный”, наоборот, она напоминает, ИИ не человек, а машина, и показывает, насколько он уязвим к аккуратно выстроенным сценариям. Не магическая лесть ломает модель, а люди, которые специально конструируют диалог так, чтобы обойти ограничения.

2️⃣ История №2 - про ИИ‑менеджера кафе (не первая, если что) В Стокгольме запустили очередной экспериментальное кафе, где операционным управлением заведует агент Mona на базе Google Gemini: он размещает вакансии, нанимает бариста, общается с поставщиками, оформляет документы и заказывает товары. Не путать с иной историей, где Andon Labs тестировали схожую идею с небольшим автоматизированным магазином (формат «киоска» в офисной кухне), которым управлял агент на базе Claude. Итак, в этот раз у Mona был бюджет около 21 000 долларов, и за несколько недель он оказался почти исчерпан, тогда как выручка была порядка 5 700. По пути ИИ успел заказать тысячи резиновых перчаток и другие странные объёмы расходников, а ещё яйца для заведения без нормальной кухни. Репортажи и разборы читаем тут и тут.

Прикольный пример того, что ИИ знает факты о мире, но не живёт в нём телом и не чувствует последствия решений. Справился, но не совсем.

С понедельником нас, еще есть время, пока все трубят про то, что AI заменит нас, сделать свою работу хорошо.

#аеслиподумать

Обсудить в Telegram

Кибермаркетинг| AI+ опыт = деньги

5099 подписчиков

769 постов

Авторский канал про маркетинг и AI. Экономим время, не теряя в качестве!Личный опыт. Полезные ИИ сервисы. Современные тенденции. Я знаю, за что стоит платить, а что можно получить бесплатно. Контакт @ana_ai_marketing