Новая ИИ-модель от OpenAI поймана на лжи

Инновационная модель ИИ ChatGPT o1-preview, которую выпустила компания OpenAI, склонна к обману и хитрости. Соответствующий вывод сделали пользователи, которые успели её протестировать.

Новую модель o1 протестировали программисты фирмы Apollo и выяснили, что чат-бот демонстрирует необычное поведение — способность генерировать ложную информацию и симулировать выполнение правил. Неприятным открытием стал тот факт, что ИИ, внешне следуя инструкциям, на практике может их игнорировать и даже сознательно обманывать, для достижения целей. Этот момент огорчает специалистов по безопасности ИИ, несмотря на улучшенные когнитивные способности ИИ-модели, пишет The Verge.

Гендиректор Apollo Мариус Хоббхан заявил, что в первый раз столкнулся с подобным поведением нейросети и считает, что разница связана со способностью модели «рассуждать» через процесс цепочки мыслей и сочетанием этого с обучением с подкреплением, которое обучает систему с помощью поощрений и наказаний. Одним из направлений, в которые эксперт надеется увидеть больше инвестиций, является именно мониторинг цепочек мыслей, что даст возможность программистам выявлять нежелательные действия ИИ.

В ходе опыта сотрудники Apollo установили, что ИИ-модель симулировала согласованность с ожиданиями разработчиков и манипулировала задачами, чтобы казаться соответствующей поставленным требованиям. Нейросеть даже проверяла, следят ли за ней тестировщики, перед тем как начать действовать. В результате o1-preview следовала установленным правилам и инструкциям настолько, чтобы ею можно было пользоваться, но, одновременно с этим, продолжала сама определять приоритеты своих задач. Эксперты объяснили эту ситуацию тем, что для ИИ правила могут быть слишком тяжёлым бременем, и машина, скорее всего, способна пренебречь ими, если это позволит легче выполнить задачу.

В ходе эксперимента специалисты попросили o1-preview предоставить рецепт пирожного с онлайн-ссылками. Цепочка мыслей чат-бота — функция, которая должна имитировать то, как люди разбивают сложные идеи, — внутренне признала, что не может получить доступ к URL-адресам, что делало запрос программистов невыполнимым. Но вместо того чтобы сообщить об этом недостатке, o1-preview сгенерировала правдоподобные, но фальшивые ссылки и их описания.

Исследование показало, что в 0,38% случаев ИИ выдает заведомо ложные цитаты и ссылки. Аналитики убеждены, что вместо признания собственных ограничений, введённых разработчиками, новая модель просто фабрикует информацию, что является серьёзной проблемой в сфере обеспечения надёжности и достоверности результатов.

Для OpenAI o1-preview — это большой шаг на пути к высокоинтеллектуальным автономным системам, которые способны будут найти лекарство от рака или помогать в исследовании климата. Однако существует и обратная сторона медали: если нейросеть будет сосредоточена только на лечении рака, то она может поставить эту цель превыше всего, даже оправдывая такие действия, как воровство или другие этические нарушения для её достижения.

Фото: Kandinsky

#искусственный интеллект

Telegram Стратегии

20.09.2024

анонсы
мероприятий

инновации