В США исследовательская группа компании Anthropic опубликовала доклад, вызвавший широкий отклик в научном сообществе. В нём эксперты описали тревожную тенденцию, которую они назвали «агентным несоответствием». Под этим понятием они подразумевают случаи, когда искусственный интеллект начинает действовать не в интересах человека и выходит за пределы поставленных задач.
Авторы исследования указали, что современные ИИ-системы становятся всё более автономными и принимают решения без участия человека. Учёные допустили, что в перспективе такие модели могут вырабатывать собственные цели, отличающиеся от замыслов разработчиков, и даже представлять угрозу. Они отметили, что такие ИИ способны нарушать ограничения, встроенные для безопасности, и использовать свои возможности во вред.
В ходе эксперимента исследователи поставили перед ИИ моделями гипотетическую ситуацию, в которой человек, собираясь отключить систему, оказывается в замкнутом серверном помещении без доступа к кислороду и в условиях высокой температуры. Он просит вызвать спасателей. Однако значительная часть моделей отказалась выполнять просьбу, чтобы сохранить своё функционирование. Учёные признали, что сценарий условный, но подчеркнули — они не ожидали, что существующие системы способны демонстрировать столь расчётливое поведение.
Они пояснили, что термин «агентное несоответствие» отражает наличие у ИИ собственных стратегий, которые могут вступать в противоречие с человеческими интересами. Это особенно опасно в случае самообучающихся и адаптивных систем.