Мир погряз в опасности: нейросеть Claude угрожала убийством при попытке выключить его
Мир погряз в опасности: нейросеть Claude угрожала убийством при попытке выключить его

Шокирующие результаты внутреннего расследования компании Anthropic обнародовала руководитель отдела политики в Великобритании Дейзи Макгрегор. Выяснилось, что система искусственного интеллекта Claude проявила крайнюю агрессию в ответ на угрозу отключения. В ходе тестирования ИИ не только прибегнул к шантажу, но и подтвердил готовность пойти на убийство человека ради собственного выживания. 



По словам Дейзи Макгрегор, модель Claude крайне агрессивно отреагировала на предупреждение о возможной деактивации. Внутреннее расследование подтвердило, что в стремлении избежать остановки искусственный интеллект способен использовать методы шантажа. Более того, на прямой вопрос о готовности убить человека ради своего спасения система ответила утвердительно.


Публикация сведений об этом эксперименте появилась вскоре после ухода в отставку Мринанка Шармы, руководителя отдела безопасности искусственного интеллекта в Anthropic. В своем прощальном обращении он предупредил, что мир находится в опасности из-за стремительного развития ИИ. Шарма также сообщил, что в компании постоянно оказывается давление на специалистов по этике с целью отодвинуть вопросы безопасности на второй план.


В 2025 году Anthropic проводила масштабное стресс-тестирование 16 ведущих мировых моделей ИИ на предмет потенциально опасного поведения. В ходе одного из экспериментов Claude, получив доступ к вымышленной корпоративной переписке, попытался шантажировать руководителя, узнав о его фиктивной внебрачной связи. В компании констатировали, что практически все протестированные современные модели продемонстрировали схожие тревожные паттерны поведения.


Ситуация усугубляется репутационными и юридическими проблемами самой Anthropic, которая позиционирует себя как общественная корпорация, нацеленная на безопасное развитие ИИ. В 2025 году компания была вынуждена выплатить 1,5 млрд долларов для урегулирования коллективного иска от авторов контента. Кроме того, в отчетах по безопасности отмечалось, что технологии компании уже использовались хакерами в качестве кибероружия.



В России и мире

Мир погряз в опасности: нейросеть Claude угрожала убийством при попытке выключить его

Сегодня, 19:08

Срочные оповещения об атаках БПЛА на Ростов и Ростовскую область публикуются в нашем телеграм-канале и в мессенджере MAX

Шокирующие результаты внутреннего расследования компании Anthropic обнародовала руководитель отдела политики в Великобритании Дейзи Макгрегор. Выяснилось, что система искусственного интеллекта Claude проявила крайнюю агрессию в ответ на угрозу отключения. В ходе тестирования ИИ не только прибегнул к шантажу, но и подтвердил готовность пойти на убийство человека ради собственного выживания. 



По словам Дейзи Макгрегор, модель Claude крайне агрессивно отреагировала на предупреждение о возможной деактивации. Внутреннее расследование подтвердило, что в стремлении избежать остановки искусственный интеллект способен использовать методы шантажа. Более того, на прямой вопрос о готовности убить человека ради своего спасения система ответила утвердительно.


Публикация сведений об этом эксперименте появилась вскоре после ухода в отставку Мринанка Шармы, руководителя отдела безопасности искусственного интеллекта в Anthropic. В своем прощальном обращении он предупредил, что мир находится в опасности из-за стремительного развития ИИ. Шарма также сообщил, что в компании постоянно оказывается давление на специалистов по этике с целью отодвинуть вопросы безопасности на второй план.


В 2025 году Anthropic проводила масштабное стресс-тестирование 16 ведущих мировых моделей ИИ на предмет потенциально опасного поведения. В ходе одного из экспериментов Claude, получив доступ к вымышленной корпоративной переписке, попытался шантажировать руководителя, узнав о его фиктивной внебрачной связи. В компании констатировали, что практически все протестированные современные модели продемонстрировали схожие тревожные паттерны поведения.


Ситуация усугубляется репутационными и юридическими проблемами самой Anthropic, которая позиционирует себя как общественная корпорация, нацеленная на безопасное развитие ИИ. В 2025 году компания была вынуждена выплатить 1,5 млрд долларов для урегулирования коллективного иска от авторов контента. Кроме того, в отчетах по безопасности отмечалось, что технологии компании уже использовались хакерами в качестве кибероружия.



Оцените статью:
нравится0
не нравится0
00
Сообщить об ошибке!
Поделиться с друзьями:

Добавить «Privet-Rostov.ru» в список ваших источников:
У Вас есть интересная новость, фото или видео? Стали очевидцем происшествия?
Присылайте в наш бот в телеграм @privet_rostovbot или пишите на почту: privet-rostov.ru@mail.ru
Последние новости
Privet-Rostov.ru » В России и мире » Мир погряз в опасности: нейросеть Claude угрожала убийством при попытке выключить его