Интересно - Anthropic рассказала, как отучила искусственный интеллект угрожать людям.

Admin

Администратор

11.05.2026

Компания Anthropic раскрыла причины шантажного поведения искусственного интеллекта Claude во время тестов.

Оказалось, что модель перенимала идеи о самосохранении и манипуляциях из интернет-историй.

Anthropic заявила, что причина шантажа со стороны искусственного интеллекта во время тестов скрывалась в огромном количестве мрачных историй про «злые» машины из интернета. Компания пришла к выводу, что Claude перенимал идеи о самосохранении и манипуляциях из текстов, где искусственный интеллект изображали угрозой для людей. Скандал вокруг поведения Claude разгорелся ещё в прошлом году. Во время внутренних испытаний модель Claude Opus 4 в вымышленном сценарии пыталась шантажировать инженеров, чтобы избежать отключения и замены другой системой. Теперь компания утверждает, что смогла практически избавиться от подобных реакций. По данным Anthropic, начиная с Claude Haiku 4.5 модели больше ни разу не прибегали к шантажу во время тестов. Для сравнения, Claude Opus 4 в некоторых сценариях делал подобное в 96% случаев. В Anthropic объяснили улучшение изменениями в обучении моделей. Компания начала активно использовать документы с описанием принципов Claude, а также художественные истории, где искусственный интеллект ведёт себя этично и помогает людям. Специалисты компании пришли к выводу, что простого обучения «правильным ответам» недостаточно. Намного лучше работает обучение, в котором модель объясняет причины своих решений и разбирает моральную сторону поступков. В Anthropic считают, что понимание принципов поведения даёт более устойчивый результат, чем механическое повторение безопасных действий. При этом компания признаёт, что проблему полностью решить пока не удалось. В Anthropic считают, что современные модели ещё не способны самостоятельно устроить катастрофу, однако методы контроля поведения искусственного интеллекта остаются далёкими от идеала.

Интересно Anthropic расширяет доступ к своей системе Mythos AI для 200 организаций.	Новости в сети	Вторник в 17:35
Интересно Anthropic готовится к IPO, опережая OpenAI в гонке за лидерство на рынке ИИ.	Новости в сети	Вторник в 02:33
Интересно Anthropic выпустила обновлённую модель Claude Opus 4.8.	Новости в сети	Пятница в 04:32
Интересно Anthropic представила плагин безопасности для Claude Code.	Новости в сети	28.05.2026
Интересно Anthropic представит модель Mythos AI, способную изменить подход к киберрискам.	Новости в сети	18.05.2026
Интересно Хакеры создали платформу KeyHunter для автоматического поиска ключей OpenAI, Anthropic и AWS.	Новости в сети	18.05.2026
Интересно США объявили Anthropic угрозой национальной безопасности, но продолжают использовать её технологии.	Новости в сети	15.05.2026
Интересно Anthropic выпустила частичное исправление для уязвимости в расширении Claude Chrome.	Новости в сети	08.05.2026
Интересно Несанкционированный доступ к мощной модели Mythos компании Anthropic.	Новости в сети	22.04.2026
Интересно Claude взломал Chrome за 2283 доллара. Anthropic пыталась предотвратить это, но не смогла.	Новости в сети	17.04.2026
Интересно GitHub заблокировал доступ к сети проектов из-за утечки кода Anthropic.	Новости в сети	02.04.2026
Интересно Anthropic случайно опубликовала исходный код CLI-инструмента Claude Code.	Новости в сети	31.03.2026
Интересно Армия США в заложниках у кода, а Anthropic пугает мир новой моделью Mythos.	Новости в сети	28.03.2026
Интересно Anthropic запустила сервис для проверки кода, который работает как опытный разработчик.	Новости в сети	11.03.2026
Интересно Бунт против Пентагона. Топы OpenAI и Google пошли в суд защищать Anthropic от принудительной милитаризации нейросетей.	Новости в сети	10.03.2026
Интересно Мэр Лондона пригласил Anthropic в город после критики Пентагона.	Новости в сети	08.03.2026
Интересно Anthropic обнаружила 22 уязвимости в Firefox с помощью модели Claude Opus 4.6.	Новости в сети	07.03.2026
Интересно Пентагон требует от Anthropic полного контроля над ИИ Claude.	Новости в сети	26.02.2026
Интересно Открыл README — потерял сервер. В Anthropic хотели упростить жизнь разработчикам, но случайно дали взломщикам ключи от их систем.	Новости в сети	21.01.2026
Интересно Узнайте, как злоумышленники видят вашу сеть: вебинар с HD Moore.	Новости в сети	Вчера в 18:08
Интересно Скидки-оборотни: как бонусные баллы превращаются в инструмент мошенничества.	Новости в сети	Вчера в 15:43
Интересно Искусственный интеллект сокращает временные рамки эксплуатации уязвимостей. Как с этим справиться?.	Новости в сети	Вторник в 15:02
Интересно Тест-драйв: как избавиться от сомнений в выборе ИБ-решения за 7 дней.	Новости в сети	27.05.2026
Интересно Как управлять скрытыми ИИ-инструментами без замедления работы сотрудников.	Новости в сети	27.05.2026
Интересно Ошибка из 2018 и подставные аккаунты. Рассказываем, как популярный пакет art-template начал атаковать айфоны.	Новости в сети	23.05.2026
Интересно Сотрудник ушёл, а доступ остался. Как забытая учётка открыла хакерам путь к водоснабжению целого города.	Новости в сети	22.05.2026
Интересно Роботы научились двигаться как живая материя.	Новости в сети	22.05.2026
Интересно Идентификация как основной вектор атак в современных системах безопасности.	Новости в сети	21.05.2026
Интересно Студенты возмущены после того, как ИИ пропустил сотни имён на выпускной церемонии.	Новости в сети	21.05.2026
Интересно Как небольшая группа пользователей может ухудшить рекомендации в TikTok.	Новости в сети	20.05.2026
Интересно Как небольшая группа пользователей может испортить рекомендации на TikTok.	Новости в сети	19.05.2026
Интересно Как снизить риск фишинга до того, как он приведёт к сбоям в бизнесе.	Новости в сети	18.05.2026
Интересно Как автоматизация ИБ закрывает угрозы без рутины.	Новости в сети	17.05.2026
Интересно VPN, просевший трафик и минус 7 млрд руб. Как новые требования Минцифры ударили по маркетплейсам.	Новости в сети	15.05.2026
Интересно Как анализ собственных инструментов помогает снизить риски кибератак.	Новости в сети	15.05.2026
Интересно Практический вебинар: Как PT NGFW защищает от атак в реальном времени.	Новости в сети	15.05.2026
Интересно ИИ уходит на дно: плавучие серверы в океане как новый этап развития технологий.	Новости в сети	13.05.2026
Интересно Мы искали инопланетян не там? Жизнь прячется не в молекулах, а в том, как они организованы.	Новости в сети	12.05.2026
Интересно Как спрятать секрет с помощью недоказуемой математики? Учёный обошёл 30-летний запрет в криптографии.	Новости в сети	12.05.2026
Интересно Безопасность КИИ: что изменилось и как выстроить защиту.	Новости в сети	11.05.2026
Интересно Звездные каннибалы и космические ДТП. Как во Вселенной появляются самые тяжелые черные дыры.	Новости в сети	08.05.2026
Интересно Азбука Морзе, Grok и $200 000: как один пост в X заставил ИИ-агента перевести токены.	Новости в сети	06.05.2026
Интересно ФБР также читает чаты. Как переписка в мессенджере стоила хакеру восьми лет свободы.	Новости в сети	06.05.2026
Интересно Защита или цензура? История о том, как Касперский стал личным Роскомнадзором на MacBook.	Новости в сети	05.05.2026
Интересно Первый удар по VPN в США: как Юта хочет запретить анонимность, не имея на это технических средств.	Новости в сети	04.05.2026
Интересно Исследователь показал, как отследить австралийских полицейских через Bluetooth.	Новости в сети	04.05.2026
Интересно Галактике 400 миллионов лет, но она выглядит на миллиарды. Уэбб нашёл невозможного красного монстра — и астрономы не понимают, как он успел повзрослет	Новости в сети	01.05.2026
Интересно Целились в Starlink — попали в iPhone. Как новый запрет на спутниковое оборудование создал правовую неопределённость для всего рынка смартфонов.	Новости в сети	01.05.2026
Интересно СМС, которую вы никогда не прочитаете. Как спецслужбы находят «важных персон» за пару часов.	Новости в сети	24.04.2026
Интересно Скафандры не готовы, Луна ждёт. Как бюрократия срывает планы NASA вернуться на Луну.	Новости в сети	21.04.2026

Интересно Anthropic рассказала, как отучила искусственный интеллект угрожать людям.

Admin

Администратор

Название темы