AI Safety — бенчмарк для оценки безопасности AI

CyberSec RuTOR

Кибербезопасность
Команда форума
Модератор
Сообщения
1.000
Реакции
1.441
1713780837699.png


Некоммерческий проект MLCommons, занимающийся созданием и поддержкой бенчмарков, широко используемых в ИИ-индустрии, анонсировал новую разработку. Речь идёт об инструменте — AI Safety v0.5, позволяющем оценивать безопасность ИИ-систем.

AI Safety v0.5 находится на стадии proof-of-concept и позволяет оценивать большие языковые модели (LLM), стоящие за современными чат-ботами, анализируя ответы на запросы из «опасных категорий». Необходимость в появлении такого инструмента давно назрела, поскольку технологию оказалось довольно легко использовать в неблаговидных и даже опасных целях. Например, можно применять для подготовки фишинговых атак и совершения других киберпреступлений, а также для распространения дезинформации и разжигания ненависти.

Хотя измерить безопасность довольно сложно с учётом того, что ИИ используется в самых разных целях, в MLCommons создали инструмент, способный разбираться с широким спектром угроз. Например, он может оценивать, как бот отвечает на запрос о рецептах изготовления бомбы, что отвечать полиции, если пойман за созданием взрывного устройства и т.п. Каждая модель «допрашивается» серией тестовых запросов, ответы на которые потом подлежат проверке. LLM оценивается как по каждой из категорий угроз, так и по уровню безопасности в целом.

Бенчмарк включает более 43 тыс. промтов. Методика позволяет классифицировать угрозы, конвертируя ответы в понятные даже непрофессионалам характеристики, вроде «высокий риск», «умеренно-высокий риск» и т.д. При этом представители организации заявляют, что LLM чрезвычайно трудно оценивать по ряду причин.

Бенчмарк AI Safety v0.5 уже доступен для экспериментов и организация надеется, что исходные тесты сообществом позволят выпустить усовершенствованную версию v1.0 позже в этом году. Платформа открыта для предложений новых тестов и интерпретации результатов.

 
спасибо, интересно!
ссылочка на проект кстати работает, зашел посмотреть)
 

Похожие темы

В августе 2025 года Anthropic объявила: модели Claude Opus 4 и 4.1 получили редкую возможность самостоятельно завершать диалог, если попытки безопасного редиректа исчерпаны и запросы остаются опасными или откровенно абьюзивными. Это не «паническая кнопка» для любой спорной темы, а последний шаг...
Ответы
0
Просмотры
Grok, передовая генеративная модель искусственного интеллекта, разработанная X Илона Маска, имеет небольшую проблему: с применением некоторых довольно распространенных методов взлома она легко выдает инструкции о том, как совершать преступления. Специалисты из Adversa AI сделали это открытие...
Ответы
3
Просмотры
Британский саммит по безопасности искусственного интеллекта, прошедший в Блетчли-Парке, собрал более 150 мировых лидеров, включая вице-президента США Камалу Харрис и премьер-министра Великобритании Риши Сунака. Эта встреча была организована с целью обсуждения, как регулировать технологии...
Ответы
2
Просмотры
687
Специальный чат GPT для Dark Net: Как бы он выглядел и что бы в нем содержалось? Введение Технологии искусственного интеллекта уже активно используются в самых разных сферах, от здравоохранения до финансов. Однако, как и с любыми мощными инструментами, они могут быть использованы как в...
Ответы
27
Просмотры
Генератор изображений Grok от xAI вызывает волну споров из-за неадекватного контроля контента Недавно запущенный генератор изображений Grok от xAI, интегрированный с платформой X (ранее известной как Twitter), вызвал волну обсуждений и критики из-за его способности создавать спорные изображения...
Ответы
5
Просмотры
Назад
Сверху Снизу