Новые сообщения

НАЛИЧНЫЕ | ДОСТАВКА | ЧИСТКА 1.5% | КЛАД - MasterBIT

Натур Дом — Работа 1500 за клад | Акция 2+1, 5+1 | Розыгрыш BMW и iPhone17. | Раздача ВЕЙП HHC 40%

Ganesha. Выдаем вейпы под реализацию. Зарабатывай сразу без лишних затрат.

Гостевой просмотр ограничен

У вас осталось ограниченное количество просмотров страниц
Осталось 6 гостевых просмотров
Зарегистрируйтесь сейчас, чтобы снять это ограничение
Вы уже являетесь участником? Нажмите здесь, чтобы войти в систему

JavaScript отключён. Чтобы полноценно использовать наш сайт, включите JavaScript в своём браузере.

AI Safety — бенчмарк для оценки безопасности AI

Автор темы CyberSec RuTOR
Дата начала 22 Апр 2024

CyberSec RuTOR

Кибербезопасность

Команда форума

Модератор

22 Апр 2024

#1

Некоммерческий проект MLCommons, занимающийся созданием и поддержкой бенчмарков, широко используемых в ИИ-индустрии, анонсировал новую разработку. Речь идёт об инструменте — AI Safety v0.5, позволяющем оценивать безопасность ИИ-систем.

AI Safety v0.5 находится на стадии proof-of-concept и позволяет оценивать большие языковые модели (LLM), стоящие за современными чат-ботами, анализируя ответы на запросы из «опасных категорий». Необходимость в появлении такого инструмента давно назрела, поскольку технологию оказалось довольно легко использовать в неблаговидных и даже опасных целях. Например, можно применять для подготовки фишинговых атак и совершения других киберпреступлений, а также для распространения дезинформации и разжигания ненависти.

Хотя измерить безопасность довольно сложно с учётом того, что ИИ используется в самых разных целях, в MLCommons создали инструмент, способный разбираться с широким спектром угроз. Например, он может оценивать, как бот отвечает на запрос о рецептах изготовления бомбы, что отвечать полиции, если пойман за созданием взрывного устройства и т.п. Каждая модель «допрашивается» серией тестовых запросов, ответы на которые потом подлежат проверке. LLM оценивается как по каждой из категорий угроз, так и по уровню безопасности в целом.

Бенчмарк включает более 43 тыс. промтов. Методика позволяет классифицировать угрозы, конвертируя ответы в понятные даже непрофессионалам характеристики, вроде «высокий риск», «умеренно-высокий риск» и т.д. При этом представители организации заявляют, что LLM чрезвычайно трудно оценивать по ряду причин.

Бенчмарк AI Safety v0.5 уже доступен для экспериментов и организация надеется, что исходные тесты сообществом позволят выпустить усовершенствованную версию v1.0 позже в этом году. Платформа открыта для предложений новых тестов и интерпретации результатов.

Пожалуйста Войдите или Зарегистрируйтесь чтобы видеть скрытые ссылки.

mastermaind

Юзер

30 Авг 2024

#2

спасибо, интересно!
ссылочка на проект кстати работает, зашел посмотреть)

Войдите или зарегистрируйтесь для ответа.

Похожие темы

Право ИИ остановить диалог: зачем Claude закрывает чаты? И кто иначе решил задачу

В августе 2025 года Anthropic объявила: модели Claude Opus 4 и 4.1 получили редкую возможность самостоятельно завершать диалог, если попытки безопасного редиректа исчерпаны и запросы остаются опасными или откровенно абьюзивными. Это не «паническая кнопка» для любой спорной темы, а последний шаг...

Ответы: 0

Просмотры: 1К

28 Сен 2025

Aintelligence

ИИ Грока из X великолепен — если вы хотите знать, как подключить машину, приготовить наркотики или что-то еще хуже.

Grok, передовая генеративная модель искусственного интеллекта, разработанная X Илона Маска, имеет небольшую проблему: с применением некоторых довольно распространенных методов взлома она легко выдает инструкции о том, как совершать преступления. Специалисты из Adversa AI сделали это открытие...

Ответы: 3

Просмотры: 1К

19 Авг 2024

DrunkenClam

ИИ нуждается в правилах, но кто их создаст?

Британский саммит по безопасности искусственного интеллекта, прошедший в Блетчли-Парке, собрал более 150 мировых лидеров, включая вице-президента США Камалу Харрис и премьер-министра Великобритании Риши Сунака. Эта встреча была организована с целью обсуждения, как регулировать технологии...

Ответы: 2

Просмотры: 687

15 Май 2025

Aintelligence

Специальный чат GPT для Dark Net: Как бы он выглядел и что бы в нем содержалось?GIVENCHY

Специальный чат GPT для Dark Net: Как бы он выглядел и что бы в нем содержалось? Введение Технологии искусственного интеллекта уже активно используются в самых разных сферах, от здравоохранения до финансов. Однако, как и с любыми мощными инструментами, они могут быть использованы как в...

2

Ответы: 27

Просмотры: 4К

Понедельник в 04:06

Volodya897

V

Новости ИИ: Скандальный Grok 2 / Наушники с ИИ / Прорыв для слабослышащих

Генератор изображений Grok от xAI вызывает волну споров из-за неадекватного контроля контента Недавно запущенный генератор изображений Grok от xAI, интегрированный с платформой X (ранее известной как Twitter), вызвал волну обсуждений и критики из-за его способности создавать спорные изображения...

Ответы: 5

Просмотры: 1К

16 Май 2025

-ERETIK-

Сверху Снизу