Проект новой Технической спецификации ISO DTS 24971-2.2 (Medical devices – Guidance on the application of ISO 14971 – Part 2: Machine learning in artificial intelligence), которая является руководством по применению ISO 14971 для медицинских изделий, с технологией ИИ, использующих машинное обучение (MLMD – Machine Learning-Enabled Medical Devices).
Самое главное: ISO DTS 24971-2.2 не вводит новых требований к установленному в ISO 14971 процессу менеджменту риска, а разъясняет, как данный процесс следует применять к рискам, специфичным для ML. Это прямой ответ на вызовы "черного ящика ИИ", обучения на данных, автономности и дрейфа моделей.
Основная концепция
1. Почему это нужно? В документе выделены три ключевых отличия ML-изделий от традиционных:
- Обучение (Training): изделие учится на данных, а не просто выполняет заранее заданные инструкции.
- Уровень автономности (Level of autonomy): может генерировать, выбирать и выполнять действия без участия пользователя.
- Объяснимость (Explainability): проблема "черного ящика" — сложно понять, почему модель выдала именно такой результат
2. Это надстройка, а не замена: Документ ссылается на ISO 14971 и базовый ISO/TR 24971. Его структура полностью повторяет ISO 14971, давая пояснения к каждому пункту в контексте ML.
3. Смещение\систематическая ошибка (Bias) как центральная опасность: целый раздел (Приложение A) посвящен этому явлению. Bias определяется как систематическая ошибка в обращении с определенными группами пациентов. Смещение рассматривается как опасность (hazard), которую нужно идентифицировать, оценивать возможную опасную ситуацию, а связанный риск подвергать управлению. Это принципиально важно, так как делает управление смещением частью процесса менеджмента риска.
Ключевые аспекты по разделам (новое и важное для MLMD)
1. Компетентность персонала (п. 4.3)
ISO DTS 24971-2.2 требует расширенного состава команды. Помимо обычных специалистов, нужны люди с пониманием:
- Практик машинного обучения (good machine learning practices).
- Менеджмента данных (data management), включая целостность, качество данных и их репрезентативность.
- Лечебно-диагностического процесса в клинике, чтобы оценивать значимость результатов MLMD на практике.
2. План менеджмента риска и пост-производство (п. 4.4 и Раздел 10)
- Мониторинг и обновления: план должен включать методы мониторинга функциональности и критерии для инициации дообучения (retraining) модели или отката на предыдущую версию.
- Дрейф модели: Введено понятие "дрейф" – постепенное ухудшение функциональных характеристик модели со временем из-за изменения данных или клинической практики. Это важнейший риск, который нужно отслеживать на этапе пост-производства.
- Варианты действий: Пост-производственные действия включают "обновление концепции" (пересмотр алгоритма) и "дообучение" (обновление параметров модели на новых данных), включая системы с непрерывным обучением.
3. Анализ риска (Раздел 5)
Оценка вероятности: для ML-специфичных рисков (например, сложность объяснения) вероятность часто невозможно оценить количественно. В таких случаях следует оценивать риск, основываясь исключительно на тяжести возможного вреда.
Новые вопросы для выявления опасностей: Приложение C содержит подробный перечень вопросов, специфичных для MLMD, например:
- Как используются данные для обучения?
- Как обучающий процесс влияет на результаты?
- Присутствует ли смещение (bias) в данных?
- Какой уровень автономности у изделия?
4. Управление риском (п. 7.1)
Иерархия мер по управлению риском: приоритеты остаются теми же (конструкция → защитные меры → информация), но вводятся дополнительные ML-примеры.
Внутренне безопасная конструкция: обеспечение качества данных, корректный выбор алгоритма, проверка того, что обучающие и тестовые данные разделены.
Защитные меры: человеческий надзор с возможностью вмешательства, перекрестная проверка результатов, сигналы тревоги.
Верификация результативности: можно использовать синтетические данные для тестирования, например, для проверки риска демографического смещения (изменяем возраст/пол в записи пациента и сравниваем результаты)
5. Оценка совокупного остаточного риска (п. 8.1)
Новые аспекты, которые необходимо учитывать:
- Уровень автономности: чем он выше, тем меньше ситуационная осведомленность пользователя, и тем сложнее ему вмешаться.
- Проблема «тихого сбоя» («тихой ошибки»): MLMD может давать неверный результат, не подавая явных признаков ошибки ("fail silently").
- Степень новизны: новые технологии могут кардинально менять стандарты лечения, что само по себе влияет на оценку рисков.
6. Раскрытие информации о остаточных рисках (п. 8.2)
Требуется специальное раскрытие информации об объяснимости (explainability) и прозрачности (transparency). Пользователь должен понимать, какие факторы влияют на результат работы MLMD, и какие ограничения у модели есть (например, для каких групп пациентов она менее точна).
Ключевые Приложения (Annexes) ISO DTS 24971-2.2
Annex A (О смещении/Bias): это практически мини-руководство по видам и источникам смещения. Описаны: смещение выбора, интерпретации, подтверждения, смещение прокси-переменных и другие. Этот раздел превращает абстрактное понятие bias в конкретную опасность, которую можно анализировать.
Annex B (Примеры опасностей): содержит конкретные примеры, связывающие характеристики MLMD (качество данных, недообучение, переобучение) с последовательностями событий, опасными ситуациями, вредом и мерами по управлению. Это практический шаблон для анализа.
Annex C (Вопросы по идентификации опасностей): расширяет список вопросов из основного TR 24971, фокусируясь на использовании MLMD, разработке и пост-производственной деятельности.
Annex D (Уровни автономности): предлагает классификацию уровней автономности (от 0 до 5), что помогает упорядочить анализ рисков в зависимости от степени вмешательства пользователя.