Системы искусственного интеллекта (ИИ) потенциально могут помочь в диагностике рака предстательной железы (РПЖ), облегчая растущую рабочую нагрузку, предотвращая гипердиагностику и уменьшая зависимость от опытных рентгенологов. Авторы исследования сравнили эффективность системы искусственного интеллекта, используемой для выявления клинически значимого рака простаты с помощью МРТ и рентгенологами, использующими систему визуализации простаты (PI-RADS 2.1), а также со стандартом медицинской помощи (диагностики) в многопрофильной рутинной практике.
Методы
Авторы выполнили обучение и внешнюю валидацию системы ИИ (разработанной в рамках международного консорциума) для выявления РПЖ группы риска 2 и выше по ISUP с использованием ретроспективной когорты из 10 207 случаев МРТ-исследований выполненных у 9129 пациентов. Из этих исследований 9207 случаев из 11 центров, расположенных в Нидерландах, использовались для обучения и настройки, а 1000 случаев из 12 центров, расположенных в Нидерландах и Норвегии, использовались для тестирования ИИ. Параллельно авторы содействовали проведению многосчитывающего исследования с участием 62 рентгенологов (45 центров в 20 странах; медианный опыт 7 [IQR 5–10] лет в описании результатов МРТ простаты) с использованием PI-RADS (2.1) на 400 парных МРТ-исследованиях из когорты тестирования.
Первичными конечными точками были чувствительность, специфичность и площадь под кривой рабочей характеристики приемника (AUROC) системы искусственного интеллекта по сравнению с таковыми у всех рентгенологов, использующих PI-RADS (2.1), и по сравнению с историческими радиологическими показаниями, сделанными во время мультидисциплинарной рутинной практики (т.е. стандарт медицинской помощи с использованием истории болезни и консультаций коллег). Патоморфологическое заключение и по крайней мере 3 года (в среднем 5 [IQR 4–6] лет) наблюдения были использованы для установления эталонного стандарта. План статистического анализа был заранее определен с использованием первичной гипотезы не меньшей эффективности (с учетом разницы 0,05) и вторичной гипотезы превосходства по отношению к системе ИИ, если не меньшая эффективность подтверждалась.
Первичными конечными точками были чувствительность, специфичность и площадь под кривой рабочей характеристики приемника (AUROC) системы искусственного интеллекта по сравнению с таковыми у всех рентгенологов, использующих PI-RADS (2.1), и по сравнению с историческими радиологическими показаниями, сделанными во время мультидисциплинарной рутинной практики (т.е. стандарт медицинской помощи с использованием истории болезни и консультаций коллег). Патоморфологическое заключение и по крайней мере 3 года (в среднем 5 [IQR 4–6] лет) наблюдения были использованы для установления эталонного стандарта. План статистического анализа был заранее определен с использованием первичной гипотезы не меньшей эффективности (с учетом разницы 0,05) и вторичной гипотезы превосходства по отношению к системе ИИ, если не меньшая эффективность подтверждалась.
Результаты
Из 10 207 обследований, включенных в исследование с 1 января 2012 г. по 31 декабря 2021 г., в 2440 случаях гистологически подтвержден рак простаты группы риска 2 или выше по ISUP. В подгруппе из 400 тестовых случаев, в которых система ИИ сравнивалась с рентгенологами, участвовавшими в исследовании читателей, система ИИ продемонстрировала статистически превосходящий и не меньший AUROC 0,91 (95% ДИ 0,87–0,94; p < 0,0001) по сравнению с пулом из 62 рентгенологов с AUROC 0,86 (0,83–0,89) с нижней границей двустороннего теста Вальда (95% ДИ) для разницы в AUROC 0,02. При среднем рабочем значении PI-RADS 3 или выше всех считывателей система ИИ обнаружила на 6,8% больше случаев РПЖ группы риска 2 или выше по ISUP при той же специфичности (57,7%, 95% ДИ 51,6–63,3) или продемонстрировала на 50,4% меньше ложноположительных результатов и на 20,0% меньше случаев РПЖ группы риска 1 по ISUP при той же чувствительности (89,4%, 95% ДИ 85,3–92,9). Во всех 1000 тестовых случаях, где система ИИ сравнивалась с показаниями рентгенологов, сделанными во время многопрофильной рутинной практики, не меньшая эффективность не была подтверждена, поскольку система ИИ показала более низкую специфичность (68,9% [95% ДИ 65,3–72,4] против 69,0% [65,5–72,5]) при той же чувствительности (96,1%, 94,0–98,2), что и рабочее значение PI-RADS 3 или выше. Нижняя граница двустороннего теста Вальда (95% ДИ) для разницы в специфичности (−0,04) была больше, чем предел не меньшей эффективности (−0,05), и было достигнуто значение р ниже порога значимости (p < 0,001).
Выводы
Система ИИ в среднем превзошла рентгенологов, использующих PI-RADS (2,1), при обнаружении клинически значимого рака простаты и сопоставима со стандартом лечения. Такая система демонстрирует потенциал в качестве вспомогательного инструмента в первичной диагностической обстановке с несколькими сопутствующими преимуществами для пациентов и рентгенологов. Необходима проспективная валидация для проверки клинической применимости этой системы.