Оценка эффективности искусственного интеллекта нейросети ChatGPT для распространения актуальной и читаемой медицинской информации в урологии

Актуальность

В современном мире в Интернет является вместилищем огромного количества информации, в том числе медицинской, однако поиск ее может быть трудным, даже для специалиста, которому приходится выделять из массива данных актуальную информацию. Поисковая система Google ежедневно обрабатывает около 8,5 миллиардов запросов. Большинство людей, имеющих доступ к сети Интернет периодически осуществляют поиск медицинской информации, однако, не будучи специалистами, они не в состоянии оценить достоверность полученных данных. С развитием искусственного интеллекта, основанного на нейронных сетях, особенно ChatGPT (Разработчик OpenAI, ноябрь 2022 г), ситуация с адекватностью получаемых данных при запросах может значимо измениться, к началу 2023 г в ChatGPT в день отправлялось около 13 миллионов запросов. Ранее уже была оценена пригодность использования ChatGPT для выработки рекомендаций по профилактике сердечно-сосудистых заболеваний, но на сегодняшний день ни одно исследование не оценило способность ChatGPT точно и всесторонне отвечать на вопросы, касающиеся симптоматики и лечения. Ни одно исследование не оценило полезность ChatGPT в урологии, несмотря на то, что в исследованиях сообщалось о частом использовании его конкурента Google для задания вопросов, связанных с урологией.

Цель исследования:

Оценить качество выходных данных, читаемости и пригодности для ответов нейросети ChatGPT на запросы, связанные с урологией.
Сравнить эти показатели в запросах по 3 категориям заболеваний: доброкачественные, онкологические и неотложные урологические состояния.
Сравнить эти показатели в рамках соответствующих запросов, связанных с симптомами и лечением.

Материалы и методы:

На основе анализа Google Trends было отобрано 18 вопросов пациентов, которые были использованы в качестве входных данных в ChatGPT. Оценивались три категории вопросов: онкологические заболевания, доброкачественные и неотложные состояния. Вопросы в каждой категории касались либо лечения, либо вопросов, связанных с признаками/симптомами. Три сертифицированных уролога, владеющих английским языком, независимо друг от друга оценили пригодность результатов ChatGPT для консультирования пациентов, используя точность, полноту и ясность в качестве показателей целесообразности. Читаемость оценивалась с использованием формул Flesch Reading Ease и Flesh-Kincaid Reading Grade Level. Дополнительные меры были созданы на основе проверенных инструментов и оценены тремя независимыми рецензентами.

Полученные результаты:

14 из 18 (77,8%) ответов были признаны подходящими, при этом ясность ответа получила наибольшее количество баллов 4 и 5 (P = 0,01). Не было значительной разницы в адекватности ответов между лечением и симптомами или между различными категориями состояний. Наиболее распространенной причиной низких оценок урологов были ответы, в которых не хватало информации — иногда важной информации. Средний балл (СБ) легкости чтения по Флешу составил 35,5 (СБ=10,2), а средний балл по шкале Flesh-Kincaid за уровень чтения составил 13,5 (1,74). Дополнительные оценки качества не показали существенных различий между различными категориями состояний.

Выводы:

Несмотря на впечатляющие возможности, процессоры искусственных нейросетей как источники медицинской информации все еще имеют ограничения. Однако, не смотря на ограниченность информации, такой результат можно считать качественным скачком. Возможно скоро искусственные нейросети смогут составить конкуренцию дипломированным специалистам.

Подробнее