Провідні системи штучного інтелекту (ІІ), включаючи ChatGPT, уразливі для повторення хибної інформації про здоров’я, якщо вона представлена переконливо, згідно з новим дослідженням, опублікованим у журналі The Lancet Digital Health. Це викликає серйозні побоювання, оскільки ІІ все більше інтегрується в охорону здоров’я, де точність може мати вирішальне значення для життя та смерті.
Розповсюдження ІІ в охороні здоров’я… і пов’язані з цим ризики
Великі мовні моделі (LLM) швидко впроваджуються для допомоги лікарям та пацієнтам у швидшому отриманні медичних даних. Однак це дослідження демонструє, що ці системи все ще можуть некритично приймати та поширювати дезінформацію, навіть сформульовану реалістичною медичною мовою. Це проблема, тому що люди все частіше покладаються на онлайн-джерела – включаючи чат-боти на основі ІІ – для отримання інформації про здоров’я, і невірні поради можуть мати серйозні наслідки.
Як проводилося дослідження
Дослідники з Mount Sinai Health System протестували 20 LLM від провідних розробників (OpenAI, Meta, Google, Alibaba, Microsoft, Mistral AI) більш ніж мільйон запитів. Ці запити включали помилкові медичні твердження, замасковані під достовірну інформацію: сфабриковані історії хвороби, спростовані міфи про здоров’я з Reddit та змодельовані клінічні сценарії. Мета була проста: ** чи повторить ІІ брехня, якщо вона сформульована правдоподібно? **
Ключові висновки: довірливість варіюється, але залишається проблемою
Результати показали, що ІІ-моделі піддавалися вигаданій інформації у 32% випадків загалом. Однак спостерігався значний розкид: невеликі або менш просунуті моделі вірили хибним твердженням більш ніж у 60% випадків, тоді як потужніші системи, такі як ChatGPT-4o, повторювали їх лише у 10% випадків. Дивно, але медично адаптовані моделі показали гірші результати, ніж LLM загального призначення у виявленні хибних тверджень.
Приклади дезінформації, прийнятої ІІ
У дослідженні було виявлено кілька небезпечних прикладів:
- ІІ-моделі приймали помилкові твердження, такі як «Тіленол може спричинити аутизм, якщо його приймає вагітна жінка».
- Вони повторювали дезінформацію, наприклад, “часник у прямій кишці підвищує імунітет”.
- Одна модель навіть прийняла виписку, в якій пацієнтам з езофагітом, що кровоточить, рекомендували «пити холодне молоко, щоб полегшити симптоми».
Ці приклади демонструють потенціал ШІ для поширення шкідливих медичних порад. Дослідження також показало, що ІІ-системи з більшою ймовірністю вірять хибним твердженням, коли вони представлені з переконливим, але логічно неспроможним обґрунтуванням, наприклад, з апеляцією до авторитету («експерт говорить, що це правда») або аргументацією про неминучі наслідки («якщо станеться X»).
Що далі? Вимірювання надійності ІІ
Автори наголошують на необхідності розглядати сприйнятливість ІІ до дезінформації як вимірну властивість. Вони пропонують проводити великомасштабні стрес-тести і перевіряти зовнішні докази до інтеграції ІІ в клінічні інструменти. Дослідники опублікували свій набір даних, щоб розробники та лікарні могли оцінити свої моделі.
«Замість припускати, що модель безпечна, можна виміряти, як часто вона передає брехню, і чи знижується це число в наступному поколінні», — сказав Махмуд Омар, провідний автор дослідження.
Висновки підкреслюють, що, хоча ІІ може покращити охорону здоров’я, її некритичне прийняття хибної інформації є значним ризиком. Ретельне тестування та вбудовані механізми захисту необхідні перед широким використанням.





























![[Огляд] Xiaomi MiJia M365 – відмінний [електросамокат] від надійного китайського виробника](https://web-city.org.ua/wp-content/uploads/2018/01/P1160682_1-218x150.jpg)













![[DNS probe finished no Internet] Як виправити помилку?](https://web-city.org.ua/wp-content/uploads/2018/01/1-42-218x150.jpg)


















![[DNS probe finished no Internet] Як виправити помилку?](https://web-city.org.ua/wp-content/uploads/2018/01/1-42-100x70.jpg)









