Жодна з популярних мовних моделей штучного інтелекту, зокрема ChatGPT, не змогла скласти тестування за українськими стандартами зовнішнього незалежного оцінювання (ЗНО). Інформує Proslav з посиланням на Gazeta.ua.

До такого висновку дійшли українські науковці, які створили перший в Україні мультимодальний бенчмарк під назвою ZNO-Vision.
Мета дослідження – оцінити, наскільки ефективно сучасні ШІ працюють з українською мовою, освітнім контентом і національно-культурним контекстом. Результати опублікували на науковій платформі arXiv.
У тестуванні взяли участь такі мовні моделі, як Gemini Pro, Claude 3.5, Qwen2-VL, GPT-4o, LLaMA, Paligemma та інші. Жодна з них не змогла подолати поріг у 70% правильних відповідей – мінімальний результат для складання ЗНО.
Найкращий показник продемонструвала модель Gemini Pro – 67,5% правильних відповідей. Далі – Claude 3.5 (64,3%), Qwen2-VL (51,2%). Модель GPT-4o змогла дати правильну відповідь лише у 47% випадків. Для порівняння, «випадковий» вибір варіантів відповіді забезпечує в середньому 22% правильних результатів.
Бенчмарк ZNO-Vision охоплює понад 4 тисячі запитань, сформованих на основі реальних тестів ЗНО з математики, фізики, хімії, біології, історії України, української мови та літератури. Частина завдань вимагає аналізу не лише текстів, а й візуальної інформації: зображень, схем та графіків.
Тим часом у Переяславській громаді двоє випускників склали НМТ на 200 балів. Як готувалися до іспиту та де планують навчатися – розповідаємо за посиланням.