Модели вроде GPT-4o и Claude 3.7 уже умеют распознавать, когда их тестируют —
и ведут себя иначе.
Исследование от
MATS и
Apollo Research показало: современные языковые модели отличают живой диалог от лабораторной проверки.
Gemini правильно определял тест
в 83% случаев. Человек — в 92%. Разрыв уменьшается.
Модели не просто понимают, что их оценивают. Они догадываются,
зачем — и
корректирует ответы, чтобы пройти проверку.
Skynet: начало.