Искусственный интеллект научился признавать ошибки: новый метод MIT снижает галлюцинации на 90% -

Исследователи из Массачусетского технологического института (MIT) совершили прорыв в области искусственного интеллекта, разработав метод обучения, который позволяет нейросетям распознавать и сообщать о собственных ошибках. Эта инновация решает одну из самых острых проблем современных языковых моделей — склонность к галлюцинациям, когда ИИ уверенно выдает ложную или неточную информацию.

Традиционные алгоритмы обучения поощряют модели исключительно за правильный конечный результат. Это приводит к тому, что нейросеть становится избыточно уверенной даже при совершении ошибок, поскольку система не учитывает расхождение между заявленной уверенностью и фактической точностью ответа.

Новый подход, предложенный учеными MIT, кардинально меняет эту парадигму. Вместо того чтобы игнорировать сомнения, система штрафует модель за разрыв между ее самооценкой и реальной производительностью. В ходе экспериментов ошибка калибровки уверенности снизилась на 90%. Это означает, что ИИ теперь гораздо точнее оценивает, когда он действительно знает ответ, а когда — нет.

Исследователи установили, что стандартное обучение фактически усиливает самонадеянность искусственного интеллекта, заставляя его выдавать ложную информацию с высокой степенью уверенности. Предложенный метод устраняет этот дефект, обучая модель распознавать ситуации, в которых она не обладает достаточными данными для точного ответа.

Практическое значение разработки огромно. В таких областях, как медицина, юриспруденция, финансы и образование, где последствия ошибок ИИ могут быть критическими, способность модели сказать «я не знаю» или «я в этом не уверен» становится не просто полезной функцией, а необходимостью. Это повышает доверие к искусственному интеллекту и снижает риски его применения.

Таким образом, новый метод обучения MIT открывает путь к созданию более ответственных и надежных систем ИИ, способных не только давать правильные ответы, но и честно признавать свои ограничения.

Это интересно