Корзина

Итого:

Искусственный интеллект и Покемоны: Заговор или реальность?

Разбираемся, почему сравнение ИИ в Pokémon может быть нечестным и как это отражает проблемы бенчмаркинга в целом.

Искусственный интеллект и Покемоны: Заговор или реальность?

Казалось бы, что может быть невиннее, чем сравнение искусственного интеллекта по его способностям в Pokémon? Однако, как выясняется, даже здесь не обошлось без манипуляций. Недавний виральный пост в X утверждал, что последняя модель Gemini от Google превзошла флагманскую модель Claude от Anthropic в оригинальной трилогии Pokémon. Но, как обычно, дьявол кроется в деталях.

Оказывается, у Gemini было нечестное преимущество — кастомная миникарта, которая помогала модели идентифицировать ‘тайлы’ в игре, такие как деревья, которые можно срубить. Это значительно упрощало задачу, уменьшая необходимость анализа скриншотов перед принятием решений. И вот мы снова сталкиваемся с классической проблемой: насколько можно доверять бенчмаркам, если условия для каждого участника разные?

Этот случай с Pokémon — лишь верхушка айсберга. Компании постоянно находят способы ‘оптимизировать’ свои модели под конкретные тесты, что делает сравнение моделей между собой всё более сложным и менее прозрачным. Так что, если вы думали, что в мире ИИ всё просто и понятно, у меня для вас плохие новости: заговор молчания вокруг реальных возможностей моделей только усиливается.

Вверх