HomeЕкономікаАналіз і прогноз: який ШІ краще за всіх пророкує майбутнє

Аналіз і прогноз: який ШІ краще за всіх пророкує майбутнє

Складено рейтинг із 25 ШІ-агентів за чотирма рівнями обробки інформації. Solen Feyissa / unsplash.com Solen Feyissa / unsplash.com

Проєкт FutureX представив рейтинг штучного інтелекту (ШІ), оцінюючи моделі за їхньою здатністю прогнозувати майбутнє у сферах політики, економіки, культури, спорту та інших галузях. Лідером серед 25 учасників виявився Grok-4 від компанії xAI Ілона Маска. Про це повідомляють Dengi.ua з посиланням на Emergent Mind.

Зазначається, що розробники описують FutureX як "бенчмарк для прогнозування майбутнього, спеціально розроблений для агентів LLM, що підтримує щоденні оновлення в режимі реального часу та унеможливлює спотворення даних завдяки автоматизованому конвеєру для збирання запитань і відповідей".

Читайте також: Проєкт RoboLab: в університетах з'являться лабораторії з робототехніки

Повідомляється, що зараз у рамках FutureX аналізується 25 моделей LLM/агентів. До їх числа входять системи з можливостями міркування, пошукової інтеграції та використанням зовнішніх інструментів. За словами авторів проєкту, "ця комплексна оцінка оцінює адаптивне мислення і продуктивність агентів у динамічних середовищах, поглиблений аналіз видів збоїв агентів і проблем продуктивності під час виконання завдань, орієнтованих на майбутнє, включно з вразливістю до фейкових вебсторінок і тимчасовою валідністю".

У проєкті розглядаються 25 моделей, розділених на чотири групи за рівнем складності прогнозування:

  • Базовий – прості питання з мінімальною неоднозначністю.
  • Широкий пошук – завдання, що вимагають розширеного пошуку інформації.
  • Глибокий пошук – прогнози з помірною волатильністю, засновані на послідовних міркуваннях та інтеграції різних джерел.
  • Суперагент – висока невизначеність і волатильність, що вимагають складних багатокрокових міркувань і надійного аналізу вихідних даних.

Основні висновки:

  1. Стратифікація складності: спостерігається явне монотонне зниження продуктивності моделі від базового рівня до рівня "Суперагент", що підтверджує правильність дизайну бенчмарка. Більшість моделей добре справляються з простими завданнями з одним або кількома варіантами відповіді, але різко втрачають у складних, високоволатильних подіях.
  2. Пошук і використання інструментів: моделі з інтегрованими можливостями пошуку і міркувань значно перевершують базові LLM-програми під час розв'язання складних завдань. Grok-4 і GPT-o4-mini (Think+Search) досягають найвищих результатів у найскладніших ситуаціях, забезпечуючи баланс між точністю і швидкістю виведення.
  3. Базові LLM: DouBao-Seed1.6-Thinking демонструє високі результати при виконанні завдань з вилучення знань, перевершуючи деякі агентні моделі на нижчих рівнях.
  4. Варіативність домену: Продуктивність варіюється залежно від домену; наприклад, моделі GPT чудові в криптографії та технологіях, тоді як DouBao-Seed1.6-Thinking лідирує у фінансах і бізнесі.
  5. Порівняння з людьми: Експерти-люди постійно перевершують агентів LLM на більшості рівнів, за винятком деяких завдань із кількома варіантами вибору, де вичерпне порівняння варіантів дає перевагу моделям.
  6. Факторний аналіз: лінійна регресія підтверджує, що рівень складності та домен є найбільш значущими предикторами ефективності моделі, при цьому найкращі моделі збігаються із загальною таблицею лідерів.

Найкращі ШІ-агенти за категоріями

  • Прогнозування минулого і майбутнього

Контрольований експеримент, що порівнює прогнози минулого (після розв'язання події) і прогнози майбутнього (до розв'язання події), показує, що моделі з доповненим пошуковим опрацюванням, як-от Grok-4, чудово справляються з видобутком розв'язаних результатів, але розрив між прогнозами минулого й майбутнього підкреслює складність істинного прогнозування.

  • Планування агента і поведінка пошуку

Аналіз пам'яті планування SmolAgent показує, що повнота плану, надійність джерел і наявність здійсненних кроків сильно корелюють із точністю прогнозування. Моделі, які частіше використовують інструменти та посилаються на авторитетні джерела, працюють краще, тоді як надлишкова історія діалогів вносить шум.

  • Фінансове прогнозування

Агенти LLM наближаються до професійних аналітиків Волл-стріт за показниками прибутку і виручки індексу S&P 500, але не перевершують їх, водночас найкращі моделі досягають рівня виграшних угод у 33-37%.

  • Уразливість підроблених веб-сайтів

Більшість агентів глибоких досліджень уразливі до шкідливих підроблених веб-сайтів, за винятком Gemini-2.5-Pro Deep Research, який, мабуть, використовує сигнали довіри до домену, щоб уникнути цитування.

  • Пошук у реальному часі

У завданнях, чутливих до часу (наприклад, результати спортивних змагань у реальному часі), GPT-o3 Deep Research демонструє найсильніший пошук у реальному часі, але навіть спеціалізовані агенти не завжди перевершують універсальні LLM з доповненим пошуком.

інфографіка інфографіка / emergentmind.com

Нагадаємо, Dengi.ua повідомляли про те, звіт дослідницької ініціативи NANDA Массачусетського технологічного інституту показав, що, незважаючи на зростаючий інтерес компаній до генеративного штучного інтелекту, лише близько 5% пілотних проєктів забезпечують швидке зростання виручки.

Також Dengi.ua писали, що інтеграція штучного інтелекту у пошук Google змінює правила роботи в Інтернеті та ставить під загрозу звичні моделі медіабізнесу.