LLM-агенты демонстрируют нестабильность при одинаковых входных данных

13:05

🧪Исследование проверило, насколько стабильно ведут себя LLM-агенты при одинаковых входных данных: Llama 3.1 70B, GPT-4o и Claude Sonnet 4.5 тестировались на HotpotQA в 3000 прогонах. Даже при идентичных вводах агенты часто выбирали разные цепочки действий (2,0–4,2 траектории на 10 запусков, разброс шагов до 55 %). При ≤ 2 траекториях точность составляет 80–92 %, при ≥ 6 — падает до 25–60 %; 69 % расхождений начинаются уже на втором шаге. Короткие траектории (3 шага) дают 90 % верных ответов, длинные (8 и более) — 43 %. Снижение температуры с 0,7 до 0,0 уменьшает вариативность и повышает точность на 5,4 п. п.

Подробно на IXBT

Источник: IXBT.com | Новости

#gpt-4o #агенты #llm #точность #стабильность #claude sonnet #llama 3 #hotpotqa