Новости по #стабильность

LLM-агенты демонстрируют нестабильность при одинаковых входных данных

13:05

🧪Исследование проверило, насколько стабильно ведут себя LLM-агенты при одинаковых входных данных: Llama 3.1 70B, GPT-4o и Claude Sonnet 4.5 тестировались на HotpotQA в 3000 прогонах. Даже при идентичных вводах агенты часто выбирали разные цепочки действий (2,0–4,2 траектории на 10 запусков, разброс шагов до 55 %). При ≤ 2 траект...