Xingyao Wang c333938384 feat(eval): add standard error to swebench summarize outputs (#5700) 1 год назад
..
EDA 3297e4d5a8 Use litellm's modify params (#5636) 1 год назад
agent_bench 3297e4d5a8 Use litellm's modify params (#5636) 1 год назад
aider_bench 3297e4d5a8 Use litellm's modify params (#5636) 1 год назад
biocoder 3297e4d5a8 Use litellm's modify params (#5636) 1 год назад
bird 3297e4d5a8 Use litellm's modify params (#5636) 1 год назад
browsing_delegation 3297e4d5a8 Use litellm's modify params (#5636) 1 год назад
commit0_bench 3297e4d5a8 Use litellm's modify params (#5636) 1 год назад
discoverybench 3297e4d5a8 Use litellm's modify params (#5636) 1 год назад
gaia 3297e4d5a8 Use litellm's modify params (#5636) 1 год назад
gorilla 3297e4d5a8 Use litellm's modify params (#5636) 1 год назад
gpqa 3297e4d5a8 Use litellm's modify params (#5636) 1 год назад
humanevalfix 3297e4d5a8 Use litellm's modify params (#5636) 1 год назад
logic_reasoning 3297e4d5a8 Use litellm's modify params (#5636) 1 год назад
miniwob 3297e4d5a8 Use litellm's modify params (#5636) 1 год назад
mint 3297e4d5a8 Use litellm's modify params (#5636) 1 год назад
ml_bench 3297e4d5a8 Use litellm's modify params (#5636) 1 год назад
scienceagentbench 3297e4d5a8 Use litellm's modify params (#5636) 1 год назад
swe_bench c333938384 feat(eval): add standard error to swebench summarize outputs (#5700) 1 год назад
toolqa 3297e4d5a8 Use litellm's modify params (#5636) 1 год назад
webarena 3297e4d5a8 Use litellm's modify params (#5636) 1 год назад