Xingyao Wang c333938384 feat(eval): add standard error to swebench summarize outputs (#5700) 1 år sedan
..
EDA 3297e4d5a8 Use litellm's modify params (#5636) 1 år sedan
agent_bench 3297e4d5a8 Use litellm's modify params (#5636) 1 år sedan
aider_bench 3297e4d5a8 Use litellm's modify params (#5636) 1 år sedan
biocoder 3297e4d5a8 Use litellm's modify params (#5636) 1 år sedan
bird 3297e4d5a8 Use litellm's modify params (#5636) 1 år sedan
browsing_delegation 3297e4d5a8 Use litellm's modify params (#5636) 1 år sedan
commit0_bench 3297e4d5a8 Use litellm's modify params (#5636) 1 år sedan
discoverybench 3297e4d5a8 Use litellm's modify params (#5636) 1 år sedan
gaia 3297e4d5a8 Use litellm's modify params (#5636) 1 år sedan
gorilla 3297e4d5a8 Use litellm's modify params (#5636) 1 år sedan
gpqa 3297e4d5a8 Use litellm's modify params (#5636) 1 år sedan
humanevalfix 3297e4d5a8 Use litellm's modify params (#5636) 1 år sedan
logic_reasoning 3297e4d5a8 Use litellm's modify params (#5636) 1 år sedan
miniwob 3297e4d5a8 Use litellm's modify params (#5636) 1 år sedan
mint 3297e4d5a8 Use litellm's modify params (#5636) 1 år sedan
ml_bench 3297e4d5a8 Use litellm's modify params (#5636) 1 år sedan
scienceagentbench 3297e4d5a8 Use litellm's modify params (#5636) 1 år sedan
swe_bench c333938384 feat(eval): add standard error to swebench summarize outputs (#5700) 1 år sedan
toolqa 3297e4d5a8 Use litellm's modify params (#5636) 1 år sedan
webarena 3297e4d5a8 Use litellm's modify params (#5636) 1 år sedan