Boxuan Li b1719bb3db Add TheAgentCompany evaluation harness (#5731) 1 vuosi sitten
..
EDA 3297e4d5a8 Use litellm's modify params (#5636) 1 vuosi sitten
agent_bench 3297e4d5a8 Use litellm's modify params (#5636) 1 vuosi sitten
aider_bench 3297e4d5a8 Use litellm's modify params (#5636) 1 vuosi sitten
biocoder 3297e4d5a8 Use litellm's modify params (#5636) 1 vuosi sitten
bird 3297e4d5a8 Use litellm's modify params (#5636) 1 vuosi sitten
browsing_delegation 3297e4d5a8 Use litellm's modify params (#5636) 1 vuosi sitten
commit0_bench 3297e4d5a8 Use litellm's modify params (#5636) 1 vuosi sitten
discoverybench 3297e4d5a8 Use litellm's modify params (#5636) 1 vuosi sitten
gaia 3297e4d5a8 Use litellm's modify params (#5636) 1 vuosi sitten
gorilla 3297e4d5a8 Use litellm's modify params (#5636) 1 vuosi sitten
gpqa 3297e4d5a8 Use litellm's modify params (#5636) 1 vuosi sitten
humanevalfix 3297e4d5a8 Use litellm's modify params (#5636) 1 vuosi sitten
logic_reasoning 21948fa81b Fix issue #5735: [Bug]: Inconsistent command line arguments in evaluation directory (#5736) 1 vuosi sitten
miniwob 3297e4d5a8 Use litellm's modify params (#5636) 1 vuosi sitten
mint 3297e4d5a8 Use litellm's modify params (#5636) 1 vuosi sitten
ml_bench 3297e4d5a8 Use litellm's modify params (#5636) 1 vuosi sitten
scienceagentbench 21948fa81b Fix issue #5735: [Bug]: Inconsistent command line arguments in evaluation directory (#5736) 1 vuosi sitten
swe_bench 581d5ec7a8 feat(eval): increase resource factor for remote runtime when previous run failed due to resource (#5709) 1 vuosi sitten
the_agent_company b1719bb3db Add TheAgentCompany evaluation harness (#5731) 1 vuosi sitten
toolqa 21948fa81b Fix issue #5735: [Bug]: Inconsistent command line arguments in evaluation directory (#5736) 1 vuosi sitten
webarena 3297e4d5a8 Use litellm's modify params (#5636) 1 vuosi sitten