ai/OpenHands

Autor	SHA1 Zpráva	Datum
Graham Neubig	54250e3fe2 Update evaluation README.md structure (#4516)	před 1 rokem
Xingyao Wang	797f02ff6f rename huggingface evaluation benchmark (#3845)	před 1 rokem
mamoodi	6fcc4ca052 fix eval README link (#3692)	před 1 rokem
tobitege	9c39f07430 (enh) Aider-Bench: make resumable with skip_num arg (#3626)	před 1 rokem
Robert Brennan	01ae22ef57 Rename OpenDevin to OpenHands (#3472)	před 1 rokem
Xingyao Wang	7270d21cf9 update documentation for evaluation tutorial	před 1 rokem
Xingyao Wang	31b244f95e [Refactor, Evaluation] Refactor and clean up evaluation harness to remove global config and use EventStreamRuntime (#3230)	před 1 rokem
super-dainiu	ebafb702e5 Add ML-Bench Evaluation with OpenDevin (#2015)	před 1 rokem
Leo	2c231c57c9 Add supported benchmarks to evaluation README (AgentBench, BIRD, LogicReasoning) (#2183)	před 1 rokem
Ryan H. Tran	9434bcce48 Support MINT benchmark (MATH, GSM8K subset) (#1955)	před 1 rokem
Yizhe Zhang	0c829cd067 Support Entity-Deduction-Arena (EDA) Benchmark (#1931)	před 1 rokem
Jiayi Pan	2d52298a1d Support GAIA benchmark (#1911)	před 1 rokem
Niklas Muennighoff	ef6cdb7532 HumanEvalFix integration (#1908)	před 1 rokem
Xingyao Wang	2406b901df feat(SWE-Bench environment) integrate SWE-Bench sandbox (#1468)	před 1 rokem
Jirka Borovec	e32d95cb1a lint: simplify hooks already covered by Ruff (#1204)	před 1 rokem
hugehope	9cd4ad3298 chore: fix some typos in comments (#1013)	před 1 rokem
libowen2121	e256329e5e Update SWE-bench eval results (#978)	před 1 rokem
libowen2121	40a3614e80 Add a roadmap for eval (#92)	před 1 rokem
Xingyao Wang	5ff96111f0 A starting point for SWE-Bench Evaluation with docker (#60)	před 1 rokem
Jiaxin Pei	dc88dac296 adding a script to fetch and convert devin's output for evaluation (#81)	před 1 rokem
Binyuan Hui	f99f4ebdaa fix: typo in the evaluation folder name. (#66)	před 1 rokem

Historie revizí Hledat

Historie revizí