Historie revizí

Autor SHA1 Zpráva Datum
  Graham Neubig 54250e3fe2 Update evaluation README.md structure (#4516) před 1 rokem
  Xingyao Wang 797f02ff6f rename huggingface evaluation benchmark (#3845) před 1 rokem
  mamoodi 6fcc4ca052 fix eval README link (#3692) před 1 rokem
  tobitege 9c39f07430 (enh) Aider-Bench: make resumable with skip_num arg (#3626) před 1 rokem
  Robert Brennan 01ae22ef57 Rename OpenDevin to OpenHands (#3472) před 1 rokem
  Xingyao Wang 7270d21cf9 update documentation for evaluation tutorial před 1 rokem
  Xingyao Wang 31b244f95e [Refactor, Evaluation] Refactor and clean up evaluation harness to remove global config and use EventStreamRuntime (#3230) před 1 rokem
  super-dainiu ebafb702e5 Add ML-Bench Evaluation with OpenDevin (#2015) před 1 rokem
  Leo 2c231c57c9 Add supported benchmarks to evaluation README (AgentBench, BIRD, LogicReasoning) (#2183) před 1 rokem
  Ryan H. Tran 9434bcce48 Support MINT benchmark (MATH, GSM8K subset) (#1955) před 1 rokem
  Yizhe Zhang 0c829cd067 Support Entity-Deduction-Arena (EDA) Benchmark (#1931) před 1 rokem
  Jiayi Pan 2d52298a1d Support GAIA benchmark (#1911) před 1 rokem
  Niklas Muennighoff ef6cdb7532 HumanEvalFix integration (#1908) před 1 rokem
  Xingyao Wang 2406b901df feat(SWE-Bench environment) integrate SWE-Bench sandbox (#1468) před 1 rokem
  Jirka Borovec e32d95cb1a lint: simplify hooks already covered by Ruff (#1204) před 1 rokem
  hugehope 9cd4ad3298 chore: fix some typos in comments (#1013) před 1 rokem
  libowen2121 e256329e5e Update SWE-bench eval results (#978) před 1 rokem
  libowen2121 40a3614e80 Add a roadmap for eval (#92) před 1 rokem
  Xingyao Wang 5ff96111f0 A starting point for SWE-Bench Evaluation with docker (#60) před 1 rokem
  Jiaxin Pei dc88dac296 adding a script to fetch and convert devin's output for evaluation (#81) před 1 rokem
  Binyuan Hui f99f4ebdaa fix: typo in the evaluation folder name. (#66) před 1 rokem