Historial de Commits

Autor SHA1 Mensaje Fecha
  Cheng Yang b808a639d9 docs: improve evaluation README with proper links and formatting (#5221) hace 1 año
  OpenHands 678436da30 Fix issue #5222: [Refactor]: Refactor the evaluation directory (#5223) hace 1 año
  Xingyao Wang 1d2a616be7 Fix issue #4739: '[Bug]: The agent doesn'"'"'t know its name' (#4740) hace 1 año
  Graham Neubig 54250e3fe2 Update evaluation README.md structure (#4516) hace 1 año
  Xingyao Wang 797f02ff6f rename huggingface evaluation benchmark (#3845) hace 1 año
  mamoodi 6fcc4ca052 fix eval README link (#3692) hace 1 año
  tobitege 9c39f07430 (enh) Aider-Bench: make resumable with skip_num arg (#3626) hace 1 año
  Robert Brennan 01ae22ef57 Rename OpenDevin to OpenHands (#3472) hace 1 año
  Xingyao Wang 7270d21cf9 update documentation for evaluation tutorial hace 1 año
  Xingyao Wang 31b244f95e [Refactor, Evaluation] Refactor and clean up evaluation harness to remove global config and use EventStreamRuntime (#3230) hace 1 año
  super-dainiu ebafb702e5 Add ML-Bench Evaluation with OpenDevin (#2015) hace 1 año
  Leo 2c231c57c9 Add supported benchmarks to evaluation README (AgentBench, BIRD, LogicReasoning) (#2183) hace 1 año
  Ryan H. Tran 9434bcce48 Support MINT benchmark (MATH, GSM8K subset) (#1955) hace 1 año
  Yizhe Zhang 0c829cd067 Support Entity-Deduction-Arena (EDA) Benchmark (#1931) hace 1 año
  Jiayi Pan 2d52298a1d Support GAIA benchmark (#1911) hace 1 año
  Niklas Muennighoff ef6cdb7532 HumanEvalFix integration (#1908) hace 1 año
  Xingyao Wang 2406b901df feat(SWE-Bench environment) integrate SWE-Bench sandbox (#1468) hace 1 año
  Jirka Borovec e32d95cb1a lint: simplify hooks already covered by Ruff (#1204) hace 1 año
  hugehope 9cd4ad3298 chore: fix some typos in comments (#1013) hace 1 año
  libowen2121 e256329e5e Update SWE-bench eval results (#978) hace 1 año
  libowen2121 40a3614e80 Add a roadmap for eval (#92) hace 1 año
  Xingyao Wang 5ff96111f0 A starting point for SWE-Bench Evaluation with docker (#60) hace 1 año
  Jiaxin Pei dc88dac296 adding a script to fetch and convert devin's output for evaluation (#81) hace 1 año
  Binyuan Hui f99f4ebdaa fix: typo in the evaluation folder name. (#66) hace 1 año