Nan Jiang
|
463d4e9a46
eval: add commit0 benchmark (#5153)
|
hace 1 año |
Graham Neubig
|
a753babb7a
Integrate OpenHands resolver into main repository (#4964)
|
hace 1 año |
Ziru "Ron" Chen
|
db4e1dbbec
[eval] Add ScienceAgentBench. (#4645)
|
hace 1 año |
tobitege
|
6471d0f94d
.gitignore: ignore all `node_modules` folders (#4491)
|
hace 1 año |
sp.wack
|
bfdd7fd620
feat(frontend): UI overhaul (#3604)
|
hace 1 año |
Xingyao Wang
|
47774e60b0
chore: remove deprecated dockerfile (#4079)
|
hace 1 año |
tobitege
|
c32cec7f89
(enh) send status messages to UI during startup (#3771)
|
hace 1 año |
Xingyao Wang
|
8f0f764a85
fix: CI docker image push (#3476)
|
hace 1 año |
Xingyao Wang
|
31b244f95e
[Refactor, Evaluation] Refactor and clean up evaluation harness to remove global config and use EventStreamRuntime (#3230)
|
hace 1 año |
Xingyao Wang
|
405c8a0456
[Arch] Add runtime image build CI & clean up runtime build using `jinja2` template (#3055)
|
hace 1 año |
Xingyao Wang
|
ce8a11a62f
[Arch] Shrink runtime image size (#3051)
|
hace 1 año |
Xingyao Wang
|
6a0ffc5c61
[Evaluation] Use the latest official SWE-Bench Dockerization for evaluation (#2728)
|
hace 1 año |
Shimada666
|
26fc3c886a
Make plugins sandbox-agnostic (#2101)
|
hace 1 año |
tobitege
|
b431fce938
tests: more Agentskills tests; updated .gitignore (#2307)
|
hace 1 año |
Frank Xu
|
48151bdbb0
[feat] WebArena benchmark, MiniWoB++ benchmark and related arch changes (#2170)
|
hace 1 año |
Xingyao Wang
|
2c0a2dbc61
fix yet another swe_bench issue (#2069)
|
hace 1 año |
Engel Nyst
|
46352e890b
Logging security (#1943)
|
hace 1 año |
Xingyao Wang
|
2406b901df
feat(SWE-Bench environment) integrate SWE-Bench sandbox (#1468)
|
hace 1 año |
Robert Brennan
|
dcb5d1ce0a
Add permanent storage option for EventStream (#1697)
|
hace 1 año |
மனோஜ்குமார் பழனிச்சாமி
|
73693ba416
Mentioned LLM logs directory (#1587)
|
hace 1 año |
Robert Brennan
|
242c4a0df6
Remove extra message actions (#1608)
|
hace 1 año |
Boxuan Li
|
e7b5ddfe06
Add integration test framework with mock llm (#1301)
|
hace 1 año |
Leo
|
adbcfefd8c
feat: websocket connection management and sandbox bound to session. (#559)
|
hace 1 año |
Anas DORBANI
|
5ec0e5b7ec
Switch to Poetry (#378)
|
hace 1 año |
xcodebuild
|
d64383a520
fix: let make run output both backend and frontend (#576)
|
hace 1 año |
Alex Bäuerle
|
79237210f2
build(add-files-created-for-other-dev-envs-to-gitignore): Add files such as requirements.txt, .python-version, bun.lockb, and yarn.lock so that if anybody uses these systems, they don't accidentally push the files (#519)
|
hace 1 año |
Jim Su
|
b1b96df8a8
Replace environment variables with configuration file (#339)
|
hace 1 año |
Robert Brennan
|
9bc1890d33
add debug dir for prompts (#205)
|
hace 1 año |
Xingyao Wang
|
5ff96111f0
A starting point for SWE-Bench Evaluation with docker (#60)
|
hace 1 año |
Robert Brennan
|
b84463f512
Refactor agent interface a bit (#74)
|
hace 1 año |