пре 1 година · f188abd7a3
--- a/evaluation/evaluation_outputs/outputs/logic_reasoning/CodeActAgent/ProntoQA/gpt-4o-2024-05-13_maxiter_10_N_v1.5/metadata.json
+++ b/evaluation/evaluation_outputs/outputs/logic_reasoning/CodeActAgent/ProntoQA/gpt-4o-2024-05-13_maxiter_10_N_v1.5/metadata.json
@@ -1,10 +0,0 @@
 
				-{
			
 
				-    "Dataset": "ProntoQA",
			
 
				-    "Data split": "validation",
			
 
				-    "Number of Samples": 6,
			
 
				-    "Agent class": "CodeActAgent",
			
 
				-    "Model name": "gpt-4o-2024-05-13",
			
 
				-    "Start_time": "2024-05-29 17:51:09",
			
 
				-    "End_time": "2024-05-29 17:52:24",
			
 
				-    "Final Accuracy": "0.83"
			
 
				-}
			
--- a/evaluation/evaluation_outputs/outputs/logic_reasoning/CodeActAgent/ProntoQA/gpt-4o-2024-05-13_maxiter_10_N_v1.5/output.jsonl
+++ b/evaluation/evaluation_outputs/outputs/logic_reasoning/CodeActAgent/ProntoQA/gpt-4o-2024-05-13_maxiter_10_N_v1.5/output.jsonl
--- a/evaluation/logic_reasoning/README.md
+++ b/evaluation/logic_reasoning/README.md
@@ -31,13 +31,5 @@ temperature = 0.0
 
				 ## Run Inference on logic_reasoning
			
 
				 The following code will run inference on the first example of the ProntoQA dataset with model gpt-4o.
			
 
				 ```bash
			
 
				-./evaluation/logic_reasoning/scripts/run_infer.sh ProntoQA gpt-4o 1 
			
 
				+./evaluation/logic_reasoning/scripts/run_infer.sh ProntoQA gpt-4o 1
			
 
				 ```
			
 
				-
			
 
				-
			
 
				-## Examples
			
 
				-
			
 
				-See example output in 
			
 
				-`./evaluation_outputs/outputs/logic_reasoning/CodeActAgent/ProntoQA/gpt-4o-2024-05-13_maxiter_10_N_v1.5/output.jsonl`
			
 
				-and final evaluation performance in 
			
 
				-`./evaluation_outputs/outputs/logic_reasoning/CodeActAgent/ProntoQA/gpt-4o-2024-05-13_maxiter_10_N_v1.5/metadata.json`