1 год назад · f188abd7a3
--- a/evaluation/evaluation_outputs/outputs/logic_reasoning/CodeActAgent/ProntoQA/gpt-4o-2024-05-13_maxiter_10_N_v1.5/metadata.json
+++ b/evaluation/evaluation_outputs/outputs/logic_reasoning/CodeActAgent/ProntoQA/gpt-4o-2024-05-13_maxiter_10_N_v1.5/metadata.json
@@ -1,10 +0,0 @@
 
															-{
														
 
															-    "Dataset": "ProntoQA",
														
 
															-    "Data split": "validation",
														
 
															-    "Number of Samples": 6,
														
 
															-    "Agent class": "CodeActAgent",
														
 
															-    "Model name": "gpt-4o-2024-05-13",
														
 
															-    "Start_time": "2024-05-29 17:51:09",
														
 
															-    "End_time": "2024-05-29 17:52:24",
														
 
															-    "Final Accuracy": "0.83"
														
 
															-}
														
--- a/evaluation/evaluation_outputs/outputs/logic_reasoning/CodeActAgent/ProntoQA/gpt-4o-2024-05-13_maxiter_10_N_v1.5/output.jsonl
+++ b/evaluation/evaluation_outputs/outputs/logic_reasoning/CodeActAgent/ProntoQA/gpt-4o-2024-05-13_maxiter_10_N_v1.5/output.jsonl
--- a/evaluation/logic_reasoning/README.md
+++ b/evaluation/logic_reasoning/README.md
@@ -31,13 +31,5 @@ temperature = 0.0
 
															 ## Run Inference on logic_reasoning
														
 
															 The following code will run inference on the first example of the ProntoQA dataset with model gpt-4o.
														
 
															 ```bash
														
 
															-./evaluation/logic_reasoning/scripts/run_infer.sh ProntoQA gpt-4o 1 
														
 
															+./evaluation/logic_reasoning/scripts/run_infer.sh ProntoQA gpt-4o 1
														
 
															 ```
														
 
															-
														
 
															-
														
 
															-## Examples
														
 
															-
														
 
															-See example output in 
														
 
															-`./evaluation_outputs/outputs/logic_reasoning/CodeActAgent/ProntoQA/gpt-4o-2024-05-13_maxiter_10_N_v1.5/output.jsonl`
														
 
															-and final evaluation performance in 
														
 
															-`./evaluation_outputs/outputs/logic_reasoning/CodeActAgent/ProntoQA/gpt-4o-2024-05-13_maxiter_10_N_v1.5/metadata.json`