1 год назад · 8fdfece059
--- a/agenthub/browsing_agent/browsing_agent.py
+++ b/agenthub/browsing_agent/browsing_agent.py
@@ -216,10 +216,8 @@ class BrowsingAgent(Agent):
 
				         prompt = get_prompt(error_prefix, cur_url, cur_axtree_txt, prev_action_str)
			
 
				         messages.append(Message(role='user', content=[TextContent(text=prompt)]))
			
 
				 
			
 
				-        flat_messages = self.llm.format_messages_for_llm(messages)
			
 
				-
			
 
				         response = self.llm.completion(
			
 
				-            messages=flat_messages,
			
 
				+            messages=self.llm.format_messages_for_llm(messages),
			
 
				             temperature=0.0,
			
 
				             stop=[')```', ')\n```'],
			
 
				         )
			
--- a/config.template.toml
+++ b/config.template.toml
@@ -164,12 +164,12 @@ model = "gpt-4o"
 
				 # If model is vision capable, this option allows to disable image processing (useful for cost reduction).
			
 
				 #disable_vision = true
			
 
				 
			
 
				-[llm.gpt3]
			
 
				+[llm.gpt4o-mini]
			
 
				 # API key to use
			
 
				 api_key = "your-api-key"
			
 
				 
			
 
				 # Model to use
			
 
				-model = "gpt-3.5"
			
 
				+model = "gpt-4o-mini"
			
 
				 
			
 
				 #################################### Agent ###################################
			
 
				 # Configuration for agents (group name starts with 'agent')
			
--- a/evaluation/regression/README.md
+++ b/evaluation/regression/README.md
@@ -14,9 +14,9 @@ To run the tests for OpenHands project, you can use the provided test runner scr
 
				 3. Navigate to the root directory of the project.
			
 
				 4. Run the test suite using the test runner script with the required arguments:
			
 
				    ```
			
 
				-   python evaluation/regression/run_tests.py --OPENAI_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxx --model=gpt-3.5-turbo
			
 
				+   python evaluation/regression/run_tests.py --OPENAI_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxx --model=gpt-4o
			
 
				    ```
			
 
				-   Replace `sk-xxxxxxxxxxxxxxxxxxxxxx` with your actual OpenAI API key. The default model is `gpt-3.5-turbo`, but you can specify a different model if needed.
			
 
				+   Replace `sk-xxxxxxxxxxxxxxxxxxxxxx` with your actual OpenAI API key. The default model is `gpt-4o`, but you can specify a different model if needed.
			
 
				 
			
 
				 The test runner will discover and execute all the test cases in the `cases/` directory, and display the results of the test suite, including the status of each individual test case and the overall summary.
			
 
				 
			
--- a/openhands/core/message.py
+++ b/openhands/core/message.py
@@ -1,10 +1,7 @@
 
				 from enum import Enum
			
 
				-from typing import Union
			
 
				+from typing import Literal
			
 
				 
			
 
				 from pydantic import BaseModel, Field, model_serializer
			
 
				-from typing_extensions import Literal
			
 
				-
			
 
				-from openhands.core.logger import openhands_logger as logger
			
 
				 
			
 
				 
			
 
				 class ContentType(Enum):
			
@@ -60,60 +57,24 @@ class Message(BaseModel):
 
				 
			
 
				     @model_serializer
			
 
				     def serialize_model(self) -> dict:
			
 
				-        content: list[dict[str, str | dict[str, str]]] = []
			
 
				-
			
 
				-        for item in self.content:
			
 
				-            if isinstance(item, TextContent):
			
 
				-                content.append(item.model_dump())
			
 
				-            elif isinstance(item, ImageContent):
			
 
				-                content.extend(item.model_dump())
			
 
				-
			
 
				-        return {'content': content, 'role': self.role}
			
 
				-
			
 
				-
			
 
				-def format_messages(
			
 
				-    messages: Union[Message, list[Message]],
			
 
				-    with_images: bool,
			
 
				-    with_prompt_caching: bool,
			
 
				-) -> list[dict]:
			
 
				-    if not isinstance(messages, list):
			
 
				-        messages = [messages]
			
 
				-
			
 
				-    if with_images or with_prompt_caching:
			
 
				-        return [message.model_dump() for message in messages]
			
 
				-
			
 
				-    converted_messages = []
			
 
				-    for message in messages:
			
 
				-        content_parts = []
			
 
				-        role = 'user'
			
 
				-
			
 
				-        if isinstance(message, str) and message:
			
 
				-            content_parts.append(message)
			
 
				-        elif isinstance(message, dict):
			
 
				-            role = message.get('role', 'user')
			
 
				-            if 'content' in message and message['content']:
			
 
				-                content_parts.append(message['content'])
			
 
				-        elif isinstance(message, Message):
			
 
				-            role = message.role
			
 
				-            for content in message.content:
			
 
				-                if isinstance(content, list):
			
 
				-                    for item in content:
			
 
				-                        if isinstance(item, TextContent) and item.text:
			
 
				-                            content_parts.append(item.text)
			
 
				-                elif isinstance(content, TextContent) and content.text:
			
 
				-                    content_parts.append(content.text)
			
 
				-        else:
			
 
				-            logger.error(
			
 
				-                f'>>> `message` is not a string, dict, or Message: {type(message)}'
			
 
				+        content: list[dict] | str
			
 
				+        if self.role == 'system':
			
 
				+            # For system role, concatenate all text content into a single string
			
 
				+            content = '\n'.join(
			
 
				+                item.text for item in self.content if isinstance(item, TextContent)
			
 
				             )
			
 
				-
			
 
				-        if content_parts:
			
 
				-            content_str = '\n'.join(content_parts)
			
 
				-            converted_messages.append(
			
 
				-                {
			
 
				-                    'role': role,
			
 
				-                    'content': content_str,
			
 
				-                }
			
 
				+        elif self.role == 'assistant' and not self.contains_image:
			
 
				+            # For assistant role without vision, concatenate all text content into a single string
			
 
				+            content = '\n'.join(
			
 
				+                item.text for item in self.content if isinstance(item, TextContent)
			
 
				             )
			
 
				+        else:
			
 
				+            # For user role or assistant role with vision enabled, serialize each content item
			
 
				+            content = []
			
 
				+            for item in self.content:
			
 
				+                if isinstance(item, TextContent):
			
 
				+                    content.append(item.model_dump())
			
 
				+                elif isinstance(item, ImageContent):
			
 
				+                    content.extend(item.model_dump())
			
 
				 
			
 
				-    return converted_messages
			
 
				+        return {'content': content, 'role': self.role}
			
--- a/openhands/llm/llm.py
+++ b/openhands/llm/llm.py
@@ -2,7 +2,6 @@ import asyncio
 
				 import copy
			
 
				 import warnings
			
 
				 from functools import partial
			
 
				-from typing import Union
			
 
				 
			
 
				 from openhands.core.config import LLMConfig
			
 
				 from openhands.runtime.utils.shutdown_listener import should_continue
			
@@ -32,7 +31,7 @@ from tenacity import (
 
				 from openhands.core.exceptions import LLMResponseError, UserCancelledError
			
 
				 from openhands.core.logger import llm_prompt_logger, llm_response_logger
			
 
				 from openhands.core.logger import openhands_logger as logger
			
 
				-from openhands.core.message import Message, format_messages
			
 
				+from openhands.core.message import Message
			
 
				 from openhands.core.metrics import Metrics
			
 
				 
			
 
				 __all__ = ['LLM']
			
@@ -633,9 +632,7 @@ class LLM:
 
				     def reset(self):
			
 
				         self.metrics = Metrics()
			
 
				 
			
 
				-    def format_messages_for_llm(
			
 
				-        self, messages: Union[Message, list[Message]]
			
 
				-    ) -> list[dict]:
			
 
				-        return format_messages(
			
 
				-            messages, self.vision_is_active(), self.is_caching_prompt_active()
			
 
				-        )
			
 
				+    def format_messages_for_llm(self, messages: Message | list[Message]) -> list[dict]:
			
 
				+        if isinstance(messages, Message):
			
 
				+            return [messages.model_dump()]
			
 
				+        return [message.model_dump() for message in messages]
			
--- a/tests/integration/conftest.py
+++ b/tests/integration/conftest.py
@@ -11,7 +11,6 @@ from http.server import HTTPServer, SimpleHTTPRequestHandler
 
				 import pytest
			
 
				 from litellm import completion
			
 
				 
			
 
				-from openhands.core.message import format_messages
			
 
				 from openhands.llm.llm import message_separator
			
 
				 
			
 
				 script_dir = os.environ.get('SCRIPT_DIR')
			
@@ -78,6 +77,29 @@ def get_log_id(prompt_log_name):
 
				         return match.group(1)
			
 
				 
			
 
				 
			
 
				+def _format_messages(messages):
			
 
				+    message_str = ''
			
 
				+    for message in messages:
			
 
				+        if isinstance(message, str):
			
 
				+            message_str += message_separator + message if message_str else message
			
 
				+        elif isinstance(message, dict):
			
 
				+            if isinstance(message['content'], list):
			
 
				+                for m in message['content']:
			
 
				+                    if isinstance(m, str):
			
 
				+                        message_str += message_separator + m if message_str else m
			
 
				+                    elif isinstance(m, dict) and m['type'] == 'text':
			
 
				+                        message_str += (
			
 
				+                            message_separator + m['text'] if message_str else m['text']
			
 
				+                        )
			
 
				+            elif isinstance(message['content'], str):
			
 
				+                message_str += (
			
 
				+                    message_separator + message['content']
			
 
				+                    if message_str
			
 
				+                    else message['content']
			
 
				+                )
			
 
				+    return message_str
			
 
				+
			
 
				+
			
 
				 def apply_prompt_and_get_mock_response(
			
 
				     test_name: str, messages: str, id: int
			
 
				 ) -> str | None:
			
@@ -185,10 +207,7 @@ def mock_user_response(*args, test_name, **kwargs):
 
				 def mock_completion(*args, test_name, **kwargs):
			
 
				     global cur_id
			
 
				     messages = kwargs['messages']
			
 
				-    plain_messages = format_messages(
			
 
				-        messages, with_images=False, with_prompt_caching=False
			
 
				-    )
			
 
				-    message_str = message_separator.join(msg['content'] for msg in plain_messages)
			
 
				+    message_str = _format_messages(messages)  # text only
			
 
				 
			
 
				     # this assumes all response_(*).log filenames are in numerical order, starting from one
			
 
				     cur_id += 1