2 mesi fa · 977a4d43de
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -27,6 +27,7 @@ dependencies = [
 
				     "pandas>=2.2.3",
			
 
				     "prefect>=3.4.11",
			
 
				     "psycopg2>=2.9.10",
			
 
				+    "pymysql>=1.1.2",
			
 
				     "python-dotenv>=1.1.0",
			
 
				     "pyyaml>=6.0.2",
			
 
				     "redis>=5.2.1",
			
--- a/src/flow_task/crawl_asin.py
+++ b/src/flow_task/crawl_asin.py
@@ -115,7 +115,10 @@ class CrawlAsinFlow(BaseCrawlFlow):
 
				         local_dir.mkdir(parents=True, exist_ok=True)
			
 
				         extension = ".mhtml" if mthml_type else ".html"
			
 
				         local_path = local_dir / f"{asin}{extension}"
			
 
				-        self.crawler.save_mhtml(local_path)
			
 
				+        if asin in self.crawler.page.html:
			
 
				+            self.crawler.save_mhtml(local_path)
			
 
				+        else:
			
 
				+            raise Exception(f"ASIN {asin} 不在页面中")
			
 
				         self.run_log.info(f"成功保存到本地temp目录: {local_path}")
			
 
				         return str(local_path)
			
 
				 
			
--- a/src/flow_task/extra_excel_product_flow.py
+++ b/src/flow_task/extra_excel_product_flow.py
@@ -9,8 +9,9 @@ from prefect.states import Failed, Running, Completed
 
				 from prefect.cache_policies import INPUTS
			
 
				 from prefect.futures import wait
			
 
				 from utils.logu import get_logger
			
 
				-from utils.file import extract_excel_text_from_url
			
 
				+from utils.file import extract_excel_text_from_url, extract_excel_text_from_file
			
 
				 from utils.url_utils import extract_urls_from_text, extract_filename_from_url
			
 
				+from config.settings import OPENAI_API_KEY, OPENAI_API_BASE
			
 
				 from llama_index.llms.litellm import LiteLLM
			
 
				 from llama_index.core.program import LLMTextCompletionProgram
			
 
				 from llama_index.core.output_parsers import PydanticOutputParser
			
@@ -89,49 +90,49 @@ def parse_url_to_markdown_task(url: str):
 
				     """
			
 
				     logger.info(f"开始解析URL表格文件: {url}")
			
 
				     
			
 
				-    try:
			
 
				-        # 检查文件类型，如果是Excel文件则使用pandas方法
			
 
				-        if url.lower().endswith(('.xlsx', '.xls')):
			
 
				-            logger.info(f"检测到Excel文件，使用pandas方法读取: {url}")
			
 
				-            
			
 
				-            # 使用pandas方法读取Excel文件
			
 
				-            all_cells_text_dict = extract_excel_text_from_url(url)
			
 
				-            
			
 
				-            if not all_cells_text_dict:
			
 
				-                logger.warning(f"Excel文件读取失败或为空: {url}")
			
 
				-                return ""
			
 
				-            
			
 
				-            # 将Excel内容转换为Markdown格式
			
 
				-            markdown_content = ""
			
 
				-            for sheet_name, sheet_content in all_cells_text_dict.items():
			
 
				-                markdown_content += f"## 工作表: {sheet_name}\n\n"
			
 
				-                markdown_content += "```\n"
			
 
				-                markdown_content += sheet_content
			
 
				-                markdown_content += "\n```\n\n"
			
 
				-            
			
 
				-            logger.info(f"成功解析Excel文件，共读取 {len(all_cells_text_dict)} 个工作表: {url}")
			
 
				-            return markdown_content
			
 
				+    # 检查文件类型，如果是Excel文件则使用pandas方法
			
 
				+    if url.lower().endswith(('.xlsx', '.xls')):
			
 
				+        logger.info(f"检测到Excel文件，使用pandas方法读取: {url}")
			
 
				         
			
 
				+        # 判断是本地文件还是HTTP URL
			
 
				+        if url.startswith(('http://', 'https://')):
			
 
				+            # HTTP URL，使用extract_excel_text_from_url函数
			
 
				+            all_cells_text_dict = extract_excel_text_from_url(url)
			
 
				         else:
			
 
				-            # 非Excel文件使用原来的markitdown方法
			
 
				-            logger.info(f"检测到非Excel文件，使用markitdown方法读取: {url}")
			
 
				-            
			
 
				-            # 创建MarkItDown实例
			
 
				-            md = MarkItDown(enable_plugins=False)
			
 
				-            
			
 
				-            # 转换文档
			
 
				-            result = md.convert(url)
			
 
				-            
			
 
				-            # 获取Markdown格式内容
			
 
				-            markdown_content = result.text_content
			
 
				-            
			
 
				-            logger.info(f"成功解析URL表格文件: {url}")
			
 
				-            return markdown_content
			
 
				+            # 本地文件路径，使用extract_excel_text_from_file函数
			
 
				+            all_cells_text_dict = extract_excel_text_from_file(url)
			
 
				         
			
 
				-    except Exception as e:
			
 
				-        logger.error(f"解析URL表格文件时发生错误: {e}")
			
 
				-        raise Exception(f"解析URL表格文件失败: {e}")
			
 
				-
			
 
				+        if not all_cells_text_dict:
			
 
				+            logger.warning(f"Excel文件读取失败或为空: {url}")
			
 
				+            return ""
			
 
				+        
			
 
				+        # 将Excel内容转换为Markdown格式
			
 
				+        markdown_content = ""
			
 
				+        for sheet_name, sheet_content in all_cells_text_dict.items():
			
 
				+            markdown_content += f"## 工作表: {sheet_name}\n\n"
			
 
				+            markdown_content += "```\n"
			
 
				+            markdown_content += sheet_content
			
 
				+            markdown_content += "\n```\n\n"
			
 
				+        
			
 
				+        logger.info(f"成功解析Excel文件，共读取 {len(all_cells_text_dict)} 个工作表: {url}")
			
 
				+        return markdown_content
			
 
				+    
			
 
				+    else:
			
 
				+        # 非Excel文件使用原来的markitdown方法
			
 
				+        logger.info(f"检测到非Excel文件，使用markitdown方法读取: {url}")
			
 
				+        
			
 
				+        # 创建MarkItDown实例
			
 
				+        md = MarkItDown(enable_plugins=False)
			
 
				+        
			
 
				+        # 转换文档
			
 
				+        result = md.convert(url)
			
 
				+        
			
 
				+        # 获取Markdown格式内容
			
 
				+        markdown_content = result.text_content
			
 
				+        
			
 
				+        logger.info(f"成功解析URL表格文件: {url}")
			
 
				+        return markdown_content
			
 
				+    
			
 
				 
			
 
				 @task(name="Excel处理",
			
 
				     persist_result=True,
			
@@ -161,30 +162,24 @@ def get_or_create_product_import_by_url(file_url: str):
 
				     
			
 
				     logger.info(f"数据库中不存在文件 {file_name} 的记录，开始解析Excel并保存到数据库")
			
 
				     
			
 
				-    try:
			
 
				-        # 解析Excel文件为Markdown格式
			
 
				-        markdown_content = parse_url_to_markdown_task(file_url)
			
 
				-        
			
 
				-        if not markdown_content:
			
 
				-            logger.warning(f"Excel文件解析失败或为空: {file_url}")
			
 
				-            raise Exception(f"Excel文件解析失败或为空: {file_url}")
			
 
				-        
			
 
				-        # 使用LLM从Markdown内容中提取产品信息
			
 
				-        product_import = extract_product_from_text(
			
 
				-            text=markdown_content,
			
 
				-            uri=file_url,
			
 
				-            filename=file_name
			
 
				-        )
			
 
				-        
			
 
				-        # 保存到数据库
			
 
				-        saved_record = product_import_manager.save_product_import(product_import)
			
 
				-        
			
 
				-        logger.info(f"成功解析Excel并保存到数据库: {file_name}")
			
 
				-        return saved_record
			
 
				-        
			
 
				-    except Exception as e:
			
 
				-        logger.error(f"处理文件 {file_name} 时发生错误: {e}")
			
 
				-        raise Exception(f"处理文件失败: {e}")
			
 
				+    markdown_content = parse_url_to_markdown_task(file_url)
			
 
				+    
			
 
				+    if not markdown_content:
			
 
				+        logger.warning(f"Excel文件解析失败或为空: {file_url}")
			
 
				+        raise Exception(f"Excel文件解析失败或为空: {file_url}")
			
 
				+    
			
 
				+    # 使用LLM从Markdown内容中提取产品信息
			
 
				+    product_import = extract_product_from_text(
			
 
				+        text=markdown_content,
			
 
				+        uri=file_url,
			
 
				+        filename=file_name
			
 
				+    )
			
 
				+    
			
 
				+    # 保存到数据库
			
 
				+    saved_record = product_import_manager.save_product_import(product_import)
			
 
				+    
			
 
				+    logger.info(f"成功解析Excel并保存到数据库: {file_name}")
			
 
				+    return saved_record
			
 
				 
			
 
				 
			
 
				 class ProductImportInput(BaseModel):
			
--- a/src/flow_task/readme.md
+++ b/src/flow_task/readme.md
@@ -0,0 +1,19 @@
 
				+```powershell
			
 
				+prefect server start --host pc.lan 
			
 
				+& g:/code/amazone/copywriting_production/.venv/Scripts/python.exe g:/code/amazone/copywriting_production/src/flow_task/depoly.py
			
 
				+
			
 
				+# 解析Excel表格
			
 
				+& g:/code/amazone/copywriting_production/.venv/Scripts/python.exe g:/code/amazone/copywriting_production/tests/flow_run/t_flow_run_extra_product.py 
			
 
				+
			
 
				+# 爬取数据库 asin ，自动登录还没解决
			
 
				+& g:/code/amazone/copywriting_production/.venv/Scripts/python.exe g:/code/amazone/copywriting_production/tests/flow_run/t_flow_run_crawl_asin.py 
			
 
				+
			
 
				+# 解析asin mhtml 文件
			
 
				+& g:/code/amazone/copywriting_production/.venv/Scripts/python.exe g:/code/amazone/copywriting_production/tests/flow_run/t_flow_run_asin_mhtml_parser.py
			
 
				+
			
 
				+# 生成excel
			
 
				+& g:/code/amazone/copywriting_production/.venv/Scripts/python.exe g:/code/amazone/copywriting_production/tests/flow_run/t_flow_run_excel_generator.py
			
 
				+
			
 
				+# 从表格生成 markdown
			
 
				+& g:/code/amazone/copywriting_production/.venv/Scripts/python.exe g:/code/amazone/copywriting_production/tests/mytest/t_pandas_excel_reader.py
			
 
				+```
			
--- a/tests/flow_run/t_flow_run_crawl_asin.py
+++ b/tests/flow_run/t_flow_run_crawl_asin.py
@@ -135,8 +135,8 @@ def t_crawl_multiple_competitors():
 
				             print("本月没有找到任何产品数据")
			
 
				             return
			
 
				         
			
 
				-        print(f"本月共找到 {len(monthly_products)} 个产品数据")
			
 
				         pprint(monthly_products)
			
 
				+        print(f"本月共找到 {len(monthly_products)} 个产品数据")
			
 
				         y = input("是否继续？")
			
 
				         print(f"input: {y}")
			
 
				         if y != 'y':
			
--- a/tests/flow_run/t_flow_run_extra_product.py
+++ b/tests/flow_run/t_flow_run_extra_product.py
@@ -12,12 +12,9 @@ logger = get_logger('flow_run_test')
 
				 
			
 
				 # 测试URL列表
			
 
				 test_urls = [
			
 
				-    "http://s3.vs1.lan/public/amazone/copywriting_production/product/202508/1P镊子压刀.xlsx",
			
 
				-    "http://s3.vs1.lan/public/amazone/copywriting_production/product/202508/3P一体不锈钢迷你园艺铲.xlsx",
			
 
				-    "http://s3.vs1.lan/public/amazone/copywriting_production/product/202508/磁吸固定夹.xlsx",
			
 
				-    "http://s3.vs1.lan/public/amazone/copywriting_production/product/202508/锯齿固定夹.xlsx",
			
 
				-    "http://s3.vs1.lan/public/amazone/copywriting_production/product/202508/魔术贴金属扣.xlsx",
			
 
				-    "http://s3.vs1.lan/public/amazone/copywriting_production/product/202508/黑白轧带.xlsx"
			
 
				+r"G:\xwechat_files\wxid_1fmirgx3vudo21_b3e8\msg\file\2025-10\手指粉扑.xlsx",
			
 
				+r"G:\xwechat_files\wxid_1fmirgx3vudo21_b3e8\msg\file\2025-10\压缩毛巾.xlsx",
			
 
				+r"G:\xwechat_files\wxid_1fmirgx3vudo21_b3e8\msg\file\2025-10\折叠剪刀橙色.xlsx"
			
 
				 ]
			
 
				 
			
 
				 
			
--- a/tests/mytest/t_browser.py
+++ b/tests/mytest/t_browser.py
@@ -0,0 +1,9 @@
 
				+from utils.drission_page import create_browser
			
 
				+
			
 
				+def test_create_browser():
			
 
				+    """
			
 
				+    测试函数：创建浏览器实例
			
 
				+    """
			
 
				+    browser = create_browser()
			
 
				+
			
 
				+test_create_browser()
			
--- a/tests/mytest/t_pandas_excel_reader.py
+++ b/tests/mytest/t_pandas_excel_reader.py
@@ -1,5 +1,5 @@
 
				 import sys
			
 
				-from utils.file import extract_excel_text_from_url, read_excel_from_url, get_all_cells_text
			
 
				+from utils.file import extract_excel_text_from_url, read_excel_from_url, get_all_cells_text, read_excel, extract_excel_text_from_file
			
 
				 
			
 
				 def test_pandas_excel_reader():
			
 
				     """
			
@@ -46,5 +46,70 @@ def test_pandas_excel_reader():
 
				     else:
			
 
				         print("Excel 文件读取失败")
			
 
				 
			
 
				+def test_local_excel_files():
			
 
				+    """
			
 
				+    测试函数：读取本地 Excel 文件并提取文本
			
 
				+    """
			
 
				+    # 指定的Excel文件列表
			
 
				+    excel_files = [
			
 
				+r"G:\code\amazone\copywriting_production\output\generated_excels\extra-data-手指粉扑.xlsx",
			
 
				+r"G:\code\amazone\copywriting_production\output\generated_excels\extra-data-压缩毛巾.xlsx", 
			
 
				+r"G:\code\amazone\copywriting_production\output\generated_excels\extra-data-便携折叠剪刀.xlsx"    
			
 
				+]
			
 
				+    
			
 
				+    for file_path in excel_files:
			
 
				+        print(f"\n=== 正在读取文件: {file_path} ===")
			
 
				+        
			
 
				+        # 检查文件是否存在
			
 
				+        import os
			
 
				+        if not os.path.exists(file_path):
			
 
				+            print(f"文件不存在: {file_path}")
			
 
				+            continue
			
 
				+        
			
 
				+        # 方法1：使用组合函数直接提取文本
			
 
				+        print("\n--- 使用 extract_excel_text_from_file 函数 ---")
			
 
				+        all_cells_text_dict = extract_excel_text_from_file(file_path)
			
 
				+        
			
 
				+        if all_cells_text_dict:
			
 
				+            # 将所有工作表内容合并为一个markdown文件
			
 
				+            combined_markdown = ""
			
 
				+            
			
 
				+            # 打印所有工作表的内容
			
 
				+            for sheet_name, sheet_content in all_cells_text_dict.items():
			
 
				+                print(f"\n--- 工作表: {sheet_name} ---")
			
 
				+                print(f"内容预览 (前200字符): {sheet_content[:200]}...")
			
 
				+                
			
 
				+                # 将Excel内容转换为Markdown格式，与extra_excel_product_flow.py保持一致
			
 
				+                combined_markdown += f"## 工作表: {sheet_name}\n\n```\n{sheet_content}\n```\n\n"
			
 
				+            
			
 
				+            # 将合并的markdown内容保存到与原始文件同路径的markdown文件
			
 
				+            file_dir = os.path.dirname(file_path)
			
 
				+            file_name = os.path.basename(file_path).replace('.xlsx', '.md')
			
 
				+            output_file = os.path.join(file_dir, file_name)
			
 
				+            
			
 
				+            with open(output_file, 'w', encoding='utf-8') as f:
			
 
				+                f.write(combined_markdown)
			
 
				+            print(f"\n已保存到: {output_file}")
			
 
				+            print(f"共读取了 {len(all_cells_text_dict)} 个工作表")
			
 
				+        else:
			
 
				+            print("Excel 文件读取失败")
			
 
				+        
			
 
				+        # 方法2：分别调用两个函数
			
 
				+        print("\n--- 分别调用 read_excel 和 get_all_cells_text ---")
			
 
				+        excel_data = read_excel(file_path)
			
 
				+        
			
 
				+        if excel_data:
			
 
				+            print("Excel 文件读取成功！")
			
 
				+            
			
 
				+            # 提取所有单元格内容（包括空值）
			
 
				+            all_cells_text = get_all_cells_text(excel_data)
			
 
				+            print(f"提取到 {len(all_cells_text)} 个工作表的文本内容")
			
 
				+            
			
 
				+        else:
			
 
				+            print("Excel 文件读取失败")
			
 
				+        
			
 
				+        print("=" * 80)
			
 
				+
			
 
				 if __name__ == "__main__":
			
 
				-    test_pandas_excel_reader()
			
 
				+    # test_pandas_excel_reader()
			
 
				+    test_local_excel_files()
			
--- a/utils/drission_page.py
+++ b/utils/drission_page.py
@@ -1,119 +1,73 @@
 
				 import os
			
 
				+import random
			
 
				 import time
			
 
				 from typing import Optional
			
 
				 from DrissionPage import Chromium, ChromiumOptions, ChromiumPage
			
 
				 from pathlib import Path
			
 
				-from config.settings import OUTPUT_DIR, WORK_DIR, BROWSER_CONFIG_DIR
			
 
				-from utils.logu import logger
			
 
				-from pydantic import BaseModel
			
 
				+from .logu import logger
			
 
				+from DrissionPage._elements.chromium_element import ChromiumElement
			
 
				+def create_browser(address='127.0.0.1:16800', user_data_dir='', browser_path=''):
			
 
				 
			
 
				-BROWSER_PATH=r"C:\Program Files\Google\Chrome\Application\chrome.exe"
			
 
				-
			
 
				-def genarate_chrome_ini(address="localhost:9321"):
			
 
				-    port = address.split(':')[1]
			
 
				-    chrome_options = ChromiumOptions().set_browser_path(BROWSER_PATH)
			
 
				+    chrome_options = ChromiumOptions(read_file=False)
			
 
				+    # 务必不能小于10000，否则可能由于环境问题导致错误
			
 
				     chrome_options.set_address(address)
			
 
				-    chrome_options.set_user_data_path(str(OUTPUT_DIR / f'user_data_dir_{port}'))
			
 
				-    # chrome_options.no_imgs(True).mute(True)
			
 
				-    # chrome_options.incognito(True)
			
 
				-    path = chrome_options.save(BROWSER_CONFIG_DIR / f'{port}.ini')
			
 
				-    return path
			
 
				-
			
 
				-class ChromeOptions(BaseModel):
			
 
				-    ini_path: Optional[str] = BROWSER_CONFIG_DIR / '9321.ini'
			
 
				-    browser_path: Optional[str] = None
			
 
				-    user_data_dir: Optional[str] = None
			
 
				-    address: Optional[str] = None
			
 
				-    headless: Optional[bool] = False
			
 
				-    proxy: Optional[str] = None
			
 
				-    no_imgs: Optional[bool] = False
			
 
				-    auto_port: Optional[bool] = False
			
 
				-    save: Optional[bool] = False
			
 
				-
			
 
				-def load_chrome_from_ini(options:ChromeOptions):
			
 
				-    chrome_options = ChromiumOptions(ini_path=options.ini_path)
			
 
				-    if options.browser_path:
			
 
				-        chrome_options.set_browser_path(options.browser_path)
			
 
				-    if options.proxy:
			
 
				-        chrome_options.set_proxy(options.proxy)
			
 
				-    if options.user_data_dir:
			
 
				-        chrome_options.set_user_data_path(options.user_data_dir)
			
 
				-    # 如果存在代理环境变量
			
 
				-    elif 'HTTP_PROXY' in os.environ:
			
 
				-        chrome_options.set_proxy(os.environ['HTTP_PROXY'])
			
 
				-    if options.auto_port:
			
 
				-        chrome_options.auto_port(options.auto_port)
			
 
				-    if options.no_imgs:
			
 
				-        chrome_options.no_imgs(options.no_imgs)
			
 
				-    if options.address:
			
 
				-        chrome_options.headless(options.headless)
			
 
				-    if options.address:
			
 
				-        chrome_options.set_address(options.address)
			
 
				-    if options.save:
			
 
				-        chrome_options.save(options.ini_path)
			
 
				-    logger.info(f"proxy {options.proxy}")
			
 
				-    page = ChromiumPage(chrome_options)
			
 
				-    return page
			
 
				-
			
 
				-def fake_ua():
			
 
				-
			
 
				-    # 创建一个 UserAgent 对象
			
 
				-    ua = UserAgent()
			
 
				+    if user_data_dir:
			
 
				+        chrome_options.set_user_data_path(user_data_dir)
			
 
				+    if browser_path:
			
 
				+        chrome_options.set_browser_path(browser_path)
			
 
				+    driver = ChromiumPage(addr_or_opts=chrome_options)
			
 
				+    return driver
			
 
				 
			
 
				-    # 生成支持的浏览器的 User-Agent 字符串
			
 
				-    chrome_ua = ua.chrome  # Chrome 浏览器
			
 
				-    firefox_ua = ua.firefox  # Firefox 浏览器
			
 
				-    safari_ua = ua.safari  # Safari 浏览器
			
 
				-    edge_ua = ua.edge  # Chromium Edge 浏览器
			
 
				 
			
 
				-    # 打印生成的 User-Agent 字符串
			
 
				-    print("Chrome User-Agent:", chrome_ua)
			
 
				-    print("Firefox User-Agent:", firefox_ua)
			
 
				-    print("Safari User-Agent:", safari_ua)
			
 
				-    print("Edge User-Agent:", edge_ua)
			
 
				-    return chrome_ua
			
 
				 
			
 
				-def load_random_ua_chrome(headless=False):
			
 
				-    chrome_options = ChromiumOptions()
			
 
				-    chrome_options.auto_port(True)
			
 
				-    chrome_options.no_imgs(False)
			
 
				-    chrome_options.set_user_agent(fake_ua())
			
 
				-    chrome_options.arguments.append("--lang=en")
			
 
				-    chrome_options.headless(headless)
			
 
				-    page = ChromiumPage(chrome_options)
			
 
				-    # page.set.auto_handle_alert(True)
			
 
				-    return page
			
 
				+def click_random_pos(ele:ChromiumElement, delay_random=(0,5), safe_zone=0.2, wait_timeout=35):
			
 
				 
			
 
				-def test_random_ua_chrome():
			
 
				-    page = load_random_ua_chrome()
			
 
				-    tab = page.latest_tab
			
 
				-    keyword = "Acalypha rivularis essential oil"
			
 
				-    url = f"https://www.google.com/search?q={keyword}"
			
 
				-    # url = f"https://www.google.com/"
			
 
				-    # url = "https://bot.sannysoft.com/"
			
 
				-    tab.get(url)
			
 
				-    print(tab.url)
			
 
				-    if page.browser._chromium_options.is_headless:
			
 
				-        tab.get_screenshot('./1.png')
			
 
				-    # page.quit()
			
 
				+    """在元素中心区域随机点击
			
 
				+    
			
 
				+    Args:
			
 
				+        ele: 要点击的元素
			
 
				+        delay_random: 点击前的随机延迟时间范围（秒）
			
 
				+        safe_zone: 安全区域比例，0.2表示在中心80%区域内随机点击
			
 
				+        wait_timeout: 等待元素出现并具有可点击矩形区域的超时时间（秒）
			
 
				+    """
			
 
				+    # 等待元素出现并具有可点击的矩形区域
			
 
				+    logger.debug(f"等待元素出现并具有可点击矩形区域，超时时间：{wait_timeout}秒")
			
 
				+    ele.wait.has_rect(timeout=wait_timeout)
			
 
				+    
			
 
				+    # 获取元素大小和位置信息
			
 
				+    width, height = ele.rect.size
			
 
				+    logger.debug(f"元素大小：{width}x{height}")
			
 
				+    center_x, center_y = width/2, height/2
			
 
				+    
			
 
				+    max_offset_x = width * safe_zone
			
 
				+    max_offset_y = height * safe_zone
			
 
				+    
			
 
				+    # 在中心点附近生成随机偏移量
			
 
				+    offset_x = center_x + random.uniform(-max_offset_x, max_offset_x)
			
 
				+    offset_y = center_y + random.uniform(-max_offset_y, max_offset_y)
			
 
				+    logger.debug(f"中心点：{center_x},{center_y}")
			
 
				+    logger.debug(f"偏移量：{offset_x},{offset_y}")
			
 
				+    # 执行带偏移量的点击
			
 
				+    time.sleep(random.uniform(*delay_random))
			
 
				+    ele.click.at(offset_x, offset_y)
			
 
				 
			
 
				-def test_normal_chrome():
			
 
				-    # genarate_chrome_ini()
			
 
				-    page = load_chrome_from_ini(proxy='http://localhost:1881')
			
 
				-    tab = page.latest_tab
			
 
				-    keyword = "Acalypha rivularis essential oil"
			
 
				-    url = f"https://www.google.com/search?q={keyword}"
			
 
				-    url = "https://bot.sannysoft.com/"
			
 
				-    # recaptcha 验证码检测
			
 
				-    # url = "https://patrickhlauke.github.io/recaptcha/"
			
 
				-    tab.get(url)
			
 
				-    tab.scroll.to_bottom()
			
 
				-    # tab.get_screenshot('./1.png')
			
 
				-    # page.quit()
			
 
				+def find_and_click_random(driver:ChromiumElement|ChromiumPage, locator, *args, **kwargs):
			
 
				+    """查找元素并随机点击
			
 
				+    
			
 
				+    Args:
			
 
				+        driver: 浏览器驱动或元素
			
 
				+        locator: 元素定位器
			
 
				+        *args: 传递给 ele() 方法的位置参数
			
 
				+        **kwargs: 传递给 click_random_pos() 方法的关键字参数
			
 
				+    """
			
 
				+    ele = driver.ele(locator, *args)
			
 
				+    return click_random_pos(ele, **kwargs)
			
 
				 
			
 
				 def main():
			
 
				-    test_random_ua_chrome()
			
 
				-    # test_normal_chrome()
			
 
				+    page = create_browser()
			
 
				+    page._driver._websocket_url
			
 
				+    page.get("chrome://version")
			
 
				+    print(page._driver._websocket_url)
			
 
				     
			
 
				 if __name__ == "__main__":
			
 
				     main()
			
--- a/utils/file.py
+++ b/utils/file.py
@@ -373,6 +373,46 @@ def get_all_cells_text(excel_data):
 
				     
			
 
				     return result
			
 
				 
			
 
				+def read_excel(file_path):
			
 
				+    """
			
 
				+    使用 pandas 从本地文件路径读取 Excel 文件
			
 
				+    
			
 
				+    Args:
			
 
				+        file_path (str): Excel 文件的本地路径
			
 
				+    
			
 
				+    Returns:
			
 
				+        dict: 包含所有工作表数据的字典
			
 
				+    """
			
 
				+    try:
			
 
				+        # 使用 pandas 读取 Excel 文件
			
 
				+        # 读取所有工作表，设置header=None以保留第一行作为数据而不是标题
			
 
				+        excel_data = pd.read_excel(file_path, sheet_name=None, header=None)
			
 
				+        
			
 
				+        return excel_data
			
 
				+        
			
 
				+    except Exception as e:
			
 
				+        print(f"读取 Excel 文件时发生错误: {e}")
			
 
				+        return None
			
 
				+
			
 
				+def extract_excel_text_from_file(file_path):
			
 
				+    """
			
 
				+    从本地文件路径读取 Excel 文件并提取所有单元格的文本内容
			
 
				+    
			
 
				+    Args:
			
 
				+        file_path (str): Excel 文件的本地路径
			
 
				+    
			
 
				+    Returns:
			
 
				+        dict: 按字典顺序排列的所有工作表的文本内容字典
			
 
				+    """
			
 
				+    # 读取 Excel 文件
			
 
				+    excel_data = read_excel(file_path)
			
 
				+    
			
 
				+    if excel_data:
			
 
				+        # 提取所有单元格内容（包括空值）
			
 
				+        return get_all_cells_text(excel_data)
			
 
				+    else:
			
 
				+        return {}
			
 
				+
			
 
				 def extract_excel_text_from_url(url):
			
 
				     """
			
 
				     从 URL 读取 Excel 文件并提取所有单元格的文本内容
			
--- a/uv.lock
+++ b/uv.lock
@@ -514,6 +514,7 @@ dependencies = [
 
				     { name = "pandas" },
			
 
				     { name = "prefect" },
			
 
				     { name = "psycopg2" },
			
 
				+    { name = "pymysql" },
			
 
				     { name = "python-dotenv" },
			
 
				     { name = "pyyaml" },
			
 
				     { name = "redis" },
			
@@ -541,6 +542,7 @@ requires-dist = [
 
				     { name = "pandas", specifier = ">=2.2.3" },
			
 
				     { name = "prefect", specifier = ">=3.4.11" },
			
 
				     { name = "psycopg2", specifier = ">=2.9.10" },
			
 
				+    { name = "pymysql", specifier = ">=1.1.2" },
			
 
				     { name = "python-dotenv", specifier = ">=1.1.0" },
			
 
				     { name = "pyyaml", specifier = ">=6.0.2" },
			
 
				     { name = "redis", specifier = ">=5.2.1" },
			
@@ -2904,6 +2906,15 @@ wheels = [
 
				     { url = "https://files.pythonhosted.org/packages/b9/26/a5ef980305f5be4edd1c2523ae3127ad0e490b60585714c56428b8a24395/pymongo-4.13.1-cp313-cp313t-win_amd64.whl", hash = "sha256:6492565cd7bb10cb6104401af446926141249095953b57c108c4bdcf3452fa3d", size = 1010935, upload-time = "2025-06-11T19:24:04.677Z" },
			
 
				 ]
			
 
				 
			
 
				+[[package]]
			
 
				+name = "pymysql"
			
 
				+version = "1.1.2"
			
 
				+source = { registry = "https://pypi.org/simple" }
			
 
				+sdist = { url = "https://files.pythonhosted.org/packages/f5/ae/1fe3fcd9f959efa0ebe200b8de88b5a5ce3e767e38c7ac32fb179f16a388/pymysql-1.1.2.tar.gz", hash = "sha256:4961d3e165614ae65014e361811a724e2044ad3ea3739de9903ae7c21f539f03", size = 48258, upload-time = "2025-08-24T12:55:55.146Z" }
			
 
				+wheels = [
			
 
				+    { url = "https://files.pythonhosted.org/packages/7c/4c/ad33b92b9864cbde84f259d5df035a6447f91891f5be77788e2a3892bce3/pymysql-1.1.2-py3-none-any.whl", hash = "sha256:e6b1d89711dd51f8f74b1631fe08f039e7d76cf67a42a323d3178f0f25762ed9", size = 45300, upload-time = "2025-08-24T12:55:53.394Z" },
			
 
				+]
			
 
				+
			
 
				 [[package]]
			
 
				 name = "pyopenssl"
			
 
				 version = "25.1.0"