1 年之前 · cee5551228
--- a/config/settings.py
+++ b/config/settings.py
@@ -5,14 +5,14 @@ import subprocess
 
															 WORK_DIR = Path(__file__).parent.parent.absolute()
														
 
															 OUTPUT_DIR = WORK_DIR / "output"
														
 
															 CONFIG_DIR = WORK_DIR / "config" / "conf"
														
 
															-GOOGLE_SEARCH_DIR = OUTPUT_DIR / 'results'
														
 
															+GOOGLE_SEARCH_DIR = OUTPUT_DIR / 'results1'
														
 
															 PANDOC_EXE = os.environ.get('PANDOC_EXE') or shutil.which('pandoc')
														
 
															 LOG_LEVEL='info'
														
 
															 LOG_DIR = OUTPUT_DIR / "logs"
														
 
															 # DB_URL = f"sqlite:///{OUTPUT_DIR}/search_results.db"
														
 
															-DB_URL = os.environ.get('DB_URL') or f"sqlite:///{OUTPUT_DIR}/temp.db"
														
 
															+DB_URL = os.environ.get('DB_URL') or f"sqlite:///{OUTPUT_DIR}/temp1.db"
														
 
															 HTTP_PROXY='http://127.0.0.1:1881'
														
 
															 HTTPS_PROXY='http://127.0.0.1:1881'
														
--- a/tests/mytest/crawl_t.py
+++ b/tests/mytest/crawl_t.py
@@ -40,6 +40,7 @@ async def task():
 
															     item_id = 1
														
 
															     # url = 'https://greg.app/acalypha-marissima-overview/'
														
 
															     url = 'https://fr.florame.com/en/essential-oils'
														
 
															+    # url = 'https://repository.arizona.edu/bitstream/10150/550946/1/dp_04_01-04.pdf'
														
 
															     # url = 'https://baidu.com'
														
 
															     browser_config = BrowserConfig(
														
 
															         headless=False,
														
@@ -59,9 +60,9 @@ async def task():
 
															     crawler = AsyncWebCrawler(config=browser_config)
														
 
															     await crawler.start()
														
 
															-    crawl_config = CrawlerRunConfig(cache_mode=CacheMode.DISABLED)
														
 
															+    crawl_config = CrawlerRunConfig(cache_mode=CacheMode.ENABLED)
														
 
															     result:CrawlResult = await crawler.arun(url=url, config=crawl_config)
														
 
															-    logger.info(f"{item_id} crawler.arun result.success: {result.success} {result.status_code}")
														
 
															+    logger.info(f"{item_id} crawler.arun result.success: {result.model_dump_json(indent=2)} ")
														
 
															     print(result.markdown)
														
 
															     input('press enter to continue')
														
 
															     await crawler.close()
														
--- a/ui/backend/config.yaml
+++ b/ui/backend/config.yaml
@@ -12,7 +12,7 @@ redis:
 
															   host: localhost
														
 
															   port: 6379
														
 
															 select_proxy: system
														
 
															-sqluri: sqlite:///G:\code\upwork\zhang_crawl_bio\output\temp.db
														
 
															+sqluri: sqlite:///G:\code\upwork\zhang_crawl_bio\output\temp1.db
														
 
															 sub:
														
 
															   auto_start: true
														
 
															   file: g:\code\upwork\zhang_crawl_bio\download\proxy_pool\6137e542.yaml
														
--- a/worker/celery/crawl_tasks.py
+++ b/worker/celery/crawl_tasks.py
@@ -118,6 +118,8 @@ def crawl_page_urls_task(page_id: int, config: dict):
 
															     if sys.platform == 'win32':
														
 
															         asyncio.set_event_loop_policy(asyncio.WindowsProactorEventLoopPolicy())
														
 
															+    logger.info(f"{"(测试模式)" if crawl_task_config.dry_run else ""}开始提取搜索结果页: {page_id}")
														
 
															+    logger.info(f"config {config}")
														
 
															     async def _execute_crawl():
														
 
															         try:
														
 
															             search_browser_config = SearchBrowserConfig(**(crawl_task_config.browser_config.model_dump() or {}))
														
@@ -134,7 +136,6 @@ def crawl_page_urls_task(page_id: int, config: dict):
 
															                 use_managed_browser=True,
														
 
															                 cdp_url=page.browser._driver._websocket_url
														
 
															             )
														
 
															-            logger.info(f"{"(测试模式)" if crawl_task_config.dry_run else ""}开始提取搜索结果页: {page_id}")
														
 
															             crawler = URLCrawler()
														
 
															             save_dir, list_res = await crawler.crawl_page_urls(page_id, crawl_browser_config, crawl_task_config.overwrite, crawl_task_config.dry_run)
														
 
															             files = []
														
--- a/worker/celery/html_convert_tasks.py
+++ b/worker/celery/html_convert_tasks.py
@@ -6,6 +6,7 @@ from mylib.logu import get_logger
 
															 from worker.search_engine.search_result_db import SearchResultItem, SearchResultManager
														
 
															 from sqlmodel import Session, select
														
 
															 from worker.search_engine.valid_google_search import ValidSearchResult
														
 
															+from worker.html_convert.crawl_filter import CrawlFilter
														
 
															 logger = get_logger('pandoc_tasks')
														
 
															 class ConvertTaskParams(BaseModel):
														
@@ -73,13 +74,14 @@ def test_task_process_all_results():
 
															         valid_items = valid_search.get_valid_search_result_items()
														
 
															         logger.info(f"找到 {len(valid_items)} 个有效结果，开始批量提交...")
														
 
															-        
														
 
															+        for item in valid_items[:5]:
														
 
															+            logger.info(f"开始提交转换任务，结果ID: {item}")
														
 
															         # 创建任务参数
														
 
															         params = ConvertTaskParams(
														
 
															             result_ids=[str(item.id) for item in valid_items],
														
 
															             queue_name='convert_queue'
														
 
															         )
														
 
															-        
														
 
															+        return
														
 
															         # 调用转换任务
														
 
															         result = convert_all_results_task(params)
														
 
															         logger.info(f"批量提交完成，任务ID: {result.get('task_ids', [])}")
														
@@ -98,7 +100,12 @@ def clear_existing_tasks():
 
															 def main():
														
 
															     # test_task_process_all_results()
														
 
															-    clear_existing_tasks()
														
 
															+    c = CrawlFilter()
														
 
															+    res = c.db_manager.get_complete_search_result_items()
														
 
															+    for item in res[:5]:
														
 
															+        logger.info(f"{item}")
														
 
															+    logger.info(f"{len(res)}")
														
 
															+    # clear_existing_tasks()
														
 
															     pass
														
 
															 if __name__ == "__main__":
														
--- a/worker/crawl_pages/crawl_urls.py
+++ b/worker/crawl_pages/crawl_urls.py
@@ -2,9 +2,10 @@ import asyncio
 
															 import pickle
														
 
															 from pathlib import Path
														
 
															 import random
														
 
															-from typing import List
														
 
															+from typing import List,Optional
														
 
															 import httpx
														
 
															 import ssl
														
 
															+from pydantic import BaseModel, Field
														
 
															 from sqlmodel import select, Session
														
 
															 from crawl4ai import AsyncWebCrawler, BrowserConfig, CrawlerRunConfig, CacheMode, CrawlResult
														
 
															 from worker.search_engine.search_result_db import SearchResultManager, KeywordTask, SearchPageResult, SearchResultItem
														
@@ -12,6 +13,12 @@ from mylib.base import ensure_output_dir, save_to_file,load_from_pickle
 
															 from mylib.logu import logger
														
 
															 from utils.proxy_pool import get_random_proxy
														
 
															+class CrawlerResult(BaseModel):
														
 
															+    err: Optional[int] = 1
														
 
															+    search_result_model: Optional[SearchResultItem] = None
														
 
															+    crawl_result: Optional[CrawlResult] = None
														
 
															+    message: Optional[str] = None
														
 
															+
														
 
															 class URLCrawler:
														
 
															     def __init__(self, max_concurrent: int = 3):
														
 
															         self.max_concurrent = max_concurrent
														
@@ -49,15 +56,16 @@ class URLCrawler:
 
															     async def crawl_url(self, url: str, item_id: int, output_dir: Path, browser_config: BrowserConfig = None, overwrite: bool = False) -> CrawlResult:
														
 
															         """Crawl a single URL and save results with item_id as filename"""
														
 
															         # Check if we should skip this URL
														
 
															+        item = None
														
 
															         with Session(self.db_manager.engine) as session:
														
 
															             item = session.exec(
														
 
															                 select(SearchResultItem)
														
 
															                 .where(SearchResultItem.id == item_id)
														
 
															             ).first()
														
 
															-            if item and item.html_path and not overwrite:
														
 
															-                logger.info(f"Skipping {url} (item_id: {item_id}) - already has html_path: {item.html_path}")
														
 
															-                return {"search_result_model": item, "crawl_result": None, 'message': 'already has html_path'}
														
 
															+            if item and item.save_path and not overwrite:
														
 
															+                logger.info(f"Skipping {url} (item_id: {item_id}) - already has save_path: {item.save_path}")
														
 
															+                return {"search_result_model": item, "crawl_result": None, 'message': 'already has save_path'}
														
 
															         if not browser_config:
														
 
															             browser_config = BrowserConfig(
														
@@ -80,26 +88,30 @@ class URLCrawler:
 
															                     content_type = response.headers.get('content-type', '').lower()
														
 
															                     if 'pdf' in content_type:
														
 
															                         pdf_path = output_dir / f"{item_id}.pdf"
														
 
															-                logger.info(f"crwal id {item_id} content_type {content_type} {pdf_path}")
														
 
															-                if pdf_path:
														
 
															-                    if await self.download_pdf(url, pdf_path):
														
 
															-                        # Update database with PDF path
														
 
															-                        with Session(self.db_manager.engine) as session:
														
 
															-                            item = session.exec(
														
 
															-                                select(SearchResultItem)
														
 
															-                                .where(SearchResultItem.id == item_id)
														
 
															-                            ).first()
														
 
															-                            if item:
														
 
															-                                item.html_path = str(pdf_path)
														
 
															-                                session.add(item)
														
 
															-                                session.commit()
														
 
															-                        return {"search_result_model": item, "crawl_result": None, 'message': response.headers.get('content-type')}
														
 
															             except Exception as e:
														
 
															                 logger.warning(f"Failed to check headers for id: {item_id} , {url} {str(e)}")
														
 
															-        #         return {"search_result_model": None, "crawl_result": None, 'message': str(e)}
														
 
															-        # if 'html' not in content_type:
														
 
															-        #     logger.info(f"Skipping {url} (item_id: {item_id}) - not html, conent_type {content_type}")
														
 
															-        #     return {"search_result_model": None, "crawl_result": None,'message': f'not html, content_type {content_type}'}
														
 
															+        logger.info(f"crwal id {item_id} content_type {content_type} {pdf_path}")
														
 
															+        search_result_model = item or SearchResultItem(id=item_id)
														
 
															+        search_result_model.content_type = content_type
														
 
															+        if pdf_path:
														
 
															+            try:
														
 
															+                if await self.download_pdf(url, pdf_path):
														
 
															+                    search_result_model.save_path = str(pdf_path)
														
 
															+                else:
														
 
															+                    logger.warning(f"Failed to download PDF for id: {item_id}, {url}")
														
 
															+                    return CrawlerResult(err=1, message='failed to download pdf', search_result_model=None, crawl_result=None)
														
 
															+                self.db_manager.add_or_update_search_result_item(search_result_model)
														
 
															+                logger.info(f"{item_id} download_pdf success {pdf_path}")
														
 
															+                # PDF必须要返回了，因为 crawl4ai 如果是文件类型，
														
 
															+                # 它会默认下载到路径，反而得不到自动下载的 PDF 文件，除非能额外监听它是否下载成功
														
 
															+                return CrawlerResult(err=0, message='success', search_result_model=search_result_model, crawl_result=None)
														
 
															+            except Exception as e:
														
 
															+                logger.warning(f"Failed to download PDF for id: {item_id}, {url} {str(e)}")
														
 
															+                return CrawlerResult(err=1, message=str(e), search_result_model=None, crawl_result=None)
														
 
															+
														
 
															+        if 'html' not in content_type:
														
 
															+            logger.info(f"Skipping {url} (item_id: {item_id}) - not html, conent_type {content_type}")
														
 
															+            return CrawlerResult(err=2, message='not html', search_result_model=search_result_model, crawl_result=None)
														
 
															         logger.info(f"crawler.arun start {item_id} content-type: {content_type}, {url} ")    
														
 
															         logger.info(f"browser_config use_managed_browser {browser_config.use_managed_browser} , cdp_url: {browser_config.cdp_url}, headless: {browser_config.headless}")
														
 
															         # If not PDF or header check failed, try regular crawl
														
@@ -110,22 +122,7 @@ class URLCrawler:
 
															             crawl_config = CrawlerRunConfig(cache_mode=CacheMode.ENABLED)
														
 
															             result:CrawlResult = await crawler.arun(url=url, config=crawl_config)
														
 
															             logger.info(f"{item_id} crawler.arun result.success: {result.success} {result.status_code}")
														
 
															-            # If crawl failed but URL contains 'download', try PDF again
														
 
															-            if not result.success and 'download' in url.lower():
														
 
															-                pdf_path = output_dir / f"{item_id}.pdf"
														
 
															-                if await self.download_pdf(url, pdf_path):
														
 
															-                    # Update database with PDF path
														
 
															-                    with Session(self.db_manager.engine) as session:
														
 
															-                        item = session.exec(
														
 
															-                            select(SearchResultItem)
														
 
															-                            .where(SearchResultItem.id == item_id)
														
 
															-                        ).first()
														
 
															-                        if item:
														
 
															-                            item.html_path = str(pdf_path)
														
 
															-                            session.add(item)
														
 
															-                            session.commit()
														
 
															-                            session.refresh(item)
														
 
															-                    return {"search_result_model": item, "crawl_result": result}
														
 
															+            
														
 
															             # Save results
														
 
															             ensure_output_dir(output_dir)
														
@@ -136,32 +133,24 @@ class URLCrawler:
 
															                 pickle.dump(result, f)
														
 
															             # Save HTML and Markdown if available
														
 
															-            html_path = None
														
 
															+            save_path = None
														
 
															             if result.html:
														
 
															-                html_path = output_dir / f"{item_id}.html"
														
 
															-                save_to_file(result.html, html_path)
														
 
															+                save_path = output_dir / f"{item_id}.html"
														
 
															+                save_to_file(result.html, save_path)
														
 
															+                search_result_model.save_path = str(save_path)
														
 
															             if result.markdown:
														
 
															                 md_path = output_dir / f"{item_id}.md"
														
 
															                 save_to_file(result.markdown, md_path)
														
 
															-                
														
 
															+                search_result_model.markdown_path = str(md_path)
														
 
															             # Update database with HTML path
														
 
															-            if html_path:
														
 
															-                with Session(self.db_manager.engine) as session:
														
 
															-                    item = session.exec(
														
 
															-                        select(SearchResultItem)
														
 
															-                        .where(SearchResultItem.id == item_id)
														
 
															-                    ).first()
														
 
															-                    if item:
														
 
															-                        item.html_path = str(html_path)
														
 
															-                        session.add(item)
														
 
															-                        session.commit()
														
 
															-                        session.refresh(item)
														
 
															+            if save_path:
														
 
															+                self.db_manager.add_or_update_search_result_item(search_result_model)
														
 
															             logger.info(f"{item_id} crawler.arun result.success: {item}")
														
 
															-            return {"search_result_model": item, "crawl_result": result}
														
 
															+            return CrawlerResult(err=0, message='success', search_result_model=search_result_model, crawl_result=result)
														
 
															         except Exception as e:
														
 
															             logger.error(f"Failed to crawl id: {item_id} , {url} {str(e)}")
														
 
															-            return {"search_result_model": item, "crawl_result": None, 'message': str(e)}    
														
 
															+            return CrawlerResult(err=1, message=str(e), search_result_model=search_result_model, crawl_result=result)
														
 
															         finally:
														
 
															             await crawler.close()
														
--- a/worker/html_convert/converter_base.py
+++ b/worker/html_convert/converter_base.py
@@ -15,7 +15,6 @@ class ConverterBase:
 
															     def __init__(self):
														
 
															         self.db_manager = SearchResultManager()
														
 
															-
														
 
															     def get_search_result_item(self, result_id: int) -> Optional[SearchResultItem]:
														
 
															         """Get the search result item by ID"""
														
 
															         with Session(self.db_manager.engine) as session:
														
--- a/worker/search_engine/search_result_db.py
+++ b/worker/search_engine/search_result_db.py
@@ -42,7 +42,9 @@ class SearchResultItem(SQLModel, table=True):
 
															     url: str
														
 
															     title: Optional[str] = None
														
 
															     content: Optional[str] = None
														
 
															-    html_path: Optional[str] = None
														
 
															+    content_type: Optional[str] = None
														
 
															+    save_path: Optional[str] = None
														
 
															+    markdown_path: Optional[str] = None
														
 
															     keyword_id: int = Field(foreign_key="keywordtask.id")
														
 
															     keyword: str = Field(index=True)
														
 
															     page_id: int = Field(foreign_key="searchpageresult.id")
														
@@ -185,7 +187,7 @@ class SearchResultManager:
 
															                         url=item.url,
														
 
															                         title=item.title,
														
 
															                         content=item.content,
														
 
															-                        html_path=str(html_path) if html_path else None,
														
 
															+                        save_path=str(html_path) if html_path else None,
														
 
															                         keyword_id=keyword_task.id,
														
 
															                         keyword=keyword,
														
 
															                         page_id=page_id
														
@@ -233,7 +235,7 @@ class SearchResultManager:
 
															             query = (
														
 
															                 select(distinct(SearchPageResult.id))
														
 
															                 .join(SearchResultItem, SearchPageResult.id == SearchResultItem.page_id)
														
 
															-                .where(SearchResultItem.html_path.is_(None))
														
 
															+                .where(SearchResultItem.save_path.is_(None))
														
 
															             )
														
 
															             page_ids = session.exec(query).all()
														
 
															             return page_ids
														
@@ -268,5 +270,17 @@ class SearchResultManager:
 
															                 session.refresh(verification_item)
														
 
															                 return verification_item
														
 
															             return exists
														
 
															-        
														
 
															+    def get_complete_search_result_items(self) -> list[SearchResultItem]:
														
 
															+        """Get all successful search result items"""
														
 
															+        with Session(self.engine) as session:
														
 
															+            return session.exec(
														
 
															+                select(SearchResultItem)
														
 
															+                .where(SearchResultItem.save_path.is_not(None))
														
 
															+            ).all()
														
 
															+    def add_or_update_search_result_item(self, search_result_item: SearchResultItem):
														
 
															+        with Session(self.engine) as session:
														
 
															+            session.add(search_result_item)
														
 
															+            session.commit()
														
 
															+            session.refresh(search_result_item)
														
 
															+            return search_result_item
														
 
															 db_manager = SearchResultManager()