فهرست منبع

完成批量搜索,倒是仍然遇到反爬检测

mrh 1 سال پیش
والد
کامیت
5b323bb205
2فایلهای تغییر یافته به همراه21 افزوده شده و 1 حذف شده
  1. 15 1
      mylib/search_manager.py
  2. 6 0
      mytest/google_search_api.py

+ 15 - 1
mylib/search_manager.py

@@ -76,6 +76,8 @@ class SearchManager:
                 print(f"Reached last page for {keyword} at start={current_start}")
                 self.excel_db_manager.mark_keyword_done(keyword)    
                 break
+            else:
+                self.go_to_next_page()
     def save_search_result(self, keyword: str, start: int, url: str, html_path: str, is_last_page: bool = False) -> SearchResult:
         """保存搜索结果到数据库
         
@@ -182,9 +184,21 @@ def test_one():
     key_model = key_model_list.pop(0)
     print(key_model)
     self.walk_search_one_keywords(key_model)
-
+def test_all():
+    global page
+    # 初始化浏览器
+    self = SearchManager(page)
+    key_model_list = self.excel_db_manager.get_keywords_by_status()
+    print("遍历所有搜索词, len = ", len(key_model_list))
+    # 遍历所有搜索词
+    for key_model in key_model_list:
+        print('---------------------------')
+        print(f"Processing keyword: {key_model.key_word}")
+        self.walk_search_one_keywords(key_model)
+        
 async def main():
     create_db_and_tables()
+    test_all()
     # test_one()
     # global page
     # self = SearchManager(page)

+ 6 - 0
mytest/google_search_api.py

@@ -0,0 +1,6 @@
+from webscout import GoogleS
+from rich import print
+searcher = GoogleS()
+results = searcher.search("HelpingAI-9B", max_results=20, extract_text=False, max_text_length=200)
+for result in results:
+    print(result)