t_docling_xlsx.py 1.9 KB

1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556
  1. import os
  2. from docling.document_converter import DocumentConverter
  3. def parse_xlsx_from_url(url):
  4. """
  5. 使用 docling 库从给定的 URL 解析 XLSX 文件内容
  6. Args:
  7. url (str): XLSX 文件的 URL 或本地路径
  8. Returns:
  9. str: 解析后的 Markdown 格式内容
  10. """
  11. try:
  12. # 创建文档转换器
  13. converter = DocumentConverter()
  14. # 转换文档
  15. result = converter.convert(url)
  16. # 导出为 Markdown 格式
  17. markdown_content = result.document.export_to_markdown()
  18. return markdown_content
  19. except Exception as e:
  20. print(f"解析 XLSX 文件时发生错误: {e}")
  21. return None
  22. def test_parse_xlsx():
  23. """
  24. 测试函数:解析 XLSX 文件
  25. 1. http://s3.vs1.lan/public/amazone/copywriting_production/product/202508/1P镊子压刀.xlsx
  26. 2. http://s3.vs1.lan/public/amazone/copywriting_production/product/202508/3P一体不锈钢迷你园艺铲.xlsx
  27. 3. http://s3.vs1.lan/public/amazone/copywriting_production/product/202508/磁吸固定夹.xlsx
  28. 4. http://s3.vs1.lan/public/amazone/copywriting_production/product/202508/锯齿固定夹.xlsx
  29. 5. http://s3.vs1.lan/public/amazone/copywriting_production/product/202508/魔术贴金属扣.xlsx
  30. 6. http://s3.vs1.lan/public/amazone/copywriting_production/product/202508/黑白轧带.xlsx
  31. """
  32. # 示例 URL(可以是本地文件路径或网络 URL)
  33. test_url = "http://s3.vs1.lan/public/amazone/copywriting_production/product/202508/1P镊子压刀.xlsx" # 替换为实际的 XLSX 文件 URL
  34. # 如果有本地测试文件,可以使用本地路径
  35. # test_url = "path/to/local/test.xlsx"
  36. print(f"正在解析 URL: {test_url}")
  37. content = parse_xlsx_from_url(test_url)
  38. if content:
  39. print("解析成功!内容如下:")
  40. print(content)
  41. else:
  42. print("解析失败")
  43. if __name__ == "__main__":
  44. test_parse_xlsx()