import os from docling.document_converter import DocumentConverter def parse_xlsx_from_url(url): """ 使用 docling 库从给定的 URL 解析 XLSX 文件内容 Args: url (str): XLSX 文件的 URL 或本地路径 Returns: str: 解析后的 Markdown 格式内容 """ try: # 创建文档转换器 converter = DocumentConverter() # 转换文档 result = converter.convert(url) # 导出为 Markdown 格式 markdown_content = result.document.export_to_markdown() return markdown_content except Exception as e: print(f"解析 XLSX 文件时发生错误: {e}") return None def test_parse_xlsx(): """ 测试函数:解析 XLSX 文件 1. http://s3.vs1.lan/public/amazone/copywriting_production/product/202508/1P镊子压刀.xlsx 2. http://s3.vs1.lan/public/amazone/copywriting_production/product/202508/3P一体不锈钢迷你园艺铲.xlsx 3. http://s3.vs1.lan/public/amazone/copywriting_production/product/202508/磁吸固定夹.xlsx 4. http://s3.vs1.lan/public/amazone/copywriting_production/product/202508/锯齿固定夹.xlsx 5. http://s3.vs1.lan/public/amazone/copywriting_production/product/202508/魔术贴金属扣.xlsx 6. http://s3.vs1.lan/public/amazone/copywriting_production/product/202508/黑白轧带.xlsx """ # 示例 URL(可以是本地文件路径或网络 URL) test_url = "http://s3.vs1.lan/public/amazone/copywriting_production/product/202508/1P镊子压刀.xlsx" # 替换为实际的 XLSX 文件 URL # 如果有本地测试文件,可以使用本地路径 # test_url = "path/to/local/test.xlsx" print(f"正在解析 URL: {test_url}") content = parse_xlsx_from_url(test_url) if content: print("解析成功!内容如下:") print(content) else: print("解析失败") if __name__ == "__main__": test_parse_xlsx()