1 bulan lalu · 6313111c3c
--- a/.claude/settings.local.json
+++ b/.claude/settings.local.json
@@ -17,7 +17,8 @@
 
															       "Bash(mv:*)",
														
 
															       "Bash(rm:*)",
														
 
															       "Bash(.venv/bin/python:*)",
														
 
															-      "Bash(./.venv/Scripts/python.exe:*)"
														
 
															+      "Bash(./.venv/Scripts/python.exe:*)",
														
 
															+      "Bash(sed:*)"
														
 
															     ],
														
 
															     "deny": []
														
 
															   }
														
--- a/citu_app.py
+++ b/citu_app.py
@@ -2755,5 +2755,478 @@ const chatSession = new ChatSession();
 
															 chatSession.askQuestion("各年龄段客户的流失率如何？");
														
 
															 """
														
 
															+# ==================== Data Pipeline API ====================
														
 
															+
														
 
															+# 导入简化的Data Pipeline模块
														
 
															+import asyncio
														
 
															+import os
														
 
															+from threading import Thread
														
 
															+from flask import send_file
														
 
															+
														
 
															+from data_pipeline.api.simple_workflow import SimpleWorkflowManager
														
 
															+from data_pipeline.api.simple_file_manager import SimpleFileManager
														
 
															+
														
 
															+# 创建简化的管理器
														
 
															+data_pipeline_manager = None
														
 
															+data_pipeline_file_manager = None
														
 
															+
														
 
															+def get_data_pipeline_manager():
														
 
															+    """获取Data Pipeline管理器单例"""
														
 
															+    global data_pipeline_manager
														
 
															+    if data_pipeline_manager is None:
														
 
															+        data_pipeline_manager = SimpleWorkflowManager()
														
 
															+    return data_pipeline_manager
														
 
															+
														
 
															+def get_data_pipeline_file_manager():
														
 
															+    """获取Data Pipeline文件管理器单例"""
														
 
															+    global data_pipeline_file_manager
														
 
															+    if data_pipeline_file_manager is None:
														
 
															+        data_pipeline_file_manager = SimpleFileManager()
														
 
															+    return data_pipeline_file_manager
														
 
															+
														
 
															+# ==================== 简化的Data Pipeline API端点 ====================
														
 
															+
														
 
															+@app.flask_app.route('/api/v0/data_pipeline/tasks', methods=['POST'])
														
 
															+def create_data_pipeline_task():
														
 
															+    """创建数据管道任务"""
														
 
															+    try:
														
 
															+        req = request.get_json(force=True)
														
 
															+        
														
 
															+        # 验证必需参数 - 移除db_connection，改为使用app_config配置
														
 
															+        required_params = ['table_list_file', 'business_context']
														
 
															+        missing_params = [param for param in required_params if not req.get(param)]
														
 
															+        
														
 
															+        if missing_params:
														
 
															+            return jsonify(bad_request_response(
														
 
															+                response_text=f"缺少必需参数: {', '.join(missing_params)}",
														
 
															+                missing_params=missing_params
														
 
															+            )), 400
														
 
															+        
														
 
															+        # 创建任务（自动使用app_config中的数据库配置）
														
 
															+        manager = get_data_pipeline_manager()
														
 
															+        task_id = manager.create_task(
														
 
															+            table_list_file=req.get('table_list_file'),
														
 
															+            business_context=req.get('business_context'),
														
 
															+            db_name=req.get('db_name'),  # 可选参数，用于指定特定数据库名称
														
 
															+            enable_sql_validation=req.get('enable_sql_validation', True),
														
 
															+            enable_llm_repair=req.get('enable_llm_repair', True),
														
 
															+            modify_original_file=req.get('modify_original_file', True),
														
 
															+            enable_training_data_load=req.get('enable_training_data_load', True)
														
 
															+        )
														
 
															+        
														
 
															+        # 获取任务信息
														
 
															+        task_info = manager.get_task_status(task_id)
														
 
															+        
														
 
															+        response_data = {
														
 
															+            "task_id": task_id,
														
 
															+            "status": task_info.get('status'),
														
 
															+            "created_at": task_info.get('created_at').isoformat() if task_info.get('created_at') else None
														
 
															+        }
														
 
															+        
														
 
															+        return jsonify(success_response(
														
 
															+            response_text="任务创建成功",
														
 
															+            data=response_data
														
 
															+        )), 201
														
 
															+        
														
 
															+    except Exception as e:
														
 
															+        logger.error(f"创建数据管道任务失败: {str(e)}")
														
 
															+        return jsonify(internal_error_response(
														
 
															+            response_text="创建任务失败，请稍后重试"
														
 
															+        )), 500
														
 
															+
														
 
															+@app.flask_app.route('/api/v0/data_pipeline/tasks/<task_id>/execute', methods=['POST'])
														
 
															+def execute_data_pipeline_task(task_id):
														
 
															+    """执行数据管道任务"""
														
 
															+    try:
														
 
															+        req = request.get_json(force=True) if request.is_json else {}
														
 
															+        execution_mode = req.get('execution_mode', 'complete')
														
 
															+        step_name = req.get('step_name')
														
 
															+        
														
 
															+        # 验证执行模式
														
 
															+        if execution_mode not in ['complete', 'step']:
														
 
															+            return jsonify(bad_request_response(
														
 
															+                response_text="无效的执行模式，必须是 'complete' 或 'step'",
														
 
															+                invalid_params=['execution_mode']
														
 
															+            )), 400
														
 
															+        
														
 
															+        # 如果是步骤执行模式，验证步骤名称
														
 
															+        if execution_mode == 'step':
														
 
															+            if not step_name:
														
 
															+                return jsonify(bad_request_response(
														
 
															+                    response_text="步骤执行模式需要指定step_name",
														
 
															+                    missing_params=['step_name']
														
 
															+                )), 400
														
 
															+            
														
 
															+            valid_steps = ['ddl_generation', 'qa_generation', 'sql_validation', 'training_load']
														
 
															+            if step_name not in valid_steps:
														
 
															+                return jsonify(bad_request_response(
														
 
															+                    response_text=f"无效的步骤名称，支持的步骤: {', '.join(valid_steps)}",
														
 
															+                    invalid_params=['step_name']
														
 
															+                )), 400
														
 
															+        
														
 
															+        # 检查任务是否存在
														
 
															+        manager = get_data_pipeline_manager()
														
 
															+        task_info = manager.get_task_status(task_id)
														
 
															+        if not task_info:
														
 
															+            return jsonify(not_found_response(
														
 
															+                response_text=f"任务不存在: {task_id}"
														
 
															+            )), 404
														
 
															+        
														
 
															+        # 使用subprocess启动独立进程执行任务
														
 
															+        def run_task_subprocess():
														
 
															+            try:
														
 
															+                import subprocess
														
 
															+                import sys
														
 
															+                from pathlib import Path
														
 
															+                
														
 
															+                # 构建执行命令
														
 
															+                python_executable = sys.executable
														
 
															+                script_path = Path(__file__).parent / "data_pipeline" / "task_executor.py"
														
 
															+                
														
 
															+                cmd = [
														
 
															+                    python_executable,
														
 
															+                    str(script_path),
														
 
															+                    "--task-id", task_id,
														
 
															+                    "--execution-mode", execution_mode
														
 
															+                ]
														
 
															+                
														
 
															+                if step_name:
														
 
															+                    cmd.extend(["--step-name", step_name])
														
 
															+                
														
 
															+                logger.info(f"启动任务进程: {' '.join(cmd)}")
														
 
															+                
														
 
															+                # 启动后台进程（不等待完成）
														
 
															+                process = subprocess.Popen(
														
 
															+                    cmd,
														
 
															+                    stdout=subprocess.PIPE,
														
 
															+                    stderr=subprocess.PIPE,
														
 
															+                    text=True,
														
 
															+                    cwd=Path(__file__).parent
														
 
															+                )
														
 
															+                
														
 
															+                logger.info(f"任务进程已启动: PID={process.pid}, task_id={task_id}")
														
 
															+                
														
 
															+            except Exception as e:
														
 
															+                logger.error(f"启动任务进程失败: {task_id}, 错误: {str(e)}")
														
 
															+        
														
 
															+        # 在新线程中启动subprocess（避免阻塞API响应）
														
 
															+        thread = Thread(target=run_task_subprocess, daemon=True)
														
 
															+        thread.start()
														
 
															+        
														
 
															+        response_data = {
														
 
															+            "task_id": task_id,
														
 
															+            "execution_mode": execution_mode,
														
 
															+            "step_name": step_name if execution_mode == 'step' else None,
														
 
															+            "message": "任务正在后台执行，请通过状态接口查询进度"
														
 
															+        }
														
 
															+        
														
 
															+        return jsonify(success_response(
														
 
															+            response_text="任务执行已启动",
														
 
															+            data=response_data
														
 
															+        )), 202
														
 
															+        
														
 
															+    except Exception as e:
														
 
															+        logger.error(f"启动数据管道任务执行失败: {str(e)}")
														
 
															+        return jsonify(internal_error_response(
														
 
															+            response_text="启动任务执行失败，请稍后重试"
														
 
															+        )), 500
														
 
															+
														
 
															+@app.flask_app.route('/api/v0/data_pipeline/tasks/<task_id>', methods=['GET'])
														
 
															+def get_data_pipeline_task_status(task_id):
														
 
															+    """
														
 
															+    获取数据管道任务状态
														
 
															+    
														
 
															+    响应:
														
 
															+    {
														
 
															+        "success": true,
														
 
															+        "code": 200,
														
 
															+        "message": "获取任务状态成功",
														
 
															+        "data": {
														
 
															+            "task_id": "task_20250627_143052",
														
 
															+            "status": "in_progress",
														
 
															+            "step_status": {
														
 
															+                "ddl_generation": "completed",
														
 
															+                "qa_generation": "running",
														
 
															+                "sql_validation": "pending",
														
 
															+                "training_load": "pending"
														
 
															+            },
														
 
															+            "created_at": "2025-06-27T14:30:52",
														
 
															+            "started_at": "2025-06-27T14:31:00",
														
 
															+            "parameters": {...},
														
 
															+            "current_execution": {...},
														
 
															+            "total_executions": 2
														
 
															+        }
														
 
															+    }
														
 
															+    """
														
 
															+    try:
														
 
															+        manager = get_data_pipeline_manager()
														
 
															+        task_info = manager.get_task_status(task_id)
														
 
															+        
														
 
															+        if not task_info:
														
 
															+            return jsonify(not_found_response(
														
 
															+                response_text=f"任务不存在: {task_id}"
														
 
															+            )), 404
														
 
															+        
														
 
															+        # 获取执行记录
														
 
															+        executions = manager.get_task_executions(task_id)
														
 
															+        current_execution = executions[0] if executions else None
														
 
															+        
														
 
															+        response_data = {
														
 
															+            "task_id": task_info['id'],
														
 
															+            "status": task_info['status'],
														
 
															+            "step_status": task_info.get('step_status', {}),
														
 
															+            "created_at": task_info['created_at'].isoformat() if task_info.get('created_at') else None,
														
 
															+            "started_at": task_info['started_at'].isoformat() if task_info.get('started_at') else None,
														
 
															+            "completed_at": task_info['completed_at'].isoformat() if task_info.get('completed_at') else None,
														
 
															+            "parameters": task_info.get('parameters', {}),
														
 
															+            "result": task_info.get('result'),
														
 
															+            "error_message": task_info.get('error_message'),
														
 
															+            "current_execution": {
														
 
															+                "execution_id": current_execution['execution_id'],
														
 
															+                "step": current_execution['execution_step'],
														
 
															+                "status": current_execution['status'],
														
 
															+                "started_at": current_execution['started_at'].isoformat() if current_execution.get('started_at') else None
														
 
															+            } if current_execution else None,
														
 
															+            "total_executions": len(executions)
														
 
															+        }
														
 
															+        
														
 
															+        return jsonify(success_response(
														
 
															+            response_text="获取任务状态成功",
														
 
															+            data=response_data
														
 
															+        ))
														
 
															+        
														
 
															+    except Exception as e:
														
 
															+        logger.error(f"获取数据管道任务状态失败: {str(e)}")
														
 
															+        return jsonify(internal_error_response(
														
 
															+            response_text="获取任务状态失败，请稍后重试"
														
 
															+        )), 500
														
 
															+
														
 
															+@app.flask_app.route('/api/v0/data_pipeline/tasks/<task_id>/logs', methods=['GET'])
														
 
															+def get_data_pipeline_task_logs(task_id):
														
 
															+    """
														
 
															+    获取数据管道任务日志
														
 
															+    
														
 
															+    查询参数:
														
 
															+    - limit: 日志数量限制，默认100
														
 
															+    - level: 日志级别过滤，可选
														
 
															+    
														
 
															+    响应:
														
 
															+    {
														
 
															+        "success": true,
														
 
															+        "code": 200,
														
 
															+        "message": "获取任务日志成功",
														
 
															+        "data": {
														
 
															+            "task_id": "task_20250627_143052",
														
 
															+            "logs": [
														
 
															+                {
														
 
															+                    "timestamp": "2025-06-27T14:30:52",
														
 
															+                    "level": "INFO",
														
 
															+                    "message": "任务开始执行",
														
 
															+                    "step_name": "ddl_generation",
														
 
															+                    "execution_id": "task_20250627_143052_step_ddl_generation_exec_20250627_143100"
														
 
															+                }
														
 
															+            ],
														
 
															+            "total": 15
														
 
															+        }
														
 
															+    }
														
 
															+    """
														
 
															+    try:
														
 
															+        limit = request.args.get('limit', 100, type=int)
														
 
															+        level = request.args.get('level')
														
 
															+        
														
 
															+        # 限制最大查询数量
														
 
															+        limit = min(limit, 1000)
														
 
															+        
														
 
															+        manager = get_data_pipeline_manager()
														
 
															+        
														
 
															+        # 验证任务是否存在
														
 
															+        task_info = manager.get_task_status(task_id)
														
 
															+        if not task_info:
														
 
															+            return jsonify(not_found_response(
														
 
															+                response_text=f"任务不存在: {task_id}"
														
 
															+            )), 404
														
 
															+        
														
 
															+        # 获取日志
														
 
															+        logs = manager.get_task_logs(task_id, limit=limit)
														
 
															+        
														
 
															+        # 过滤日志级别
														
 
															+        if level:
														
 
															+            logs = [log for log in logs if log.get('log_level') == level.upper()]
														
 
															+        
														
 
															+        # 格式化日志
														
 
															+        formatted_logs = []
														
 
															+        for log in logs:
														
 
															+            formatted_logs.append({
														
 
															+                "timestamp": log['timestamp'].isoformat() if log.get('timestamp') else None,
														
 
															+                "level": log.get('log_level'),
														
 
															+                "message": log.get('message'),
														
 
															+                "step_name": log.get('step_name'),
														
 
															+                "execution_id": log.get('execution_id'),
														
 
															+                "module_name": log.get('module_name'),
														
 
															+                "function_name": log.get('function_name'),
														
 
															+                "extra_data": log.get('extra_data')
														
 
															+            })
														
 
															+        
														
 
															+        response_data = {
														
 
															+            "task_id": task_id,
														
 
															+            "logs": formatted_logs,
														
 
															+            "total": len(formatted_logs)
														
 
															+        }
														
 
															+        
														
 
															+        return jsonify(success_response(
														
 
															+            response_text="获取任务日志成功",
														
 
															+            data=response_data
														
 
															+        ))
														
 
															+        
														
 
															+    except Exception as e:
														
 
															+        logger.error(f"获取数据管道任务日志失败: {str(e)}")
														
 
															+        return jsonify(internal_error_response(
														
 
															+            response_text="获取任务日志失败，请稍后重试"
														
 
															+        )), 500
														
 
															+
														
 
															+
														
 
															+@app.flask_app.route('/api/v0/data_pipeline/tasks', methods=['GET'])
														
 
															+def list_data_pipeline_tasks():
														
 
															+    """获取数据管道任务列表"""
														
 
															+    try:
														
 
															+        limit = request.args.get('limit', 50, type=int)
														
 
															+        offset = request.args.get('offset', 0, type=int)
														
 
															+        status_filter = request.args.get('status')
														
 
															+        
														
 
															+        # 限制查询数量
														
 
															+        limit = min(limit, 100)
														
 
															+        
														
 
															+        manager = get_data_pipeline_manager()
														
 
															+        tasks = manager.get_tasks_list(
														
 
															+            limit=limit,
														
 
															+            offset=offset,
														
 
															+            status_filter=status_filter
														
 
															+        )
														
 
															+        
														
 
															+        # 格式化任务列表
														
 
															+        formatted_tasks = []
														
 
															+        for task in tasks:
														
 
															+            formatted_tasks.append({
														
 
															+                "task_id": task.get('id'),
														
 
															+                "status": task.get('status'),
														
 
															+                "step_status": task.get('step_status'),
														
 
															+                "created_at": task['created_at'].isoformat() if task.get('created_at') else None,
														
 
															+                "started_at": task['started_at'].isoformat() if task.get('started_at') else None,
														
 
															+                "completed_at": task['completed_at'].isoformat() if task.get('completed_at') else None,
														
 
															+                "created_by": task.get('created_by'),
														
 
															+                "db_name": task.get('db_name'),
														
 
															+                "business_context": task.get('business_context')
														
 
															+            })
														
 
															+        
														
 
															+        response_data = {
														
 
															+            "tasks": formatted_tasks,
														
 
															+            "total": len(formatted_tasks),
														
 
															+            "limit": limit,
														
 
															+            "offset": offset
														
 
															+        }
														
 
															+        
														
 
															+        return jsonify(success_response(
														
 
															+            response_text="获取任务列表成功",
														
 
															+            data=response_data
														
 
															+        ))
														
 
															+        
														
 
															+    except Exception as e:
														
 
															+        logger.error(f"获取数据管道任务列表失败: {str(e)}")
														
 
															+        return jsonify(internal_error_response(
														
 
															+            response_text="获取任务列表失败，请稍后重试"
														
 
															+        )), 500
														
 
															+
														
 
															+# ==================== Data Pipeline 文件管理 API ====================
														
 
															+
														
 
															+from flask import send_file
														
 
															+
														
 
															+# 创建文件管理器
														
 
															+data_pipeline_file_manager = None
														
 
															+
														
 
															+def get_data_pipeline_file_manager():
														
 
															+    """获取Data Pipeline文件管理器单例"""
														
 
															+    global data_pipeline_file_manager
														
 
															+    if data_pipeline_file_manager is None:
														
 
															+        data_pipeline_file_manager = SimpleFileManager()
														
 
															+    return data_pipeline_file_manager
														
 
															+
														
 
															+@app.flask_app.route('/api/v0/data_pipeline/tasks/<task_id>/files', methods=['GET'])
														
 
															+def get_data_pipeline_task_files(task_id):
														
 
															+    """获取任务文件列表"""
														
 
															+    try:
														
 
															+        file_manager = get_data_pipeline_file_manager()
														
 
															+        
														
 
															+        # 获取任务文件
														
 
															+        files = file_manager.get_task_files(task_id)
														
 
															+        directory_info = file_manager.get_directory_info(task_id)
														
 
															+        
														
 
															+        # 格式化文件信息
														
 
															+        formatted_files = []
														
 
															+        for file_info in files:
														
 
															+            formatted_files.append({
														
 
															+                "file_name": file_info['file_name'],
														
 
															+                "file_type": file_info['file_type'],
														
 
															+                "file_size": file_info['file_size'],
														
 
															+                "file_size_formatted": file_info['file_size_formatted'],
														
 
															+                "created_at": file_info['created_at'].isoformat() if file_info.get('created_at') else None,
														
 
															+                "modified_at": file_info['modified_at'].isoformat() if file_info.get('modified_at') else None,
														
 
															+                "is_readable": file_info['is_readable']
														
 
															+            })
														
 
															+        
														
 
															+        response_data = {
														
 
															+            "task_id": task_id,
														
 
															+            "files": formatted_files,
														
 
															+            "directory_info": directory_info
														
 
															+        }
														
 
															+        
														
 
															+        return jsonify(success_response(
														
 
															+            response_text="获取任务文件列表成功",
														
 
															+            data=response_data
														
 
															+        ))
														
 
															+        
														
 
															+    except Exception as e:
														
 
															+        logger.error(f"获取任务文件列表失败: {str(e)}")
														
 
															+        return jsonify(internal_error_response(
														
 
															+            response_text="获取任务文件列表失败，请稍后重试"
														
 
															+        )), 500
														
 
															+
														
 
															+@app.flask_app.route('/api/v0/data_pipeline/tasks/<task_id>/files/<file_name>', methods=['GET'])
														
 
															+def download_data_pipeline_task_file(task_id, file_name):
														
 
															+    """下载任务文件"""
														
 
															+    try:
														
 
															+        file_manager = get_data_pipeline_file_manager()
														
 
															+        
														
 
															+        # 验证文件存在且安全
														
 
															+        if not file_manager.file_exists(task_id, file_name):
														
 
															+            return jsonify(not_found_response(
														
 
															+                response_text=f"文件不存在: {file_name}"
														
 
															+            )), 404
														
 
															+        
														
 
															+        if not file_manager.is_file_safe(task_id, file_name):
														
 
															+            return jsonify(bad_request_response(
														
 
															+                response_text="非法的文件路径"
														
 
															+            )), 400
														
 
															+        
														
 
															+        # 获取文件路径
														
 
															+        file_path = file_manager.get_file_path(task_id, file_name)
														
 
															+        
														
 
															+        # 检查文件是否可读
														
 
															+        if not os.access(file_path, os.R_OK):
														
 
															+            return jsonify(bad_request_response(
														
 
															+                response_text="文件不可读"
														
 
															+            )), 400
														
 
															+        
														
 
															+        return send_file(
														
 
															+            file_path,
														
 
															+            as_attachment=True,
														
 
															+            download_name=file_name
														
 
															+        )
														
 
															+        
														
 
															+    except Exception as e:
														
 
															+        logger.error(f"下载任务文件失败: {str(e)}")
														
 
															+        return jsonify(internal_error_response(
														
 
															+            response_text="下载文件失败，请稍后重试"
														
 
															+        )), 500
														
 
															+
														
 
															 logger.info("正在启动Flask应用: http://localhost:8084")
														
 
															-app.run(host="0.0.0.0", port=8084, debug=True)
														
 
															+app.run(host="0.0.0.0", port=8084, debug=True)
														
--- a/config/logging_config.yaml
+++ b/config/logging_config.yaml
@@ -40,6 +40,8 @@ modules:
 
															         backup_count: 10
														
 
															   data_pipeline:
														
 
															+    # 注意：data_pipeline的日志文件路径会在运行时动态设置到任务目录
														
 
															+    # 这里的file配置主要用于格式和级别设置
														
 
															     level: DEBUG
														
 
															     console:
														
 
															       enabled: true
														
@@ -48,12 +50,15 @@ modules:
 
															     file:
														
 
															       enabled: true
														
 
															       level: DEBUG
														
 
															-      filename: "data_pipeline.log"
														
 
															+      # filename 将在运行时动态设置，不在这里指定
														
 
															+      # filename: "data_pipeline.log"  # 移除固定路径
														
 
															       format: "%(asctime)s [%(levelname)s] [%(name)s] %(filename)s:%(lineno)d - %(message)s"
														
 
															       rotation:
														
 
															-        enabled: true
														
 
															-        max_size: "30MB"
														
 
															-        backup_count: 8
														
 
															+        # 对于任务特定的日志，通常不需要rotation
														
 
															+        # 但保留配置以防单个任务产生大量日志
														
 
															+        enabled: false  # 禁用rotation，因为每个任务的日志是独立的
														
 
															+        max_size: "10MB"    # 如果启用，限制为10MB
														
 
															+        backup_count: 2     # 如果启用，只保留2个备份
														
 
															   agent:
														
 
															     level: DEBUG
														
--- a/core/logging/log_manager.py
+++ b/core/logging/log_manager.py
@@ -123,6 +123,19 @@ class LogManager:
 
															     def _configure_logger(self, logger: logging.Logger, module: str):
														
 
															         """配置具体的logger"""
														
 
															+        # 如果配置未初始化，使用默认的控制台日志配置
														
 
															+        if self.config is None:
														
 
															+            logger.setLevel(logging.INFO)
														
 
															+            if not logger.handlers:
														
 
															+                console_handler = logging.StreamHandler()
														
 
															+                formatter = logging.Formatter(
														
 
															+                    '%(asctime)s - %(name)s - %(levelname)s - %(message)s'
														
 
															+                )
														
 
															+                console_handler.setFormatter(formatter)
														
 
															+                logger.addHandler(console_handler)
														
 
															+                logger.propagate = False
														
 
															+            return
														
 
															+            
														
 
															         module_config = self.config.get('modules', {}).get(module, self.config['default'])
														
 
															         # 设置日志级别
														
--- a/data_pipeline/api/__init__.py
+++ b/data_pipeline/api/__init__.py
@@ -0,0 +1,9 @@
 
															+"""
														
 
															+Data Pipeline API模块
														
 
															+
														
 
															+提供数据管道任务的API支持，包括：
														
 
															+- 任务管理
														
 
															+- 执行跟踪
														
 
															+- 日志记录
														
 
															+- 文件管理
														
 
															+"""
														
--- a/data_pipeline/api/simple_db_manager.py
+++ b/data_pipeline/api/simple_db_manager.py
@@ -0,0 +1,334 @@
 
															+"""
														
 
															+Data Pipeline API 简化数据库管理器
														
 
															+
														
 
															+复用现有的pgvector数据库连接机制，提供Data Pipeline任务的数据库操作功能
														
 
															+"""
														
 
															+
														
 
															+import json
														
 
															+from datetime import datetime
														
 
															+from typing import Dict, Any, List, Optional, Tuple
														
 
															+
														
 
															+import psycopg2
														
 
															+from psycopg2.extras import RealDictCursor, Json
														
 
															+
														
 
															+from app_config import PGVECTOR_CONFIG
														
 
															+from core.logging import get_data_pipeline_logger
														
 
															+
														
 
															+
														
 
															+class SimpleTaskManager:
														
 
															+    """简化的任务管理器，复用现有pgvector连接"""
														
 
															+    
														
 
															+    def __init__(self):
														
 
															+        """初始化任务管理器"""
														
 
															+        self.logger = get_data_pipeline_logger("SimpleTaskManager")
														
 
															+        self._connection = None
														
 
															+    
														
 
															+    def _get_connection(self):
														
 
															+        """获取pgvector数据库连接"""
														
 
															+        if self._connection is None or self._connection.closed:
														
 
															+            try:
														
 
															+                self._connection = psycopg2.connect(
														
 
															+                    host=PGVECTOR_CONFIG.get('host'),
														
 
															+                    port=PGVECTOR_CONFIG.get('port'),
														
 
															+                    database=PGVECTOR_CONFIG.get('dbname'),
														
 
															+                    user=PGVECTOR_CONFIG.get('user'),
														
 
															+                    password=PGVECTOR_CONFIG.get('password')
														
 
															+                )
														
 
															+                self._connection.autocommit = True
														
 
															+            except Exception as e:
														
 
															+                self.logger.error(f"pgvector数据库连接失败: {e}")
														
 
															+                raise
														
 
															+        return self._connection
														
 
															+    
														
 
															+    def close_connection(self):
														
 
															+        """关闭数据库连接"""
														
 
															+        if self._connection and not self._connection.closed:
														
 
															+            self._connection.close()
														
 
															+            self._connection = None
														
 
															+    
														
 
															+    def generate_task_id(self) -> str:
														
 
															+        """生成任务ID，格式: task_YYYYMMDD_HHMMSS"""
														
 
															+        timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
														
 
															+        return f"task_{timestamp}"
														
 
															+    
														
 
															+    def create_task(self, 
														
 
															+                   table_list_file: str,
														
 
															+                   business_context: str,
														
 
															+                   db_name: str = None,
														
 
															+                   **kwargs) -> str:
														
 
															+        """创建新任务"""
														
 
															+        task_id = self.generate_task_id()
														
 
															+        
														
 
															+        # 从 app_config 获取业务数据库连接信息
														
 
															+        from app_config import APP_DB_CONFIG
														
 
															+        
														
 
															+        # 构建业务数据库连接字符串（用于参数记录）
														
 
															+        business_db_connection = self._build_db_connection_string(APP_DB_CONFIG)
														
 
															+        
														
 
															+        # 使用传入的db_name或从APP_DB_CONFIG提取
														
 
															+        if not db_name:
														
 
															+            db_name = APP_DB_CONFIG.get('dbname', 'business_db')
														
 
															+        
														
 
															+        # 构建参数
														
 
															+        parameters = {
														
 
															+            "db_connection": business_db_connection,  # 业务数据库连接（用于schema_workflow执行）
														
 
															+            "table_list_file": table_list_file,
														
 
															+            "business_context": business_context,
														
 
															+            **kwargs
														
 
															+        }
														
 
															+        
														
 
															+        try:
														
 
															+            conn = self._get_connection()
														
 
															+            with conn.cursor() as cursor:
														
 
															+                cursor.execute("""
														
 
															+                    INSERT INTO data_pipeline_tasks (
														
 
															+                        id, task_type, status, parameters, created_by, 
														
 
															+                        db_name, business_context, output_directory
														
 
															+                    ) VALUES (%s, %s, %s, %s, %s, %s, %s, %s)
														
 
															+                """, (
														
 
															+                    task_id, 
														
 
															+                    'data_workflow', 
														
 
															+                    'pending', 
														
 
															+                    Json(parameters),
														
 
															+                    'api',
														
 
															+                    db_name,
														
 
															+                    business_context,
														
 
															+                    f"./data_pipeline/training_data/{task_id}"
														
 
															+                ))
														
 
															+                
														
 
															+            self.logger.info(f"任务创建成功: {task_id}")
														
 
															+            return task_id
														
 
															+            
														
 
															+        except Exception as e:
														
 
															+            self.logger.error(f"任务创建失败: {e}")
														
 
															+            raise
														
 
															+    
														
 
															+    def get_task(self, task_id: str) -> Optional[Dict[str, Any]]:
														
 
															+        """获取任务信息"""
														
 
															+        try:
														
 
															+            conn = self._get_connection()
														
 
															+            with conn.cursor(cursor_factory=RealDictCursor) as cursor:
														
 
															+                cursor.execute("SELECT * FROM data_pipeline_tasks WHERE id = %s", (task_id,))
														
 
															+                result = cursor.fetchone()
														
 
															+                return dict(result) if result else None
														
 
															+        except Exception as e:
														
 
															+            self.logger.error(f"获取任务信息失败: {e}")
														
 
															+            raise
														
 
															+    
														
 
															+    def update_task_status(self, task_id: str, status: str, error_message: Optional[str] = None):
														
 
															+        """更新任务状态"""
														
 
															+        try:
														
 
															+            conn = self._get_connection()
														
 
															+            with conn.cursor() as cursor:
														
 
															+                update_fields = ["status = %s"]
														
 
															+                values = [status]
														
 
															+                
														
 
															+                if status == 'in_progress' and not self._get_task_started_at(task_id):
														
 
															+                    update_fields.append("started_at = CURRENT_TIMESTAMP")
														
 
															+                
														
 
															+                if status in ['completed', 'failed']:
														
 
															+                    update_fields.append("completed_at = CURRENT_TIMESTAMP")
														
 
															+                
														
 
															+                if error_message:
														
 
															+                    update_fields.append("error_message = %s")
														
 
															+                    values.append(error_message)
														
 
															+                
														
 
															+                values.append(task_id)
														
 
															+                
														
 
															+                cursor.execute(f"""
														
 
															+                    UPDATE data_pipeline_tasks 
														
 
															+                    SET {', '.join(update_fields)}
														
 
															+                    WHERE id = %s
														
 
															+                """, values)
														
 
															+                
														
 
															+                self.logger.info(f"任务状态更新: {task_id} -> {status}")
														
 
															+        except Exception as e:
														
 
															+            self.logger.error(f"任务状态更新失败: {e}")
														
 
															+            raise
														
 
															+    
														
 
															+    def update_step_status(self, task_id: str, step_name: str, step_status: str):
														
 
															+        """更新步骤状态"""
														
 
															+        try:
														
 
															+            conn = self._get_connection()
														
 
															+            with conn.cursor() as cursor:
														
 
															+                cursor.execute("""
														
 
															+                    UPDATE data_pipeline_tasks 
														
 
															+                    SET step_status = jsonb_set(step_status, %s, %s)
														
 
															+                    WHERE id = %s
														
 
															+                """, ([step_name], json.dumps(step_status), task_id))
														
 
															+                
														
 
															+                self.logger.debug(f"步骤状态更新: {task_id}.{step_name} -> {step_status}")
														
 
															+        except Exception as e:
														
 
															+            self.logger.error(f"步骤状态更新失败: {e}")
														
 
															+            raise
														
 
															+    
														
 
															+    def create_execution(self, task_id: str, execution_step: str) -> str:
														
 
															+        """创建执行记录"""
														
 
															+        timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
														
 
															+        execution_id = f"{task_id}_step_{execution_step}_exec_{timestamp}"
														
 
															+        
														
 
															+        try:
														
 
															+            conn = self._get_connection()
														
 
															+            with conn.cursor() as cursor:
														
 
															+                cursor.execute("""
														
 
															+                    INSERT INTO data_pipeline_task_executions (
														
 
															+                        task_id, execution_step, status, execution_id
														
 
															+                    ) VALUES (%s, %s, %s, %s)
														
 
															+                """, (task_id, execution_step, 'running', execution_id))
														
 
															+                
														
 
															+                self.logger.info(f"执行记录创建: {execution_id}")
														
 
															+                return execution_id
														
 
															+        except Exception as e:
														
 
															+            self.logger.error(f"执行记录创建失败: {e}")
														
 
															+            raise
														
 
															+    
														
 
															+    def complete_execution(self, execution_id: str, status: str, error_message: Optional[str] = None):
														
 
															+        """完成执行记录"""
														
 
															+        try:
														
 
															+            conn = self._get_connection()
														
 
															+            with conn.cursor() as cursor:
														
 
															+                # 计算执行时长
														
 
															+                cursor.execute("""
														
 
															+                    SELECT started_at FROM data_pipeline_task_executions 
														
 
															+                    WHERE execution_id = %s
														
 
															+                """, (execution_id,))
														
 
															+                result = cursor.fetchone()
														
 
															+                
														
 
															+                duration_seconds = None
														
 
															+                if result and result[0]:
														
 
															+                    duration_seconds = int((datetime.now() - result[0]).total_seconds())
														
 
															+                
														
 
															+                # 更新执行记录
														
 
															+                update_fields = ["status = %s", "completed_at = CURRENT_TIMESTAMP"]
														
 
															+                values = [status]
														
 
															+                
														
 
															+                if duration_seconds is not None:
														
 
															+                    update_fields.append("duration_seconds = %s")
														
 
															+                    values.append(duration_seconds)
														
 
															+                
														
 
															+                if error_message:
														
 
															+                    update_fields.append("error_message = %s")
														
 
															+                    values.append(error_message)
														
 
															+                
														
 
															+                values.append(execution_id)
														
 
															+                
														
 
															+                cursor.execute(f"""
														
 
															+                    UPDATE data_pipeline_task_executions 
														
 
															+                    SET {', '.join(update_fields)}
														
 
															+                    WHERE execution_id = %s
														
 
															+                """, values)
														
 
															+                
														
 
															+                self.logger.info(f"执行记录完成: {execution_id} -> {status}")
														
 
															+        except Exception as e:
														
 
															+            self.logger.error(f"执行记录完成失败: {e}")
														
 
															+            raise
														
 
															+    
														
 
															+    def record_log(self, task_id: str, log_level: str, message: str, 
														
 
															+                   execution_id: Optional[str] = None, step_name: Optional[str] = None):
														
 
															+        """记录日志到数据库"""
														
 
															+        try:
														
 
															+            conn = self._get_connection()
														
 
															+            with conn.cursor() as cursor:
														
 
															+                cursor.execute("""
														
 
															+                    INSERT INTO data_pipeline_task_logs (
														
 
															+                        task_id, execution_id, log_level, message, step_name
														
 
															+                    ) VALUES (%s, %s, %s, %s, %s)
														
 
															+                """, (task_id, execution_id, log_level, message, step_name))
														
 
															+        except Exception as e:
														
 
															+            self.logger.error(f"日志记录失败: {e}")
														
 
															+    
														
 
															+    def get_task_logs(self, task_id: str, limit: int = 100) -> List[Dict[str, Any]]:
														
 
															+        """获取任务日志"""
														
 
															+        try:
														
 
															+            conn = self._get_connection()
														
 
															+            with conn.cursor(cursor_factory=RealDictCursor) as cursor:
														
 
															+                cursor.execute("""
														
 
															+                    SELECT * FROM data_pipeline_task_logs 
														
 
															+                    WHERE task_id = %s 
														
 
															+                    ORDER BY timestamp DESC 
														
 
															+                    LIMIT %s
														
 
															+                """, (task_id, limit))
														
 
															+                
														
 
															+                return [dict(row) for row in cursor.fetchall()]
														
 
															+        except Exception as e:
														
 
															+            self.logger.error(f"获取任务日志失败: {e}")
														
 
															+            raise
														
 
															+    
														
 
															+    def get_task_executions(self, task_id: str) -> List[Dict[str, Any]]:
														
 
															+        """获取任务执行记录"""
														
 
															+        try:
														
 
															+            conn = self._get_connection()
														
 
															+            with conn.cursor(cursor_factory=RealDictCursor) as cursor:
														
 
															+                cursor.execute("""
														
 
															+                    SELECT * FROM data_pipeline_task_executions 
														
 
															+                    WHERE task_id = %s 
														
 
															+                    ORDER BY started_at DESC
														
 
															+                """, (task_id,))
														
 
															+                
														
 
															+                return [dict(row) for row in cursor.fetchall()]
														
 
															+        except Exception as e:
														
 
															+            self.logger.error(f"获取执行记录失败: {e}")
														
 
															+            raise
														
 
															+    
														
 
															+    def get_tasks_list(self, limit: int = 50, offset: int = 0, status_filter: Optional[str] = None) -> List[Dict[str, Any]]:
														
 
															+        """获取任务列表"""
														
 
															+        try:
														
 
															+            conn = self._get_connection()
														
 
															+            with conn.cursor(cursor_factory=RealDictCursor) as cursor:
														
 
															+                where_clause = ""
														
 
															+                params = []
														
 
															+                
														
 
															+                if status_filter:
														
 
															+                    where_clause = "WHERE status = %s"
														
 
															+                    params.append(status_filter)
														
 
															+                
														
 
															+                params.extend([limit, offset])
														
 
															+                
														
 
															+                cursor.execute(f"""
														
 
															+                    SELECT * FROM data_pipeline_tasks 
														
 
															+                    {where_clause}
														
 
															+                    ORDER BY created_at DESC 
														
 
															+                    LIMIT %s OFFSET %s
														
 
															+                """, params)
														
 
															+                
														
 
															+                return [dict(row) for row in cursor.fetchall()]
														
 
															+        except Exception as e:
														
 
															+            self.logger.error(f"获取任务列表失败: {e}")
														
 
															+            raise
														
 
															+    
														
 
															+    def _get_task_started_at(self, task_id: str) -> Optional[datetime]:
														
 
															+        """获取任务开始时间"""
														
 
															+        try:
														
 
															+            conn = self._get_connection()
														
 
															+            with conn.cursor() as cursor:
														
 
															+                cursor.execute("SELECT started_at FROM data_pipeline_tasks WHERE id = %s", (task_id,))
														
 
															+                result = cursor.fetchone()
														
 
															+                return result[0] if result and result[0] else None
														
 
															+        except Exception:
														
 
															+            return None
														
 
															+    
														
 
															+    def _build_db_connection_string(self, db_config: dict) -> str:
														
 
															+        """构建数据库连接字符串"""
														
 
															+        try:
														
 
															+            host = db_config.get('host', 'localhost')
														
 
															+            port = db_config.get('port', 5432)
														
 
															+            dbname = db_config.get('dbname', 'database')
														
 
															+            user = db_config.get('user', 'postgres')
														
 
															+            password = db_config.get('password', '')
														
 
															+            
														
 
															+            return f"postgresql://{user}:{password}@{host}:{port}/{dbname}"
														
 
															+        except Exception:
														
 
															+            return "postgresql://localhost:5432/database"
														
 
															+    
														
 
															+    def _extract_db_name(self, connection_string: str) -> str:
														
 
															+        """从连接字符串提取数据库名称"""
														
 
															+        try:
														
 
															+            if '/' in connection_string:
														
 
															+                db_name = connection_string.split('/')[-1]
														
 
															+                if '?' in db_name:
														
 
															+                    db_name = db_name.split('?')[0]
														
 
															+                return db_name if db_name else "database"
														
 
															+            else:
														
 
															+                return "database"
														
 
															+        except Exception:
														
 
															+            return "database"
														
--- a/data_pipeline/api/simple_file_manager.py
+++ b/data_pipeline/api/simple_file_manager.py
@@ -0,0 +1,182 @@
 
															+"""
														
 
															+Data Pipeline API 简化文件管理器
														
 
															+
														
 
															+提供简单的文件列表和下载功能，无压缩等复杂功能
														
 
															+"""
														
 
															+
														
 
															+import os
														
 
															+from pathlib import Path
														
 
															+from typing import Dict, Any, List
														
 
															+from datetime import datetime
														
 
															+
														
 
															+from core.logging import get_data_pipeline_logger
														
 
															+
														
 
															+
														
 
															+class SimpleFileManager:
														
 
															+    """简化的文件管理器"""
														
 
															+    
														
 
															+    def __init__(self, base_output_dir: str = "./data_pipeline/training_data/"):
														
 
															+        """
														
 
															+        初始化文件管理器
														
 
															+        
														
 
															+        Args:
														
 
															+            base_output_dir: 基础输出目录
														
 
															+        """
														
 
															+        self.base_output_dir = Path(base_output_dir)
														
 
															+        self.logger = get_data_pipeline_logger("SimpleFileManager")
														
 
															+        
														
 
															+        # 确保基础目录存在
														
 
															+        self.base_output_dir.mkdir(parents=True, exist_ok=True)
														
 
															+    
														
 
															+    def get_task_directory(self, task_id: str) -> Path:
														
 
															+        """获取任务目录路径"""
														
 
															+        return self.base_output_dir / task_id
														
 
															+    
														
 
															+    def create_task_directory(self, task_id: str) -> bool:
														
 
															+        """创建任务目录"""
														
 
															+        try:
														
 
															+            task_dir = self.get_task_directory(task_id)
														
 
															+            task_dir.mkdir(parents=True, exist_ok=True)
														
 
															+            self.logger.info(f"任务目录已创建: {task_dir}")
														
 
															+            return True
														
 
															+        except Exception as e:
														
 
															+            self.logger.error(f"创建任务目录失败: {e}")
														
 
															+            return False
														
 
															+    
														
 
															+    def get_task_files(self, task_id: str) -> List[Dict[str, Any]]:
														
 
															+        """获取任务目录下的所有文件信息"""
														
 
															+        try:
														
 
															+            task_dir = self.get_task_directory(task_id)
														
 
															+            if not task_dir.exists():
														
 
															+                return []
														
 
															+            
														
 
															+            files_info = []
														
 
															+            for file_path in task_dir.iterdir():
														
 
															+                if file_path.is_file():
														
 
															+                    file_info = self._get_file_info(file_path)
														
 
															+                    files_info.append(file_info)
														
 
															+            
														
 
															+            # 按修改时间排序（最新的在前）
														
 
															+            files_info.sort(key=lambda x: x['modified_at'], reverse=True)
														
 
															+            return files_info
														
 
															+            
														
 
															+        except Exception as e:
														
 
															+            self.logger.error(f"获取任务文件失败: {e}")
														
 
															+            return []
														
 
															+    
														
 
															+    def _get_file_info(self, file_path: Path) -> Dict[str, Any]:
														
 
															+        """获取单个文件的基本信息"""
														
 
															+        try:
														
 
															+            stat = file_path.stat()
														
 
															+            
														
 
															+            return {
														
 
															+                "file_name": file_path.name,
														
 
															+                "file_path": str(file_path),
														
 
															+                "file_type": self._determine_file_type(file_path),
														
 
															+                "file_size": stat.st_size,
														
 
															+                "file_size_formatted": self._format_file_size(stat.st_size),
														
 
															+                "created_at": datetime.fromtimestamp(stat.st_ctime),
														
 
															+                "modified_at": datetime.fromtimestamp(stat.st_mtime),
														
 
															+                "is_readable": os.access(file_path, os.R_OK)
														
 
															+            }
														
 
															+            
														
 
															+        except Exception as e:
														
 
															+            self.logger.error(f"获取文件信息失败: {e}")
														
 
															+            return {
														
 
															+                "file_name": file_path.name,
														
 
															+                "file_path": str(file_path),
														
 
															+                "file_type": "unknown",
														
 
															+                "file_size": 0,
														
 
															+                "file_size_formatted": "0 B",
														
 
															+                "created_at": datetime.now(),
														
 
															+                "modified_at": datetime.now(),
														
 
															+                "is_readable": False
														
 
															+            }
														
 
															+    
														
 
															+    def _determine_file_type(self, file_path: Path) -> str:
														
 
															+        """根据文件扩展名确定文件类型"""
														
 
															+        suffix = file_path.suffix.lower()
														
 
															+        
														
 
															+        type_mapping = {
														
 
															+            '.ddl': 'ddl',
														
 
															+            '.sql': 'sql',
														
 
															+            '.md': 'markdown',
														
 
															+            '.markdown': 'markdown',
														
 
															+            '.json': 'json',
														
 
															+            '.txt': 'text',
														
 
															+            '.log': 'log'
														
 
															+        }
														
 
															+        
														
 
															+        return type_mapping.get(suffix, 'other')
														
 
															+    
														
 
															+    def _format_file_size(self, size_bytes: int) -> str:
														
 
															+        """格式化文件大小显示"""
														
 
															+        if size_bytes == 0:
														
 
															+            return "0 B"
														
 
															+        
														
 
															+        size_names = ["B", "KB", "MB", "GB"]
														
 
															+        i = 0
														
 
															+        size = float(size_bytes)
														
 
															+        
														
 
															+        while size >= 1024.0 and i < len(size_names) - 1:
														
 
															+            size /= 1024.0
														
 
															+            i += 1
														
 
															+        
														
 
															+        return f"{size:.1f} {size_names[i]}"
														
 
															+    
														
 
															+    def get_file_path(self, task_id: str, file_name: str) -> Path:
														
 
															+        """获取文件的完整路径"""
														
 
															+        task_dir = self.get_task_directory(task_id)
														
 
															+        return task_dir / file_name
														
 
															+    
														
 
															+    def file_exists(self, task_id: str, file_name: str) -> bool:
														
 
															+        """检查文件是否存在"""
														
 
															+        file_path = self.get_file_path(task_id, file_name)
														
 
															+        return file_path.exists() and file_path.is_file()
														
 
															+    
														
 
															+    def is_file_safe(self, task_id: str, file_name: str) -> bool:
														
 
															+        """检查文件路径是否安全（防止路径遍历攻击）"""
														
 
															+        try:
														
 
															+            task_dir = self.get_task_directory(task_id)
														
 
															+            file_path = task_dir / file_name
														
 
															+            
														
 
															+            # 确保文件在任务目录内
														
 
															+            file_path.resolve().relative_to(task_dir.resolve())
														
 
															+            return True
														
 
															+        except ValueError:
														
 
															+            return False
														
 
															+    
														
 
															+    def get_directory_info(self, task_id: str) -> Dict[str, Any]:
														
 
															+        """获取任务目录信息"""
														
 
															+        try:
														
 
															+            task_dir = self.get_task_directory(task_id)
														
 
															+            
														
 
															+            if not task_dir.exists():
														
 
															+                return {
														
 
															+                    "exists": False,
														
 
															+                    "directory_path": str(task_dir),
														
 
															+                    "total_files": 0,
														
 
															+                    "total_size": 0,
														
 
															+                    "total_size_formatted": "0 B"
														
 
															+                }
														
 
															+            
														
 
															+            files = self.get_task_files(task_id)
														
 
															+            total_size = sum(file_info['file_size'] for file_info in files)
														
 
															+            
														
 
															+            return {
														
 
															+                "exists": True,
														
 
															+                "directory_path": str(task_dir),
														
 
															+                "total_files": len(files),
														
 
															+                "total_size": total_size,
														
 
															+                "total_size_formatted": self._format_file_size(total_size)
														
 
															+            }
														
 
															+            
														
 
															+        except Exception as e:
														
 
															+            self.logger.error(f"获取目录信息失败: {e}")
														
 
															+            return {
														
 
															+                "exists": False,
														
 
															+                "directory_path": str(self.get_task_directory(task_id)),
														
 
															+                "total_files": 0,
														
 
															+                "total_size": 0,
														
 
															+                "total_size_formatted": "0 B"
														
 
															+            }
														
--- a/data_pipeline/api/simple_workflow.py
+++ b/data_pipeline/api/simple_workflow.py
@@ -0,0 +1,521 @@
 
															+"""
														
 
															+Data Pipeline API 简化任务工作流
														
 
															+
														
 
															+集成简化后的数据库管理器和文件管理器，提供任务执行功能
														
 
															+"""
														
 
															+
														
 
															+import asyncio
														
 
															+import json
														
 
															+import os
														
 
															+import logging
														
 
															+from datetime import datetime
														
 
															+from pathlib import Path
														
 
															+from typing import Dict, Any, Optional, List
														
 
															+from contextlib import contextmanager
														
 
															+
														
 
															+from data_pipeline.schema_workflow import SchemaWorkflowOrchestrator
														
 
															+from data_pipeline.api.simple_db_manager import SimpleTaskManager
														
 
															+from data_pipeline.api.simple_file_manager import SimpleFileManager
														
 
															+from core.logging import get_data_pipeline_logger
														
 
															+
														
 
															+
														
 
															+class SimpleWorkflowExecutor:
														
 
															+    """简化的任务工作流执行器"""
														
 
															+    
														
 
															+    def __init__(self, task_id: str):
														
 
															+        """
														
 
															+        初始化工作流执行器
														
 
															+        
														
 
															+        Args:
														
 
															+            task_id: 任务ID
														
 
															+        """
														
 
															+        self.task_id = task_id
														
 
															+        self.logger = get_data_pipeline_logger("SimpleWorkflowExecutor")
														
 
															+        
														
 
															+        # 初始化管理器
														
 
															+        self.task_manager = SimpleTaskManager()
														
 
															+        self.file_manager = SimpleFileManager()
														
 
															+        
														
 
															+        # 任务目录日志记录器
														
 
															+        self.task_dir_logger = None
														
 
															+        
														
 
															+        # 加载任务信息
														
 
															+        self.task_info = None
														
 
															+        self.task_params = None
														
 
															+        self._load_task_info()
														
 
															+    
														
 
															+    def _load_task_info(self):
														
 
															+        """加载任务信息"""
														
 
															+        try:
														
 
															+            self.task_info = self.task_manager.get_task(self.task_id)
														
 
															+            if self.task_info:
														
 
															+                self.task_params = self.task_info.get('parameters', {})
														
 
															+            else:
														
 
															+                raise ValueError(f"任务不存在: {self.task_id}")
														
 
															+        except Exception as e:
														
 
															+            self.logger.error(f"加载任务信息失败: {e}")
														
 
															+            raise
														
 
															+    
														
 
															+    def _ensure_task_directory(self) -> bool:
														
 
															+        """确保任务目录存在"""
														
 
															+        try:
														
 
															+            success = self.file_manager.create_task_directory(self.task_id)
														
 
															+            if success:
														
 
															+                # 写入任务配置文件
														
 
															+                self._write_task_config()
														
 
															+                # 初始化任务目录日志记录器
														
 
															+                self._setup_task_directory_logger()
														
 
															+            return success
														
 
															+        except Exception as e:
														
 
															+            self.logger.error(f"创建任务目录失败: {e}")
														
 
															+            return False
														
 
															+    
														
 
															+    def _write_task_config(self):
														
 
															+        """写入任务配置文件"""
														
 
															+        try:
														
 
															+            task_dir = self.file_manager.get_task_directory(self.task_id)
														
 
															+            config_file = task_dir / "task_config.json"
														
 
															+            
														
 
															+            config_data = {
														
 
															+                "task_id": self.task_id,
														
 
															+                "created_at": self.task_info.get('created_at').isoformat() if self.task_info.get('created_at') else None,
														
 
															+                "parameters": self.task_params,
														
 
															+                "output_directory": str(task_dir)
														
 
															+            }
														
 
															+            
														
 
															+            with open(config_file, 'w', encoding='utf-8') as f:
														
 
															+                json.dump(config_data, f, ensure_ascii=False, indent=2, default=str)
														
 
															+                
														
 
															+        except Exception as e:
														
 
															+            self.logger.error(f"写入任务配置失败: {e}")
														
 
															+    
														
 
															+    def _setup_task_directory_logger(self):
														
 
															+        """设置任务目录日志记录器"""
														
 
															+        try:
														
 
															+            task_dir = self.file_manager.get_task_directory(self.task_id)
														
 
															+            log_file = task_dir / "data_pipeline.log"
														
 
															+            
														
 
															+            # 创建专门的任务目录日志记录器
														
 
															+            self.task_dir_logger = logging.getLogger(f"TaskDir_{self.task_id}")
														
 
															+            self.task_dir_logger.setLevel(logging.DEBUG)
														
 
															+            
														
 
															+            # 清除已有处理器
														
 
															+            self.task_dir_logger.handlers.clear()
														
 
															+            self.task_dir_logger.propagate = False
														
 
															+            
														
 
															+            # 创建文件处理器
														
 
															+            file_handler = logging.FileHandler(log_file, encoding='utf-8')
														
 
															+            file_handler.setLevel(logging.DEBUG)
														
 
															+            
														
 
															+            # 设置详细的日志格式
														
 
															+            formatter = logging.Formatter(
														
 
															+                '%(asctime)s [%(levelname)s] %(name)s: %(message)s',
														
 
															+                datefmt='%Y-%m-%d %H:%M:%S'
														
 
															+            )
														
 
															+            file_handler.setFormatter(formatter)
														
 
															+            
														
 
															+            self.task_dir_logger.addHandler(file_handler)
														
 
															+            
														
 
															+            # 记录初始化信息
														
 
															+            self.task_dir_logger.info(f"任务目录日志初始化完成 - 任务ID: {self.task_id}")
														
 
															+            self.task_dir_logger.info(f"任务参数: {json.dumps(self.task_params, ensure_ascii=False, default=str)}")
														
 
															+            
														
 
															+        except Exception as e:
														
 
															+            self.logger.error(f"设置任务目录日志记录器失败: {e}")
														
 
															+    
														
 
															+    def _log_to_task_directory(self, level: str, message: str, step_name: str = None):
														
 
															+        """记录日志到任务目录"""
														
 
															+        if self.task_dir_logger:
														
 
															+            try:
														
 
															+                if step_name:
														
 
															+                    message = f"[{step_name}] {message}"
														
 
															+                
														
 
															+                log_level = getattr(logging, level.upper(), logging.INFO)
														
 
															+                self.task_dir_logger.log(log_level, message)
														
 
															+            except Exception as e:
														
 
															+                self.logger.error(f"记录任务目录日志失败: {e}")
														
 
															+    
														
 
															+    def _create_orchestrator(self) -> SchemaWorkflowOrchestrator:
														
 
															+        """创建工作流编排器"""
														
 
															+        task_dir = self.file_manager.get_task_directory(self.task_id)
														
 
															+        
														
 
															+        return SchemaWorkflowOrchestrator(
														
 
															+            db_connection=self.task_params['db_connection'],
														
 
															+            table_list_file=self.task_params['table_list_file'],
														
 
															+            business_context=self.task_params['business_context'],
														
 
															+            output_dir=str(task_dir),
														
 
															+            enable_sql_validation=self.task_params.get('enable_sql_validation', True),
														
 
															+            enable_llm_repair=self.task_params.get('enable_llm_repair', True),
														
 
															+            modify_original_file=self.task_params.get('modify_original_file', True),
														
 
															+            enable_training_data_load=self.task_params.get('enable_training_data_load', True)
														
 
															+        )
														
 
															+    
														
 
															+    @contextmanager
														
 
															+    def _step_execution(self, step_name: str):
														
 
															+        """步骤执行上下文管理器"""
														
 
															+        execution_id = None
														
 
															+        
														
 
															+        try:
														
 
															+            # 开始执行
														
 
															+            execution_id = self.task_manager.create_execution(self.task_id, step_name)
														
 
															+            self.task_manager.update_step_status(self.task_id, step_name, "running")
														
 
															+            self.task_manager.record_log(self.task_id, "INFO", f"开始执行步骤: {step_name}", execution_id, step_name)
														
 
															+            
														
 
															+            # 记录到任务目录日志
														
 
															+            self._log_to_task_directory("INFO", f"开始执行步骤: {step_name}", step_name)
														
 
															+            
														
 
															+            yield execution_id
														
 
															+            
														
 
															+            # 成功完成
														
 
															+            self.task_manager.complete_execution(execution_id, 'completed')
														
 
															+            self.task_manager.update_step_status(self.task_id, step_name, "completed")
														
 
															+            self.task_manager.record_log(self.task_id, "INFO", f"步骤执行完成: {step_name}", execution_id, step_name)
														
 
															+            
														
 
															+            # 记录到任务目录日志
														
 
															+            self._log_to_task_directory("INFO", f"步骤执行完成: {step_name}", step_name)
														
 
															+            
														
 
															+        except Exception as e:
														
 
															+            # 执行失败
														
 
															+            error_msg = str(e)
														
 
															+            
														
 
															+            if execution_id:
														
 
															+                self.task_manager.complete_execution(execution_id, 'failed', error_msg)
														
 
															+            
														
 
															+            self.task_manager.update_step_status(self.task_id, step_name, "failed")
														
 
															+            self.task_manager.record_log(self.task_id, "ERROR", f"步骤执行失败: {step_name} - {error_msg}", execution_id, step_name)
														
 
															+            
														
 
															+            # 记录到任务目录日志
														
 
															+            self._log_to_task_directory("ERROR", f"步骤执行失败: {step_name} - {error_msg}", step_name)
														
 
															+            raise
														
 
															+    
														
 
															+    async def execute_complete_workflow(self) -> Dict[str, Any]:
														
 
															+        """执行完整工作流"""
														
 
															+        try:
														
 
															+            # 确保任务目录存在
														
 
															+            if not self._ensure_task_directory():
														
 
															+                raise Exception("无法创建任务目录")
														
 
															+            
														
 
															+            # 开始任务
														
 
															+            self.task_manager.update_task_status(self.task_id, 'in_progress')
														
 
															+            self.task_manager.record_log(self.task_id, "INFO", "任务开始执行")
														
 
															+            
														
 
															+            # 记录到任务目录日志
														
 
															+            self._log_to_task_directory("INFO", "完整工作流任务开始执行")
														
 
															+            
														
 
															+            # 创建工作流编排器
														
 
															+            orchestrator = self._create_orchestrator()
														
 
															+            
														
 
															+            # 执行完整工作流
														
 
															+            with self._step_execution("complete") as execution_id:
														
 
															+                self.task_manager.record_log(self.task_id, "INFO", "开始执行完整工作流", execution_id, "complete")
														
 
															+                
														
 
															+                # 重定向SchemaWorkflowOrchestrator的日志到任务目录
														
 
															+                self._redirect_orchestrator_logs(orchestrator)
														
 
															+                
														
 
															+                result = await orchestrator.execute_complete_workflow()
														
 
															+                
														
 
															+                # 写入结果文件
														
 
															+                self._write_result_file(result)
														
 
															+                
														
 
															+                self.task_manager.record_log(self.task_id, "INFO", "完整工作流执行完成", execution_id, "complete")
														
 
															+            
														
 
															+            # 更新所有子步骤状态为完成
														
 
															+            self._update_all_step_status_for_complete_workflow(result)
														
 
															+            
														
 
															+            # 完成任务
														
 
															+            self.task_manager.update_task_status(self.task_id, 'completed')
														
 
															+            self.task_manager.record_log(self.task_id, "INFO", "任务执行完成")
														
 
															+            
														
 
															+            # 记录到任务目录日志
														
 
															+            self._log_to_task_directory("INFO", "完整工作流任务执行完成")
														
 
															+            
														
 
															+            return {
														
 
															+                "success": True,
														
 
															+                "task_id": self.task_id,
														
 
															+                "execution_mode": "complete",
														
 
															+                "result": result
														
 
															+            }
														
 
															+            
														
 
															+        except Exception as e:
														
 
															+            # 记录错误
														
 
															+            error_msg = str(e)
														
 
															+            self.task_manager.record_log(self.task_id, "ERROR", f"任务执行失败: {error_msg}")
														
 
															+            self.task_manager.update_task_status(self.task_id, 'failed', error_msg)
														
 
															+            
														
 
															+            # 记录到任务目录日志
														
 
															+            self._log_to_task_directory("ERROR", f"完整工作流任务执行失败: {error_msg}")
														
 
															+            
														
 
															+            return {
														
 
															+                "success": False,
														
 
															+                "task_id": self.task_id,
														
 
															+                "execution_mode": "complete",
														
 
															+                "error": error_msg
														
 
															+            }
														
 
															+    
														
 
															+    async def execute_single_step(self, step_name: str) -> Dict[str, Any]:
														
 
															+        """执行单个步骤"""
														
 
															+        try:
														
 
															+            # 确保任务目录存在
														
 
															+            if not self._ensure_task_directory():
														
 
															+                raise Exception("无法创建任务目录")
														
 
															+            
														
 
															+            # 更新任务状态
														
 
															+            self.task_manager.update_task_status(self.task_id, 'in_progress')
														
 
															+            
														
 
															+            # 创建工作流编排器
														
 
															+            orchestrator = self._create_orchestrator()
														
 
															+            
														
 
															+            # 重定向SchemaWorkflowOrchestrator的日志到任务目录
														
 
															+            self._redirect_orchestrator_logs(orchestrator)
														
 
															+            
														
 
															+            # 执行指定步骤
														
 
															+            result = None
														
 
															+            with self._step_execution(step_name) as execution_id:
														
 
															+                if step_name == "ddl_generation":
														
 
															+                    await orchestrator._execute_step_1_ddl_md_generation()
														
 
															+                    result = orchestrator.workflow_state["artifacts"].get("ddl_md_generation", {})
														
 
															+                    
														
 
															+                elif step_name == "qa_generation":
														
 
															+                    await orchestrator._execute_step_2_question_sql_generation()
														
 
															+                    result = orchestrator.workflow_state["artifacts"].get("question_sql_generation", {})
														
 
															+                    
														
 
															+                elif step_name == "sql_validation":
														
 
															+                    await orchestrator._execute_step_3_sql_validation()
														
 
															+                    result = orchestrator.workflow_state["artifacts"].get("sql_validation", {})
														
 
															+                    
														
 
															+                elif step_name == "training_load":
														
 
															+                    await orchestrator._execute_step_4_training_data_load()
														
 
															+                    result = orchestrator.workflow_state["artifacts"].get("training_data_load", {})
														
 
															+                    
														
 
															+                else:
														
 
															+                    raise ValueError(f"不支持的步骤: {step_name}")
														
 
															+                
														
 
															+                # 写入步骤结果文件
														
 
															+                self._write_step_result_file(step_name, result)
														
 
															+            
														
 
															+            # 检查是否所有步骤都已完成
														
 
															+            self._update_overall_task_status()
														
 
															+            
														
 
															+            return {
														
 
															+                "success": True,
														
 
															+                "task_id": self.task_id,
														
 
															+                "execution_mode": "step",
														
 
															+                "step_name": step_name,
														
 
															+                "result": result
														
 
															+            }
														
 
															+            
														
 
															+        except Exception as e:
														
 
															+            # 记录错误
														
 
															+            error_msg = str(e)
														
 
															+            self.task_manager.record_log(self.task_id, "ERROR", f"步骤执行失败: {step_name} - {error_msg}")
														
 
															+            self.task_manager.update_task_status(self.task_id, 'failed', error_msg)
														
 
															+            
														
 
															+            # 记录到任务目录日志
														
 
															+            self._log_to_task_directory("ERROR", f"步骤执行失败: {step_name} - {error_msg}", step_name)
														
 
															+            
														
 
															+            return {
														
 
															+                "success": False,
														
 
															+                "task_id": self.task_id,
														
 
															+                "execution_mode": "step",
														
 
															+                "step_name": step_name,
														
 
															+                "error": error_msg
														
 
															+            }
														
 
															+    
														
 
															+    def _write_result_file(self, result: Dict[str, Any]):
														
 
															+        """写入完整结果文件"""
														
 
															+        try:
														
 
															+            task_dir = self.file_manager.get_task_directory(self.task_id)
														
 
															+            result_file = task_dir / "task_result.json"
														
 
															+            
														
 
															+            with open(result_file, 'w', encoding='utf-8') as f:
														
 
															+                json.dump(result, f, ensure_ascii=False, indent=2, default=str)
														
 
															+                
														
 
															+        except Exception as e:
														
 
															+            self.logger.error(f"写入结果文件失败: {e}")
														
 
															+    
														
 
															+    def _write_step_result_file(self, step_name: str, result: Dict[str, Any]):
														
 
															+        """写入步骤结果文件"""
														
 
															+        try:
														
 
															+            task_dir = self.file_manager.get_task_directory(self.task_id)
														
 
															+            result_file = task_dir / f"{step_name}_result.json"
														
 
															+            
														
 
															+            with open(result_file, 'w', encoding='utf-8') as f:
														
 
															+                json.dump(result, f, ensure_ascii=False, indent=2, default=str)
														
 
															+                
														
 
															+        except Exception as e:
														
 
															+            self.logger.error(f"写入步骤结果文件失败: {e}")
														
 
															+    
														
 
															+    def _update_overall_task_status(self):
														
 
															+        """更新整体任务状态"""
														
 
															+        try:
														
 
															+            # 检查所有步骤的完成情况
														
 
															+            executions = self.task_manager.get_task_executions(self.task_id)
														
 
															+            
														
 
															+            completed_steps = set()
														
 
															+            failed_steps = set()
														
 
															+            
														
 
															+            for execution in executions:
														
 
															+                if execution['status'] == 'completed':
														
 
															+                    completed_steps.add(execution['execution_step'])
														
 
															+                elif execution['status'] == 'failed':
														
 
															+                    failed_steps.add(execution['execution_step'])
														
 
															+            
														
 
															+            # 检查是否有失败的步骤
														
 
															+            if failed_steps:
														
 
															+                self.task_manager.update_task_status(self.task_id, 'failed')
														
 
															+                return
														
 
															+            
														
 
															+            # 检查是否完成了必要步骤
														
 
															+            required_steps = {"ddl_generation", "qa_generation"}
														
 
															+            if required_steps.issubset(completed_steps):
														
 
															+                # 检查是否有可选步骤完成
														
 
															+                optional_steps = {"sql_validation", "training_load"}
														
 
															+                if completed_steps.intersection(optional_steps):
														
 
															+                    if len(completed_steps) >= 3:
														
 
															+                        self.task_manager.update_task_status(self.task_id, 'completed')
														
 
															+                    else:
														
 
															+                        self.task_manager.update_task_status(self.task_id, 'partial_completed')
														
 
															+                else:
														
 
															+                    self.task_manager.update_task_status(self.task_id, 'partial_completed')
														
 
															+            
														
 
															+        except Exception as e:
														
 
															+            self.logger.error(f"更新任务状态失败: {e}")
														
 
															+    
														
 
															+    def _redirect_orchestrator_logs(self, orchestrator):
														
 
															+        """重定向SchemaWorkflowOrchestrator的日志到任务目录"""
														
 
															+        if self.task_dir_logger and hasattr(orchestrator, 'logger'):
														
 
															+            try:
														
 
															+                # 为orchestrator的logger添加任务目录文件处理器
														
 
															+                for handler in self.task_dir_logger.handlers:
														
 
															+                    if isinstance(handler, logging.FileHandler):
														
 
															+                        orchestrator.logger.addHandler(handler)
														
 
															+                        break
														
 
															+            except Exception as e:
														
 
															+                self.logger.error(f"重定向orchestrator日志失败: {e}")
														
 
															+    
														
 
															+    def _update_all_step_status_for_complete_workflow(self, result: Dict[str, Any]):
														
 
															+        """完整工作流成功后，更新所有子步骤状态为完成"""
														
 
															+        try:
														
 
															+            # 定义完整工作流包含的所有步骤
														
 
															+            workflow_steps = ["ddl_generation", "qa_generation", "sql_validation", "training_load"]
														
 
															+            
														
 
															+            # 记录日志
														
 
															+            self._log_to_task_directory("INFO", "开始更新完整工作流各步骤状态为完成")
														
 
															+            
														
 
															+            # 逐一更新每个步骤的状态为完成
														
 
															+            for step_name in workflow_steps:
														
 
															+                try:
														
 
															+                    self.task_manager.update_step_status(self.task_id, step_name, "completed")
														
 
															+                    self.task_manager.record_log(
														
 
															+                        self.task_id, 
														
 
															+                        "INFO", 
														
 
															+                        f"完整工作流执行成功，更新步骤状态为完成: {step_name}",
														
 
															+                        step_name=step_name
														
 
															+                    )
														
 
															+                    self._log_to_task_directory("INFO", f"更新步骤状态为完成: {step_name}", step_name)
														
 
															+                except Exception as step_error:
														
 
															+                    self.logger.error(f"更新步骤状态失败 {step_name}: {step_error}")
														
 
															+                    self._log_to_task_directory("ERROR", f"更新步骤状态失败: {step_name} - {step_error}", step_name)
														
 
															+            
														
 
															+            self._log_to_task_directory("INFO", "完整工作流各步骤状态更新完成")
														
 
															+            
														
 
															+        except Exception as e:
														
 
															+            self.logger.error(f"更新完整工作流步骤状态失败: {e}")
														
 
															+            self._log_to_task_directory("ERROR", f"更新完整工作流步骤状态失败: {e}")
														
 
															+    
														
 
															+    def cleanup(self):
														
 
															+        """清理资源"""
														
 
															+        try:
														
 
															+            # 清理任务目录日志记录器
														
 
															+            if self.task_dir_logger:
														
 
															+                for handler in self.task_dir_logger.handlers:
														
 
															+                    handler.close()
														
 
															+                self.task_dir_logger.handlers.clear()
														
 
															+                
														
 
															+            self.task_manager.close_connection()
														
 
															+        except Exception as e:
														
 
															+            self.logger.error(f"清理资源失败: {e}")
														
 
															+
														
 
															+
														
 
															+class SimpleWorkflowManager:
														
 
															+    """简化的任务工作流管理器"""
														
 
															+    
														
 
															+    def __init__(self):
														
 
															+        """初始化工作流管理器"""
														
 
															+        self.task_manager = SimpleTaskManager()
														
 
															+        self.file_manager = SimpleFileManager()
														
 
															+        self.logger = get_data_pipeline_logger("SimpleWorkflowManager")
														
 
															+    
														
 
															+    def create_task(self, 
														
 
															+                   table_list_file: str,
														
 
															+                   business_context: str,
														
 
															+                   db_name: str = None,
														
 
															+                   **kwargs) -> str:
														
 
															+        """创建新任务"""
														
 
															+        try:
														
 
															+            # 验证表清单文件存在
														
 
															+            if not os.path.exists(table_list_file):
														
 
															+                raise FileNotFoundError(f"表清单文件不存在: {table_list_file}")
														
 
															+            
														
 
															+            # 创建任务（使用app_config中的数据库配置）
														
 
															+            task_id = self.task_manager.create_task(
														
 
															+                table_list_file=table_list_file,
														
 
															+                business_context=business_context,
														
 
															+                db_name=db_name,
														
 
															+                **kwargs
														
 
															+            )
														
 
															+            
														
 
															+            return task_id
														
 
															+            
														
 
															+        except Exception as e:
														
 
															+            self.logger.error(f"创建任务失败: {e}")
														
 
															+            raise
														
 
															+    
														
 
															+    async def execute_task(self, 
														
 
															+                          task_id: str,
														
 
															+                          execution_mode: str = "complete",
														
 
															+                          step_name: Optional[str] = None) -> Dict[str, Any]:
														
 
															+        """执行任务"""
														
 
															+        executor = None
														
 
															+        try:
														
 
															+            executor = SimpleWorkflowExecutor(task_id)
														
 
															+            
														
 
															+            if execution_mode == "complete":
														
 
															+                return await executor.execute_complete_workflow()
														
 
															+            elif execution_mode == "step":
														
 
															+                if not step_name:
														
 
															+                    raise ValueError("步骤执行模式需要指定step_name")
														
 
															+                return await executor.execute_single_step(step_name)
														
 
															+            else:
														
 
															+                raise ValueError(f"不支持的执行模式: {execution_mode}")
														
 
															+                
														
 
															+        finally:
														
 
															+            if executor:
														
 
															+                executor.cleanup()
														
 
															+    
														
 
															+    def get_task_status(self, task_id: str) -> Optional[Dict[str, Any]]:
														
 
															+        """获取任务状态"""
														
 
															+        return self.task_manager.get_task(task_id)
														
 
															+    
														
 
															+    def get_task_logs(self, task_id: str, limit: int = 100) -> List[Dict[str, Any]]:
														
 
															+        """获取任务日志"""
														
 
															+        return self.task_manager.get_task_logs(task_id, limit)
														
 
															+    
														
 
															+    def get_task_files(self, task_id: str) -> List[Dict[str, Any]]:
														
 
															+        """获取任务文件列表"""
														
 
															+        return self.file_manager.get_task_files(task_id)
														
 
															+    
														
 
															+    def get_task_executions(self, task_id: str) -> List[Dict[str, Any]]:
														
 
															+        """获取任务执行记录"""
														
 
															+        return self.task_manager.get_task_executions(task_id)
														
 
															+    
														
 
															+    def get_tasks_list(self, **kwargs) -> List[Dict[str, Any]]:
														
 
															+        """获取任务列表"""
														
 
															+        return self.task_manager.get_tasks_list(**kwargs)
														
 
															+    
														
 
															+    def cleanup(self):
														
 
															+        """清理资源"""
														
 
															+        try:
														
 
															+            self.task_manager.close_connection()
														
 
															+        except Exception as e:
														
 
															+            self.logger.error(f"清理资源失败: {e}")
														
--- a/data_pipeline/sql/init_tables.sql
+++ b/data_pipeline/sql/init_tables.sql
@@ -0,0 +1,346 @@
 
															+-- Data Pipeline API 数据库初始化脚本
														
 
															+-- 
														
 
															+-- 此脚本在pgvector向量数据库中创建Data Pipeline API系统所需的表和索引
														
 
															+-- 注意：这些表应该创建在pgvector数据库中，而不是业务数据库中
														
 
															+-- 
														
 
															+-- 执行方式（使用PGVECTOR_CONFIG中的连接信息）：
														
 
															+-- psql -h host -p port -U username -d pgvector_database_name -f init_tables.sql
														
 
															+
														
 
															+-- 设置客户端编码
														
 
															+SET client_encoding = 'UTF8';
														
 
															+
														
 
															+-- 开始事务
														
 
															+BEGIN;
														
 
															+
														
 
															+-- ====================================================================
														
 
															+-- 任务主表 (data_pipeline_tasks)
														
 
															+-- ====================================================================
														
 
															+CREATE TABLE IF NOT EXISTS data_pipeline_tasks (
														
 
															+    -- 主键：时间戳格式的任务ID
														
 
															+    id VARCHAR(32) PRIMARY KEY,                    -- 'task_20250627_143052'
														
 
															+    
														
 
															+    -- 任务基本信息
														
 
															+    task_type VARCHAR(50) NOT NULL DEFAULT 'data_workflow',
														
 
															+    status VARCHAR(20) NOT NULL DEFAULT 'pending', -- pending/in_progress/partial_completed/completed/failed
														
 
															+    
														
 
															+    -- 配置和结果（JSON格式）
														
 
															+    parameters JSONB NOT NULL,                     -- 任务配置参数
														
 
															+    result JSONB,                                  -- 最终执行结果
														
 
															+    
														
 
															+    -- 错误处理
														
 
															+    error_message TEXT,                            -- 错误详细信息
														
 
															+    
														
 
															+    -- 步骤状态跟踪
														
 
															+    step_status JSONB DEFAULT '{
														
 
															+        "ddl_generation": "pending",
														
 
															+        "qa_generation": "pending", 
														
 
															+        "sql_validation": "pending",
														
 
															+        "training_load": "pending"
														
 
															+    }'::jsonb,
														
 
															+    
														
 
															+    -- 时间戳
														
 
															+    created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
														
 
															+    started_at TIMESTAMP,
														
 
															+    completed_at TIMESTAMP,
														
 
															+    
														
 
															+    -- 创建者信息
														
 
															+    created_by VARCHAR(50) DEFAULT 'api',          -- 'api', 'manual', 'system'
														
 
															+    
														
 
															+    -- 输出目录
														
 
															+    output_directory TEXT,                         -- 任务输出目录路径
														
 
															+    
														
 
															+    -- 索引字段
														
 
															+    db_name VARCHAR(100),                          -- 数据库名称（便于筛选）
														
 
															+    business_context TEXT                          -- 业务上下文（便于搜索）
														
 
															+);
														
 
															+
														
 
															+-- 添加约束
														
 
															+ALTER TABLE data_pipeline_tasks ADD CONSTRAINT chk_task_status 
														
 
															+    CHECK (status IN ('pending', 'in_progress', 'partial_completed', 'completed', 'failed'));
														
 
															+
														
 
															+ALTER TABLE data_pipeline_tasks ADD CONSTRAINT chk_task_type 
														
 
															+    CHECK (task_type IN ('data_workflow', 'complete_workflow'));
														
 
															+
														
 
															+ALTER TABLE data_pipeline_tasks ADD CONSTRAINT chk_created_by 
														
 
															+    CHECK (created_by IN ('api', 'manual', 'system'));
														
 
															+
														
 
															+-- ====================================================================
														
 
															+-- 任务执行记录表 (data_pipeline_task_executions)
														
 
															+-- ====================================================================
														
 
															+CREATE TABLE IF NOT EXISTS data_pipeline_task_executions (
														
 
															+    id SERIAL PRIMARY KEY,
														
 
															+    task_id VARCHAR(32) REFERENCES data_pipeline_tasks(id) ON DELETE CASCADE,
														
 
															+    execution_step VARCHAR(50) NOT NULL,          -- 'ddl_generation', 'qa_generation', 'sql_validation', 'training_load', 'complete'
														
 
															+    status VARCHAR(20) NOT NULL,                  -- 'running', 'completed', 'failed'
														
 
															+    started_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
														
 
															+    completed_at TIMESTAMP,
														
 
															+    error_message TEXT,
														
 
															+    execution_result JSONB,                       -- 步骤执行结果
														
 
															+    execution_id VARCHAR(100) UNIQUE,             -- {task_id}_step_{step_name}_exec_{timestamp}
														
 
															+    force_executed BOOLEAN DEFAULT FALSE,         -- 是否强制执行
														
 
															+    files_cleaned BOOLEAN DEFAULT FALSE,          -- 是否清理了旧文件
														
 
															+    duration_seconds INTEGER                      -- 执行时长（秒）
														
 
															+);
														
 
															+
														
 
															+-- 添加约束
														
 
															+ALTER TABLE data_pipeline_task_executions ADD CONSTRAINT chk_execution_status 
														
 
															+    CHECK (status IN ('running', 'completed', 'failed'));
														
 
															+
														
 
															+ALTER TABLE data_pipeline_task_executions ADD CONSTRAINT chk_execution_step 
														
 
															+    CHECK (execution_step IN ('ddl_generation', 'qa_generation', 'sql_validation', 'training_load', 'complete'));
														
 
															+
														
 
															+ALTER TABLE data_pipeline_task_executions ADD CONSTRAINT chk_duration_positive 
														
 
															+    CHECK (duration_seconds IS NULL OR duration_seconds >= 0);
														
 
															+
														
 
															+-- ====================================================================
														
 
															+-- 任务日志表 (data_pipeline_task_logs)
														
 
															+-- ====================================================================
														
 
															+CREATE TABLE IF NOT EXISTS data_pipeline_task_logs (
														
 
															+    id SERIAL PRIMARY KEY,
														
 
															+    task_id VARCHAR(32) REFERENCES data_pipeline_tasks(id) ON DELETE CASCADE,
														
 
															+    execution_id VARCHAR(100) REFERENCES data_pipeline_task_executions(execution_id) ON DELETE SET NULL,
														
 
															+    
														
 
															+    -- 日志内容
														
 
															+    log_level VARCHAR(10) NOT NULL,               -- 'DEBUG', 'INFO', 'WARNING', 'ERROR', 'CRITICAL'
														
 
															+    message TEXT NOT NULL,                        -- 日志消息内容
														
 
															+    
														
 
															+    -- 上下文信息
														
 
															+    step_name VARCHAR(50),                        -- 执行步骤名称
														
 
															+    module_name VARCHAR(100),                     -- 模块名称
														
 
															+    function_name VARCHAR(100),                   -- 函数名称
														
 
															+    
														
 
															+    -- 时间戳
														
 
															+    timestamp TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
														
 
															+    
														
 
															+    -- 额外信息（JSON格式）
														
 
															+    extra_data JSONB DEFAULT '{}'::jsonb          -- 额外的结构化信息
														
 
															+);
														
 
															+
														
 
															+-- 添加约束
														
 
															+ALTER TABLE data_pipeline_task_logs ADD CONSTRAINT chk_log_level 
														
 
															+    CHECK (log_level IN ('DEBUG', 'INFO', 'WARNING', 'ERROR', 'CRITICAL'));
														
 
															+
														
 
															+-- ====================================================================
														
 
															+-- 任务输出文件表 (data_pipeline_task_outputs)
														
 
															+-- ====================================================================
														
 
															+CREATE TABLE IF NOT EXISTS data_pipeline_task_outputs (
														
 
															+    id SERIAL PRIMARY KEY,
														
 
															+    task_id VARCHAR(32) REFERENCES data_pipeline_tasks(id) ON DELETE CASCADE,
														
 
															+    execution_id VARCHAR(100) REFERENCES data_pipeline_task_executions(execution_id) ON DELETE SET NULL,
														
 
															+    
														
 
															+    -- 文件信息
														
 
															+    file_type VARCHAR(50) NOT NULL,               -- 'ddl', 'md', 'json', 'log', 'report'
														
 
															+    file_name VARCHAR(255) NOT NULL,              -- 文件名
														
 
															+    file_path TEXT NOT NULL,                      -- 相对路径
														
 
															+    file_size BIGINT DEFAULT 0,                   -- 文件大小（字节）
														
 
															+    
														
 
															+    -- 文件内容摘要
														
 
															+    content_hash VARCHAR(64),                     -- 文件内容hash
														
 
															+    description TEXT,                             -- 文件描述
														
 
															+    
														
 
															+    -- 时间戳
														
 
															+    created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
														
 
															+    modified_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
														
 
															+    
														
 
															+    -- 状态
														
 
															+    is_primary BOOLEAN DEFAULT FALSE,             -- 是否为主要输出文件
														
 
															+    is_downloadable BOOLEAN DEFAULT TRUE          -- 是否可下载
														
 
															+);
														
 
															+
														
 
															+-- 添加约束
														
 
															+ALTER TABLE data_pipeline_task_outputs ADD CONSTRAINT chk_file_type 
														
 
															+    CHECK (file_type IN ('ddl', 'md', 'json', 'log', 'report', 'txt', 'other'));
														
 
															+
														
 
															+ALTER TABLE data_pipeline_task_outputs ADD CONSTRAINT chk_file_size_positive 
														
 
															+    CHECK (file_size >= 0);
														
 
															+
														
 
															+-- ====================================================================
														
 
															+-- 创建索引
														
 
															+-- ====================================================================
														
 
															+
														
 
															+-- 任务表索引
														
 
															+CREATE INDEX IF NOT EXISTS idx_tasks_status ON data_pipeline_tasks(status);
														
 
															+CREATE INDEX IF NOT EXISTS idx_tasks_created_at ON data_pipeline_tasks(created_at DESC);
														
 
															+CREATE INDEX IF NOT EXISTS idx_tasks_db_name ON data_pipeline_tasks(db_name);
														
 
															+CREATE INDEX IF NOT EXISTS idx_tasks_created_by ON data_pipeline_tasks(created_by);
														
 
															+CREATE INDEX IF NOT EXISTS idx_tasks_task_type ON data_pipeline_tasks(task_type);
														
 
															+
														
 
															+-- 执行记录表索引
														
 
															+CREATE INDEX IF NOT EXISTS idx_executions_task_id ON data_pipeline_task_executions(task_id);
														
 
															+CREATE INDEX IF NOT EXISTS idx_executions_step ON data_pipeline_task_executions(execution_step);
														
 
															+CREATE INDEX IF NOT EXISTS idx_executions_status ON data_pipeline_task_executions(status);
														
 
															+CREATE INDEX IF NOT EXISTS idx_executions_started_at ON data_pipeline_task_executions(started_at DESC);
														
 
															+CREATE INDEX IF NOT EXISTS idx_executions_task_step ON data_pipeline_task_executions(task_id, execution_step);
														
 
															+
														
 
															+-- 日志表索引
														
 
															+CREATE INDEX IF NOT EXISTS idx_logs_task_id ON data_pipeline_task_logs(task_id);
														
 
															+CREATE INDEX IF NOT EXISTS idx_logs_execution_id ON data_pipeline_task_logs(execution_id);
														
 
															+CREATE INDEX IF NOT EXISTS idx_logs_timestamp ON data_pipeline_task_logs(timestamp DESC);
														
 
															+CREATE INDEX IF NOT EXISTS idx_logs_level ON data_pipeline_task_logs(log_level);
														
 
															+CREATE INDEX IF NOT EXISTS idx_logs_step ON data_pipeline_task_logs(step_name);
														
 
															+CREATE INDEX IF NOT EXISTS idx_logs_task_timestamp ON data_pipeline_task_logs(task_id, timestamp DESC);
														
 
															+
														
 
															+-- 文件输出表索引
														
 
															+CREATE INDEX IF NOT EXISTS idx_outputs_task_id ON data_pipeline_task_outputs(task_id);
														
 
															+CREATE INDEX IF NOT EXISTS idx_outputs_execution_id ON data_pipeline_task_outputs(execution_id);
														
 
															+CREATE INDEX IF NOT EXISTS idx_outputs_file_type ON data_pipeline_task_outputs(file_type);
														
 
															+CREATE INDEX IF NOT EXISTS idx_outputs_primary ON data_pipeline_task_outputs(is_primary) WHERE is_primary = TRUE;
														
 
															+CREATE INDEX IF NOT EXISTS idx_outputs_downloadable ON data_pipeline_task_outputs(is_downloadable) WHERE is_downloadable = TRUE;
														
 
															+
														
 
															+-- ====================================================================
														
 
															+-- 创建清理函数
														
 
															+-- ====================================================================
														
 
															+
														
 
															+-- 清理旧任务的函数
														
 
															+CREATE OR REPLACE FUNCTION cleanup_old_data_pipeline_tasks(days_to_keep INTEGER DEFAULT 30)
														
 
															+RETURNS INTEGER AS $$
														
 
															+DECLARE
														
 
															+    deleted_count INTEGER;
														
 
															+    cutoff_date TIMESTAMP;
														
 
															+BEGIN
														
 
															+    cutoff_date := NOW() - INTERVAL '1 day' * days_to_keep;
														
 
															+    
														
 
															+    -- 删除旧任务（级联删除相关日志和文件记录）
														
 
															+    DELETE FROM data_pipeline_tasks 
														
 
															+    WHERE created_at < cutoff_date 
														
 
															+    AND status IN ('completed', 'failed');
														
 
															+    
														
 
															+    GET DIAGNOSTICS deleted_count = ROW_COUNT;
														
 
															+    
														
 
															+    -- 记录清理操作
														
 
															+    INSERT INTO data_pipeline_task_logs (task_id, log_level, message, step_name)
														
 
															+    VALUES ('system', 'INFO', 
														
 
															+            FORMAT('清理了 %s 个超过 %s 天的旧任务', deleted_count, days_to_keep),
														
 
															+            'cleanup');
														
 
															+    
														
 
															+    RETURN deleted_count;
														
 
															+END;
														
 
															+$$ LANGUAGE plpgsql;
														
 
															+
														
 
															+-- 获取任务统计信息的函数
														
 
															+CREATE OR REPLACE FUNCTION get_data_pipeline_task_stats()
														
 
															+RETURNS TABLE (
														
 
															+    total_tasks INTEGER,
														
 
															+    pending_tasks INTEGER,
														
 
															+    running_tasks INTEGER,
														
 
															+    completed_tasks INTEGER,
														
 
															+    failed_tasks INTEGER,
														
 
															+    avg_completion_time INTERVAL
														
 
															+) AS $$
														
 
															+BEGIN
														
 
															+    RETURN QUERY
														
 
															+    SELECT 
														
 
															+        COUNT(*)::INTEGER as total_tasks,
														
 
															+        COUNT(*) FILTER (WHERE status = 'pending')::INTEGER as pending_tasks,
														
 
															+        COUNT(*) FILTER (WHERE status IN ('in_progress'))::INTEGER as running_tasks,
														
 
															+        COUNT(*) FILTER (WHERE status = 'completed')::INTEGER as completed_tasks,
														
 
															+        COUNT(*) FILTER (WHERE status = 'failed')::INTEGER as failed_tasks,
														
 
															+        AVG(completed_at - started_at) FILTER (WHERE status = 'completed') as avg_completion_time
														
 
															+    FROM data_pipeline_tasks;
														
 
															+END;
														
 
															+$$ LANGUAGE plpgsql;
														
 
															+
														
 
															+-- 检查僵尸任务的函数
														
 
															+CREATE OR REPLACE FUNCTION check_zombie_data_pipeline_tasks(timeout_hours INTEGER DEFAULT 2)
														
 
															+RETURNS INTEGER AS $$
														
 
															+DECLARE
														
 
															+    zombie_count INTEGER;
														
 
															+    cutoff_time TIMESTAMP;
														
 
															+BEGIN
														
 
															+    cutoff_time := NOW() - INTERVAL '1 hour' * timeout_hours;
														
 
															+    
														
 
															+    -- 查找超时的运行中执行
														
 
															+    UPDATE data_pipeline_task_executions 
														
 
															+    SET status = 'failed',
														
 
															+        error_message = FORMAT('执行超时（超过%s小时），可能已停止运行', timeout_hours),
														
 
															+        completed_at = NOW()
														
 
															+    WHERE status = 'running' 
														
 
															+    AND started_at < cutoff_time;
														
 
															+    
														
 
															+    GET DIAGNOSTICS zombie_count = ROW_COUNT;
														
 
															+    
														
 
															+    -- 更新相关任务状态
														
 
															+    UPDATE data_pipeline_tasks 
														
 
															+    SET status = 'failed',
														
 
															+        error_message = FORMAT('任务超时（超过%s小时），可能已停止运行', timeout_hours)
														
 
															+    WHERE status IN ('in_progress') 
														
 
															+    AND started_at < cutoff_time;
														
 
															+    
														
 
															+    -- 记录检查操作
														
 
															+    IF zombie_count > 0 THEN
														
 
															+        INSERT INTO data_pipeline_task_logs (task_id, log_level, message, step_name)
														
 
															+        VALUES ('system', 'WARNING', 
														
 
															+                FORMAT('发现并处理了 %s 个僵尸执行', zombie_count),
														
 
															+                'zombie_check');
														
 
															+    END IF;
														
 
															+    
														
 
															+    RETURN zombie_count;
														
 
															+END;
														
 
															+$$ LANGUAGE plpgsql;
														
 
															+
														
 
															+-- ====================================================================
														
 
															+-- 插入初始数据（如果需要）
														
 
															+-- ====================================================================
														
 
															+
														
 
															+-- 这里可以插入一些初始配置数据
														
 
															+-- 目前暂时不需要
														
 
															+
														
 
															+-- ====================================================================
														
 
															+-- 创建视图（便于查询）
														
 
															+-- ====================================================================
														
 
															+
														
 
															+-- 任务执行概览视图
														
 
															+CREATE OR REPLACE VIEW v_task_execution_overview AS
														
 
															+SELECT 
														
 
															+    t.id as task_id,
														
 
															+    t.task_type,
														
 
															+    t.status as task_status,
														
 
															+    t.step_status,
														
 
															+    t.created_at,
														
 
															+    t.started_at,
														
 
															+    t.completed_at,
														
 
															+    t.created_by,
														
 
															+    t.db_name,
														
 
															+    COALESCE(e.current_execution, '{}') as current_execution,
														
 
															+    COALESCE(e.execution_count, 0) as total_executions
														
 
															+FROM data_pipeline_tasks t
														
 
															+LEFT JOIN (
														
 
															+    SELECT 
														
 
															+        task_id,
														
 
															+        COUNT(*) as execution_count,
														
 
															+        json_build_object(
														
 
															+            'execution_id', e1.execution_id,
														
 
															+            'step', e1.execution_step,
														
 
															+            'status', e1.status,
														
 
															+            'started_at', e1.started_at
														
 
															+        ) as current_execution
														
 
															+    FROM data_pipeline_task_executions e1
														
 
															+    WHERE e1.id = (
														
 
															+        SELECT e2.id 
														
 
															+        FROM data_pipeline_task_executions e2 
														
 
															+        WHERE e2.task_id = e1.task_id 
														
 
															+        ORDER BY e2.started_at DESC 
														
 
															+        LIMIT 1
														
 
															+    )
														
 
															+    GROUP BY task_id, e1.execution_id, e1.execution_step, e1.status, e1.started_at
														
 
															+) e ON t.id = e.task_id;
														
 
															+
														
 
															+-- 提交事务
														
 
															+COMMIT;
														
 
															+
														
 
															+-- 输出创建结果
														
 
															+\echo 'Data Pipeline API 数据库表创建完成！'
														
 
															+\echo ''
														
 
															+\echo '已创建的表：'
														
 
															+\echo '- data_pipeline_tasks: 任务主表'
														
 
															+\echo '- data_pipeline_task_executions: 任务执行记录表'
														
 
															+\echo '- data_pipeline_task_logs: 任务日志表'
														
 
															+\echo '- data_pipeline_task_outputs: 任务输出文件表'
														
 
															+\echo ''
														
 
															+\echo '已创建的函数：'
														
 
															+\echo '- cleanup_old_data_pipeline_tasks(days): 清理旧任务'
														
 
															+\echo '- get_data_pipeline_task_stats(): 获取任务统计'
														
 
															+\echo '- check_zombie_data_pipeline_tasks(hours): 检查僵尸任务'
														
 
															+\echo ''
														
 
															+\echo '已创建的视图：'
														
 
															+\echo '- v_task_execution_overview: 任务执行概览'
														
--- a/data_pipeline/task_executor.py
+++ b/data_pipeline/task_executor.py
@@ -0,0 +1,78 @@
 
															+#!/usr/bin/env python3
														
 
															+"""
														
 
															+Data Pipeline 独立任务执行器
														
 
															+
														
 
															+专门用于subprocess调用，执行data pipeline任务
														
 
															+"""
														
 
															+
														
 
															+import sys
														
 
															+import asyncio
														
 
															+import argparse
														
 
															+import json
														
 
															+from pathlib import Path
														
 
															+
														
 
															+# 确保能够导入项目模块
														
 
															+sys.path.insert(0, str(Path(__file__).parent.parent))
														
 
															+
														
 
															+from data_pipeline.api.simple_workflow import SimpleWorkflowExecutor
														
 
															+from core.logging import initialize_logging
														
 
															+
														
 
															+
														
 
															+def main():
														
 
															+    """主执行函数"""
														
 
															+    parser = argparse.ArgumentParser(description='Data Pipeline 任务执行器')
														
 
															+    parser.add_argument('--task-id', required=True, help='任务ID')
														
 
															+    parser.add_argument('--execution-mode', default='complete', choices=['complete', 'step'], help='执行模式')
														
 
															+    parser.add_argument('--step-name', help='步骤名称（当execution-mode=step时必需）')
														
 
															+    
														
 
															+    args = parser.parse_args()
														
 
															+    
														
 
															+    # 初始化日志系统
														
 
															+    initialize_logging()
														
 
															+    
														
 
															+    # 验证参数
														
 
															+    if args.execution_mode == 'step' and not args.step_name:
														
 
															+        print("错误: 步骤执行模式需要指定--step-name参数", file=sys.stderr)
														
 
															+        sys.exit(1)
														
 
															+    
														
 
															+    try:
														
 
															+        # 执行任务
														
 
															+        result = asyncio.run(execute_task(args.task_id, args.execution_mode, args.step_name))
														
 
															+        
														
 
															+        # 输出结果到stdout（供父进程读取）
														
 
															+        print(json.dumps(result, ensure_ascii=False, default=str))
														
 
															+        
														
 
															+        # 设置退出码
														
 
															+        sys.exit(0 if result.get('success', False) else 1)
														
 
															+        
														
 
															+    except Exception as e:
														
 
															+        error_result = {
														
 
															+            "success": False,
														
 
															+            "error": str(e),
														
 
															+            "task_id": args.task_id,
														
 
															+            "execution_mode": args.execution_mode
														
 
															+        }
														
 
															+        print(json.dumps(error_result, ensure_ascii=False), file=sys.stderr)
														
 
															+        sys.exit(1)
														
 
															+
														
 
															+
														
 
															+async def execute_task(task_id: str, execution_mode: str, step_name: str = None):
														
 
															+    """执行任务的异步函数"""
														
 
															+    executor = None
														
 
															+    try:
														
 
															+        executor = SimpleWorkflowExecutor(task_id)
														
 
															+        
														
 
															+        if execution_mode == "complete":
														
 
															+            return await executor.execute_complete_workflow()
														
 
															+        elif execution_mode == "step":
														
 
															+            return await executor.execute_single_step(step_name)
														
 
															+        else:
														
 
															+            raise ValueError(f"不支持的执行模式: {execution_mode}")
														
 
															+            
														
 
															+    finally:
														
 
															+        if executor:
														
 
															+            executor.cleanup()
														
 
															+
														
 
															+
														
 
															+if __name__ == "__main__":
														
 
															+    main()
														
--- a/data_pipeline/training_data/task_20250701_131627/bss_business_day_data.ddl
+++ b/data_pipeline/training_data/task_20250701_131627/bss_business_day_data.ddl
@@ -0,0 +1,31 @@
 
															+-- 中文名: 业务支撑系统每日营业数据表
														
 
															+-- 描述: 业务支撑系统每日营业数据表，记录各服务区运营统计信息，包含统计日期、服务区编码及版本控制字段。
														
 
															+create table public.bss_business_day_data (
														
 
															+  id varchar(32) not null     -- 主键标识符，主键,
														
 
															+  version integer not null    -- 数据版本号,
														
 
															+  create_ts timestamp         -- 创建时间,
														
 
															+  created_by varchar(50)      -- 创建人账号,
														
 
															+  update_ts timestamp         -- 更新时间,
														
 
															+  updated_by varchar(50)      -- 最后更新人,
														
 
															+  delete_ts timestamp         -- 删除时间,
														
 
															+  deleted_by varchar(50)      -- 删除操作人,
														
 
															+  oper_date date              -- 统计日期,
														
 
															+  service_no varchar(255)     -- 服务区编码,
														
 
															+  service_name varchar(255)   -- 服务区名称,
														
 
															+  branch_no varchar(255)      -- 档口编码,
														
 
															+  branch_name varchar(255)    -- 档口名称,
														
 
															+  wx numeric(19,4)            -- 微信支付金额,
														
 
															+  wx_order integer            -- 微信订单数量,
														
 
															+  zfb numeric(19,4)           -- 支付宝支付金额,
														
 
															+  zf_order integer            -- 支付宝订单数,
														
 
															+  rmb numeric(19,4)           -- 现金支付金额,
														
 
															+  rmb_order integer           -- 现金订单数量,
														
 
															+  xs numeric(19,4)            -- 行吧支付金额,
														
 
															+  xs_order integer            -- 行吧订单数量,
														
 
															+  jd numeric(19,4)            -- 金豆支付金额,
														
 
															+  jd_order integer            -- 金豆订单数量,
														
 
															+  order_sum integer           -- 订单总数,
														
 
															+  pay_sum numeric(19,4)       -- 支付总金额,
														
 
															+  source_type integer         -- 数据来源类别,
														
 
															+  primary key (id)
														
 
															+);
														
--- a/data_pipeline/training_data/task_20250701_131627/bss_business_day_data_detail.md
+++ b/data_pipeline/training_data/task_20250701_131627/bss_business_day_data_detail.md
@@ -0,0 +1,32 @@
 
															+## bss_business_day_data（业务支撑系统每日营业数据表）
														
 
															+bss_business_day_data 表业务支撑系统每日营业数据表，记录各服务区运营统计信息，包含统计日期、服务区编码及版本控制字段。
														
 
															+字段列表：
														
 
															+- id (varchar(32)) - 主键标识符 [主键, 非空] [示例: 00827DFF993D415488EA1F07CAE6C440, 00e799048b8cbb8ee758eac9c8b4b820]
														
 
															+- version (integer) - 数据版本号 [非空] [示例: 1]
														
 
															+- create_ts (timestamp) - 创建时间 [示例: 2023-04-02 08:31:51, 2023-04-02 02:30:08]
														
 
															+- created_by (varchar(50)) - 创建人账号 [示例: xingba]
														
 
															+- update_ts (timestamp) - 更新时间 [示例: 2023-04-02 08:31:51, 2023-04-02 02:30:08]
														
 
															+- updated_by (varchar(50)) - 最后更新人
														
 
															+- delete_ts (timestamp) - 删除时间
														
 
															+- deleted_by (varchar(50)) - 删除操作人
														
 
															+- oper_date (date) - 统计日期 [示例: 2023-04-01]
														
 
															+- service_no (varchar(255)) - 服务区编码 [示例: 1028, H0501]
														
 
															+- service_name (varchar(255)) - 服务区名称 [示例: 宜春服务区, 庐山服务区]
														
 
															+- branch_no (varchar(255)) - 档口编码 [示例: 1, H05016]
														
 
															+- branch_name (varchar(255)) - 档口名称 [示例: 宜春南区, 庐山鲜徕客东区]
														
 
															+- wx (numeric(19,4)) - 微信支付金额 [示例: 4790.0000, 2523.0000]
														
 
															+- wx_order (integer) - 微信订单数量 [示例: 253, 133]
														
 
															+- zfb (numeric(19,4)) - 支付宝支付金额 [示例: 229.0000, 0.0000]
														
 
															+- zf_order (integer) - 支付宝订单数 [示例: 15, 0]
														
 
															+- rmb (numeric(19,4)) - 现金支付金额 [示例: 1058.5000, 124.0000]
														
 
															+- rmb_order (integer) - 现金订单数量 [示例: 56, 12]
														
 
															+- xs (numeric(19,4)) - 行吧支付金额 [示例: 0.0000, 40.0000]
														
 
															+- xs_order (integer) - 行吧订单数量 [示例: 0, 1]
														
 
															+- jd (numeric(19,4)) - 金豆支付金额 [示例: 0.0000]
														
 
															+- jd_order (integer) - 金豆订单数量 [示例: 0]
														
 
															+- order_sum (integer) - 订单总数 [示例: 324, 146]
														
 
															+- pay_sum (numeric(19,4)) - 支付总金额 [示例: 6077.5000, 2687.0000]
														
 
															+- source_type (integer) - 数据来源类别 [示例: 1, 0, 4]
														
 
															+字段补充说明：
														
 
															+- id 为主键
														
 
															+- source_type 为枚举字段，包含取值：0、4、1、2、3
														
--- a/data_pipeline/training_data/task_20250701_131627/bss_car_day_count.ddl
+++ b/data_pipeline/training_data/task_20250701_131627/bss_car_day_count.ddl
@@ -0,0 +1,17 @@
 
															+-- 中文名: 服务区车辆日统计表
														
 
															+-- 描述: 服务区车辆日统计表，记录各类型车辆日通行量及操作信息，用于交通流量分析和运营管理。
														
 
															+create table public.bss_car_day_count (
														
 
															+  id varchar(32) not null     -- 主键ID，主键,
														
 
															+  version integer not null    -- 版本号,
														
 
															+  create_ts timestamp         -- 创建时间,
														
 
															+  created_by varchar(50)      -- 创建人,
														
 
															+  update_ts timestamp         -- 更新时间,
														
 
															+  updated_by varchar(50)      -- 更新人,
														
 
															+  delete_ts timestamp         -- 删除时间,
														
 
															+  deleted_by varchar(50)      -- 删除人,
														
 
															+  customer_count bigint       -- 车辆数量,
														
 
															+  car_type varchar(100)       -- 车辆类别,
														
 
															+  count_date date             -- 统计日期,
														
 
															+  service_area_id varchar(32) -- 服务区ID,
														
 
															+  primary key (id)
														
 
															+);
														
--- a/data_pipeline/training_data/task_20250701_131627/bss_car_day_count_detail.md
+++ b/data_pipeline/training_data/task_20250701_131627/bss_car_day_count_detail.md
@@ -0,0 +1,18 @@
 
															+## bss_car_day_count（服务区车辆日统计表）
														
 
															+bss_car_day_count 表服务区车辆日统计表，记录各类型车辆日通行量及操作信息，用于交通流量分析和运营管理。
														
 
															+字段列表：
														
 
															+- id (varchar(32)) - 主键ID [主键, 非空] [示例: 00022c1c99ff11ec86d4fa163ec0f8fc, 00022caa99ff11ec86d4fa163ec0f8fc]
														
 
															+- version (integer) - 版本号 [非空] [示例: 1]
														
 
															+- create_ts (timestamp) - 创建时间 [示例: 2022-03-02 16:01:43, 2022-02-02 14:18:55]
														
 
															+- created_by (varchar(50)) - 创建人
														
 
															+- update_ts (timestamp) - 更新时间 [示例: 2022-03-02 16:01:43, 2022-02-02 14:18:55]
														
 
															+- updated_by (varchar(50)) - 更新人
														
 
															+- delete_ts (timestamp) - 删除时间
														
 
															+- deleted_by (varchar(50)) - 删除人
														
 
															+- customer_count (bigint) - 车辆数量 [示例: 1114, 295]
														
 
															+- car_type (varchar(100)) - 车辆类别 [示例: 其他]
														
 
															+- count_date (date) - 统计日期 [示例: 2022-03-02, 2022-02-02]
														
 
															+- service_area_id (varchar(32)) - 服务区ID [示例: 17461166e7fa3ecda03534a5795ce985, 81f4eb731fb0728aef17ae61f1f1daef]
														
 
															+字段补充说明：
														
 
															+- id 为主键
														
 
															+- car_type 为枚举字段，包含取值：其他、危化品、城际、过境
														
--- a/data_pipeline/training_data/task_20250701_131627/bss_company.ddl
+++ b/data_pipeline/training_data/task_20250701_131627/bss_company.ddl
@@ -0,0 +1,15 @@
 
															+-- 中文名: 存储高速公路服务区合作公司基础信息（含公司名称及唯一编码）
														
 
															+-- 描述: 存储高速公路服务区合作公司基础信息（含公司名称及唯一编码），用于业务支撑系统中企业信息管理与业务关联支撑。
														
 
															+create table public.bss_company (
														
 
															+  id varchar(32) not null     -- 主键ID，主键,
														
 
															+  version integer not null    -- 版本号,
														
 
															+  create_ts timestamp         -- 创建时间,
														
 
															+  created_by varchar(50)      -- 创建人,
														
 
															+  update_ts timestamp         -- 更新时间,
														
 
															+  updated_by varchar(50)      -- 更新人,
														
 
															+  delete_ts timestamp         -- 删除时间,
														
 
															+  deleted_by varchar(50)      -- 删除人,
														
 
															+  company_name varchar(255)   -- 分公司名称,
														
 
															+  company_no varchar(255)     -- 公司编码,
														
 
															+  primary key (id)
														
 
															+);
														
--- a/data_pipeline/training_data/task_20250701_131627/bss_company_detail.md
+++ b/data_pipeline/training_data/task_20250701_131627/bss_company_detail.md
@@ -0,0 +1,15 @@
 
															+## bss_company（存储高速公路服务区合作公司基础信息（含公司名称及唯一编码））
														
 
															+bss_company 表存储高速公路服务区合作公司基础信息（含公司名称及唯一编码），用于业务支撑系统中企业信息管理与业务关联支撑。
														
 
															+字段列表：
														
 
															+- id (varchar(32)) - 主键ID [主键, 非空] [示例: 30675d85ba5044c31acfa243b9d16334, 47ed0bb37f5a85f3d9245e4854959b81]
														
 
															+- version (integer) - 版本号 [非空] [示例: 1, 2]
														
 
															+- create_ts (timestamp) - 创建时间 [示例: 2021-05-20 09:51:58.718000, 2021-05-20 09:42:03.341000]
														
 
															+- created_by (varchar(50)) - 创建人 [示例: admin]
														
 
															+- update_ts (timestamp) - 更新时间 [示例: 2021-05-20 09:51:58.718000, 2021-05-20 09:42:03.341000]
														
 
															+- updated_by (varchar(50)) - 更新人 [示例: admin]
														
 
															+- delete_ts (timestamp) - 删除时间
														
 
															+- deleted_by (varchar(50)) - 删除人
														
 
															+- company_name (varchar(255)) - 分公司名称 [示例: 上饶分公司, 宜春分公司]
														
 
															+- company_no (varchar(255)) - 公司编码 [示例: H03, H02]
														
 
															+字段补充说明：
														
 
															+- id 为主键
														
--- a/data_pipeline/training_data/task_20250701_131627/bss_section_route.ddl
+++ b/data_pipeline/training_data/task_20250701_131627/bss_section_route.ddl
@@ -0,0 +1,16 @@
 
															+-- 中文名: 存储高速公路路段与路线信息
														
 
															+-- 描述: 存储高速公路路段与路线信息，支持服务区路线关联管理。
														
 
															+create table public.bss_section_route (
														
 
															+  id varchar(32) not null     -- 主键ID，主键,
														
 
															+  version integer not null    -- 版本号,
														
 
															+  create_ts timestamp         -- 创建时间,
														
 
															+  created_by varchar(50)      -- 创建人,
														
 
															+  update_ts timestamp         -- 更新时间,
														
 
															+  updated_by varchar(50)      -- 更新人,
														
 
															+  delete_ts timestamp         -- 删除时间,
														
 
															+  deleted_by varchar(50)      -- 删除人,
														
 
															+  section_name varchar(255)   -- 路段名称,
														
 
															+  route_name varchar(255)     -- 路线名称,
														
 
															+  code varchar(255)           -- 路段编号,
														
 
															+  primary key (id)
														
 
															+);
														
--- a/data_pipeline/training_data/task_20250701_131627/bss_section_route_area_link.ddl
+++ b/data_pipeline/training_data/task_20250701_131627/bss_section_route_area_link.ddl
@@ -0,0 +1,7 @@
 
															+-- 中文名: 路段路线与服务区关联表
														
 
															+-- 描述: 路段路线与服务区关联表，维护路线与服务区之间的归属关系。
														
 
															+create table public.bss_section_route_area_link (
														
 
															+  section_route_id varchar(32) not null -- 路段路线ID，主键,
														
 
															+  service_area_id varchar(32) not null -- 服务区ID，主键,
														
 
															+  primary key (section_route_id, service_area_id)
														
 
															+);
														
--- a/data_pipeline/training_data/task_20250701_131627/bss_section_route_area_link_detail.md
+++ b/data_pipeline/training_data/task_20250701_131627/bss_section_route_area_link_detail.md
@@ -0,0 +1,7 @@
 
															+## bss_section_route_area_link（路段路线与服务区关联表）
														
 
															+bss_section_route_area_link 表路段路线与服务区关联表，维护路线与服务区之间的归属关系。
														
 
															+字段列表：
														
 
															+- section_route_id (varchar(32)) - 路段路线ID [主键, 非空] [示例: v8elrsfs5f7lt7jl8a6p87smfzesn3rz, hxzi2iim238e3s1eajjt1enmh9o4h3wp]
														
 
															+- service_area_id (varchar(32)) - 服务区ID [主键, 非空] [示例: 08e01d7402abd1d6a4d9fdd5df855ef8, 091662311d2c737029445442ff198c4c]
														
 
															+字段补充说明：
														
 
															+- 复合主键：section_route_id, service_area_id
														
--- a/data_pipeline/training_data/task_20250701_131627/bss_section_route_detail.md
+++ b/data_pipeline/training_data/task_20250701_131627/bss_section_route_detail.md
@@ -0,0 +1,16 @@
 
															+## bss_section_route（存储高速公路路段与路线信息）
														
 
															+bss_section_route 表存储高速公路路段与路线信息，支持服务区路线关联管理。
														
 
															+字段列表：
														
 
															+- id (varchar(32)) - 主键ID [主键, 非空] [示例: 04ri3j67a806uw2c6o6dwdtz4knexczh, 0g5mnefxxtukql2cq6acul7phgskowy7]
														
 
															+- version (integer) - 版本号 [非空] [示例: 1, 0]
														
 
															+- create_ts (timestamp) - 创建时间 [示例: 2021-10-29 19:43:50, 2022-03-04 16:07:16]
														
 
															+- created_by (varchar(50)) - 创建人 [示例: admin]
														
 
															+- update_ts (timestamp) - 更新时间
														
 
															+- updated_by (varchar(50)) - 更新人
														
 
															+- delete_ts (timestamp) - 删除时间
														
 
															+- deleted_by (varchar(50)) - 删除人
														
 
															+- section_name (varchar(255)) - 路段名称 [示例: 昌栗, 昌宁]
														
 
															+- route_name (varchar(255)) - 路线名称 [示例: 昌栗, 昌韶]
														
 
															+- code (varchar(255)) - 路段编号 [示例: SR0001, SR0002]
														
 
															+字段补充说明：
														
 
															+- id 为主键
														
--- a/data_pipeline/training_data/task_20250701_131627/bss_service_area.ddl
+++ b/data_pipeline/training_data/task_20250701_131627/bss_service_area.ddl
@@ -0,0 +1,19 @@
 
															+-- 中文名: 存储高速公路服务区基础信息及版本变更记录
														
 
															+-- 描述: 存储高速公路服务区基础信息及版本变更记录，支持服务区全生命周期管理。
														
 
															+create table public.bss_service_area (
														
 
															+  id varchar(32) not null     -- 主键标识符，主键,
														
 
															+  version integer not null    -- 版本号,
														
 
															+  create_ts timestamp         -- 创建时间,
														
 
															+  created_by varchar(50)      -- 创建人,
														
 
															+  update_ts timestamp         -- 更新时间,
														
 
															+  updated_by varchar(50)      -- 更新人,
														
 
															+  delete_ts timestamp         -- 删除时间,
														
 
															+  deleted_by varchar(50)      -- 删除人,
														
 
															+  service_area_name varchar(255) -- 服务区名称,
														
 
															+  service_area_no varchar(255) -- 服务区编码,
														
 
															+  company_id varchar(32)      -- 所属公司ID,
														
 
															+  service_position varchar(255) -- 地理坐标,
														
 
															+  service_area_type varchar(50) -- 服务区类型,
														
 
															+  service_state varchar(50)   -- 运营状态,
														
 
															+  primary key (id)
														
 
															+);
														
--- a/data_pipeline/training_data/task_20250701_131627/bss_service_area_detail.md
+++ b/data_pipeline/training_data/task_20250701_131627/bss_service_area_detail.md
@@ -0,0 +1,21 @@
 
															+## bss_service_area（存储高速公路服务区基础信息及版本变更记录）
														
 
															+bss_service_area 表存储高速公路服务区基础信息及版本变更记录，支持服务区全生命周期管理。
														
 
															+字段列表：
														
 
															+- id (varchar(32)) - 主键标识符 [主键, 非空] [示例: 0271d68ef93de9684b7ad8c7aae600b6, 08e01d7402abd1d6a4d9fdd5df855ef8]
														
 
															+- version (integer) - 版本号 [非空] [示例: 3, 6]
														
 
															+- create_ts (timestamp) - 创建时间 [示例: 2021-05-21 13:26:40.589000, 2021-05-20 19:51:46.314000]
														
 
															+- created_by (varchar(50)) - 创建人 [示例: admin]
														
 
															+- update_ts (timestamp) - 更新时间 [示例: 2021-07-10 15:41:28.795000, 2021-07-11 09:33:08.455000]
														
 
															+- updated_by (varchar(50)) - 更新人 [示例: admin]
														
 
															+- delete_ts (timestamp) - 删除时间
														
 
															+- deleted_by (varchar(50)) - 删除人 [示例: ]
														
 
															+- service_area_name (varchar(255)) - 服务区名称 [示例: 白鹭湖停车区, 南昌南服务区]
														
 
															+- service_area_no (varchar(255)) - 服务区编码 [示例: H0814, H0105]
														
 
															+- company_id (varchar(32)) - 所属公司ID [示例: b1629f07c8d9ac81494fbc1de61f1ea5, ee9bf1180a2b45003f96e597a4b7f15a]
														
 
															+- service_position (varchar(255)) - 地理坐标 [示例: 114.574721,26.825584, 115.910549,28.396355]
														
 
															+- service_area_type (varchar(50)) - 服务区类型 [示例: 信息化服务区]
														
 
															+- service_state (varchar(50)) - 运营状态 [示例: 开放, 关闭]
														
 
															+字段补充说明：
														
 
															+- id 为主键
														
 
															+- service_area_type 为枚举字段，包含取值：信息化服务区、智能化服务区
														
 
															+- service_state 为枚举字段，包含取值：开放、关闭、上传数据
														
--- a/data_pipeline/training_data/task_20250701_131627/bss_service_area_mapper.ddl
+++ b/data_pipeline/training_data/task_20250701_131627/bss_service_area_mapper.ddl
@@ -0,0 +1,18 @@
 
															+-- 中文名: BSS服务区基础信息映射表
														
 
															+-- 描述: BSS服务区基础信息映射表，记录服务区名称、编码及全生命周期操作日志
														
 
															+create table public.bss_service_area_mapper (
														
 
															+  id varchar(32) not null     -- 主键ID，主键,
														
 
															+  version integer not null    -- 版本号,
														
 
															+  create_ts timestamp         -- 创建时间,
														
 
															+  created_by varchar(50)      -- 创建人,
														
 
															+  update_ts timestamp         -- 更新时间,
														
 
															+  updated_by varchar(50)      -- 更新人,
														
 
															+  delete_ts timestamp         -- 删除时间,
														
 
															+  deleted_by varchar(50)      -- 删除人,
														
 
															+  service_name varchar(255)   -- 服务区名称,
														
 
															+  service_no varchar(255)     -- 服务区编码,
														
 
															+  service_area_id varchar(32) -- 服务区ID,
														
 
															+  source_system_type varchar(50) -- 数据来源系统类型,
														
 
															+  source_type integer         -- 数据来源类别ID,
														
 
															+  primary key (id)
														
 
															+);
														
--- a/data_pipeline/training_data/task_20250701_131627/bss_service_area_mapper_detail.md
+++ b/data_pipeline/training_data/task_20250701_131627/bss_service_area_mapper_detail.md
@@ -0,0 +1,19 @@
 
															+## bss_service_area_mapper（BSS服务区基础信息映射表）
														
 
															+bss_service_area_mapper 表BSS服务区基础信息映射表，记录服务区名称、编码及全生命周期操作日志
														
 
															+字段列表：
														
 
															+- id (varchar(32)) - 主键ID [主键, 非空] [示例: 00e1e893909211ed8ee6fa163eaf653f, 013867f5962211ed8ee6fa163eaf653f]
														
 
															+- version (integer) - 版本号 [非空] [示例: 1]
														
 
															+- create_ts (timestamp) - 创建时间 [示例: 2023-01-10 10:54:03, 2023-01-17 12:47:29]
														
 
															+- created_by (varchar(50)) - 创建人 [示例: admin]
														
 
															+- update_ts (timestamp) - 更新时间 [示例: 2023-01-10 10:54:07, 2023-01-17 12:47:32]
														
 
															+- updated_by (varchar(50)) - 更新人
														
 
															+- delete_ts (timestamp) - 删除时间
														
 
															+- deleted_by (varchar(50)) - 删除人
														
 
															+- service_name (varchar(255)) - 服务区名称 [示例: 信丰西服务区, 南康北服务区]
														
 
															+- service_no (varchar(255)) - 服务区编码 [示例: 1067, 1062]
														
 
															+- service_area_id (varchar(32)) - 服务区ID [示例: 97cd6cd516a551409a4d453a58f9e170, fdbdd042962011ed8ee6fa163eaf653f]
														
 
															+- source_system_type (varchar(50)) - 数据来源系统类型 [示例: 驿美, 驿购]
														
 
															+- source_type (integer) - 数据来源类别ID [示例: 3, 1]
														
 
															+字段补充说明：
														
 
															+- id 为主键
														
 
															+- source_system_type 为枚举字段，包含取值：司乘管理、商业管理、驿购、驿美、手工录入
														
--- a/data_pipeline/training_data/task_20250701_131627/db_query_decision_prompt.txt
+++ b/data_pipeline/training_data/task_20250701_131627/db_query_decision_prompt.txt
@@ -0,0 +1,10 @@
 
															+=== 数据库业务范围 ===
														
 
															+当前数据库存储的是高速公路服务区运营管理的相关数据，主要涉及服务区运营统计、车辆通行量、基础信息管理及路段关联，包含以下业务数据：
														
 
															+核心业务实体：
														
 
															+- 服务区：描述高速公路服务区基础信息，主要字段：服务区名称、服务区编码、地理坐标、服务区类型、运营状态
														
 
															+- 车辆类型：描述通行车辆分类维度，主要字段：车辆类别（其他、危化品、城际、过境）
														
 
															+- 路段路线：描述高速公路路段与路线归属关系，主要字段：路段名称、路线名称、路段编号
														
 
															+- 合作公司：描述服务区所属分公司信息，主要字段：分公司名称、公司编码
														
 
															+关键业务指标：
														
 
															+- 营收指标：包含微信/支付宝/现金/行吧/金豆支付金额及订单数、支付总金额、订单总数
														
 
															+- 车辆流量：按类型统计的日通行车辆数量
														
--- a/data_pipeline/training_data/task_20250701_131627/filename_mapping.txt
+++ b/data_pipeline/training_data/task_20250701_131627/filename_mapping.txt
@@ -0,0 +1,10 @@
 
															+# 文件名映射报告
														
 
															+# 格式: 原始表名 -> 实际文件名
														
 
															+
														
 
															+public.bss_business_day_data -> bss_business_day_data_detail.md
														
 
															+public.bss_car_day_count -> bss_car_day_count_detail.md
														
 
															+public.bss_company -> bss_company_detail.md
														
 
															+public.bss_section_route -> bss_section_route_detail.md
														
 
															+public.bss_section_route_area_link -> bss_section_route_area_link_detail.md
														
 
															+public.bss_service_area -> bss_service_area_detail.md
														
 
															+public.bss_service_area_mapper -> bss_service_area_mapper_detail.md
														
--- a/data_pipeline/training_data/task_20250701_131627/metadata.txt
+++ b/data_pipeline/training_data/task_20250701_131627/metadata.txt
@@ -0,0 +1,62 @@
 
															+-- Schema Tools生成的主题元数据
														
 
															+-- 业务背景: 高速公路服务区管理系统
														
 
															+-- 生成时间: 2025-07-01 13:47:36
														
 
															+-- 数据库: highway_db
														
 
															+
														
 
															+-- 创建表（如果不存在）
														
 
															+CREATE TABLE IF NOT EXISTS metadata (
														
 
															+    id SERIAL PRIMARY KEY,    -- 主键
														
 
															+    topic_name VARCHAR(100) NOT NULL,  -- 业务主题名称
														
 
															+    description TEXT,                  -- 业务主体说明
														
 
															+    related_tables TEXT[],			  -- 相关表名
														
 
															+    biz_entities TEXT[],               -- 主要业务实体名称
														
 
															+    biz_metrics TEXT[],                -- 主要业务指标名称
														
 
															+    created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP    -- 插入时间
														
 
															+);
														
 
															+
														
 
															+-- 插入主题数据
														
 
															+INSERT INTO metadata(topic_name, description, related_tables, biz_entities, biz_metrics) VALUES
														
 
															+(
														
 
															+  '日营收结构',
														
 
															+  '分析各服务区每日营收构成及支付方式占比，优化资金管理策略',
														
 
															+  'bss_business_day_data',
														
 
															+  '服务区,支付方式,档口',
														
 
															+  '总营收,现金占比,移动支付比例'
														
 
															+);
														
 
															+
														
 
															+INSERT INTO metadata(topic_name, description, related_tables, biz_entities, biz_metrics) VALUES
														
 
															+(
														
 
															+  '车流高峰分析',
														
 
															+  '通过车辆统计表识别服务区高峰时段及车型分布，指导资源调度',
														
 
															+  'bss_car_day_count,bss_service_area',
														
 
															+  '服务区,车辆类型,统计日期',
														
 
															+  '日均车流,高峰时段,危化品车辆占比'
														
 
															+);
														
 
															+
														
 
															+INSERT INTO metadata(topic_name, description, related_tables, biz_entities, biz_metrics) VALUES
														
 
															+(
														
 
															+  '分公司对比',
														
 
															+  '比较不同分公司的服务区运营效率及营收能力，发现管理差异',
														
 
															+  'bss_company,bss_service_area,bss_business_day_data',
														
 
															+  '分公司,服务区,运营指标',
														
 
															+  '人均营收,客单价,订单密度'
														
 
															+);
														
 
															+
														
 
															+INSERT INTO metadata(topic_name, description, related_tables, biz_entities, biz_metrics) VALUES
														
 
															+(
														
 
															+  '路线关联分析',
														
 
															+  '研究路段路线与服务区的关联关系，优化路线规划和服务区配置',
														
 
															+  'bss_section_route,bss_section_route_area_link,bss_car_day_count',
														
 
															+  '路段,路线,服务区',
														
 
															+  '路线车流,服务区覆盖率,路线营收贡献'
														
 
															+);
														
 
															+
														
 
															+INSERT INTO metadata(topic_name, description, related_tables, biz_entities, biz_metrics) VALUES
														
 
															+(
														
 
															+  '节假日效应',
														
 
															+  '分析节假日前后服务区营收和车流变化，制定营销和服务方案',
														
 
															+  'bss_business_day_data,bss_car_day_count',
														
 
															+  '服务区,节假日,支付方式',
														
 
															+  '节前增幅,节假日营收占比,车流增长率'
														
 
															+);
														
 
															+
														
--- a/data_pipeline/training_data/task_20250701_131627/metadata_detail.md
+++ b/data_pipeline/training_data/task_20250701_131627/metadata_detail.md
@@ -0,0 +1,20 @@
 
															+## metadata（存储分析主题元数据）
														
 
															+
														
 
															+`metadata` 主要描述了当前数据库包含了哪些数据内容，哪些分析主题，哪些指标等等。
														
 
															+
														
 
															+字段列表：
														
 
															+
														
 
															+- `id` (serial) - 主键ID [主键, 非空]
														
 
															+- `topic_name` (varchar(100)) - 业务主题名称 [非空]
														
 
															+- `description` (text) - 业务主题说明
														
 
															+- `related_tables` (text[]) - 涉及的数据表 [示例: bss_business_day_data, bss_section_route_area_link]
														
 
															+- `biz_entities` (text[]) - 主要业务实体名称 [示例: 车辆类型, 节假日, 路线]
														
 
															+- `biz_metrics` (text[]) - 主要业务指标名称 [示例: 总营收, 现金占比, 人均营收]
														
 
															+- `created_at` (timestamp) - 插入时间 [默认值: `CURRENT_TIMESTAMP`]
														
 
															+
														
 
															+字段补充说明：
														
 
															+
														
 
															+- `id` 为主键，自增；
														
 
															+- `related_tables` 用于建立主题与具体明细表的依赖关系；
														
 
															+- `biz_entities` 表示主题关注的核心对象，例如服务区、车辆、公司；
														
 
															+- `biz_metrics` 表示该主题关注的业务分析指标，例如营收对比、趋势变化、占比结构等。
														
--- a/data_pipeline/training_data/task_20250701_131627/qs_highway_db_20250701_134736_pair.json
+++ b/data_pipeline/training_data/task_20250701_131627/qs_highway_db_20250701_134736_pair.json
@@ -0,0 +1,190 @@
 
															+[
														
 
															+  {
														
 
															+    "question": "统计2023年4月1日各服务区的总营收及现金支付金额占比",
														
 
															+    "sql": "SELECT service_name AS 服务区名称, SUM(pay_sum) AS 总营收, SUM(rmb)/SUM(pay_sum)*100 AS 现金支付占比 FROM bss_business_day_data WHERE oper_date = '2023-04-01' AND delete_ts IS NULL GROUP BY service_name;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "分析2023年第一季度各支付方式在总营收中的占比变化趋势",
														
 
															+    "sql": "SELECT oper_date AS 统计日期, SUM(wx)/SUM(pay_sum)*100 AS 微信占比, SUM(zfb)/SUM(pay_sum)*100 AS 支付宝占比, SUM(rmb)/SUM(pay_sum)*100 AS 现金占比 FROM bss_business_day_data WHERE oper_date BETWEEN '2023-01-01' AND '2023-03-31' AND delete_ts IS NULL GROUP BY oper_date ORDER BY 统计日期;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "查询最近7天总营收最高的前5个服务区及其移动支付比例",
														
 
															+    "sql": "SELECT service_name AS 服务区名称, SUM(pay_sum) AS 总营收, (SUM(wx)+SUM(zfb))/SUM(pay_sum)*100 AS 移动支付比例 FROM bss_business_day_data WHERE oper_date >= CURRENT_DATE - 7 AND oper_date < CURRENT_DATE AND delete_ts IS NULL GROUP BY service_name ORDER BY 总营收 DESC LIMIT 5;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "对比不同档口的现金支付订单占比并按占比排序",
														
 
															+    "sql": "SELECT branch_name AS 档口名称, SUM(rmb_order)/SUM(order_sum)*100 AS 现金订单占比 FROM bss_business_day_data WHERE delete_ts IS NULL GROUP BY branch_name ORDER BY 现金订单占比 DESC;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "计算宜春服务区2023年各季度月均营收及最大单日营收",
														
 
															+    "sql": "SELECT EXTRACT(QUARTER FROM oper_date) AS 季度, AVG(pay_sum) AS 月均营收, MAX(pay_sum) AS 最大单日营收 FROM bss_business_day_data WHERE service_name = '宜春服务区' AND EXTRACT(YEAR FROM oper_date) = 2023 AND delete_ts IS NULL GROUP BY 季度 ORDER BY 季度;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "统计2023年4月各服务区订单总数及总营收并按营收排名",
														
 
															+    "sql": "SELECT service_name AS 服务区名称, SUM(order_sum) AS 订单总数, SUM(pay_sum) AS 总营收 FROM bss_business_day_data WHERE oper_date BETWEEN '2023-04-01' AND '2023-04-30' AND delete_ts IS NULL GROUP BY service_name ORDER BY 总营收 DESC;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "查询最近一天移动支付占比超过80%的服务区信息",
														
 
															+    "sql": "SELECT service_name AS 服务区名称, (wx+zfb)/pay_sum*100 AS 移动支付比例 FROM bss_business_day_data WHERE oper_date = (SELECT MAX(oper_date) FROM bss_business_day_data WHERE delete_ts IS NULL) AND (wx+zfb)/pay_sum > 0.8 AND delete_ts IS NULL ORDER BY 移动支付比例 DESC;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "分析庐山服务区2023年各星期的营收分布情况",
														
 
															+    "sql": "SELECT EXTRACT(ISODOW FROM oper_date) AS 星期, SUM(pay_sum) AS 总营收 FROM bss_business_day_data WHERE service_name = '庐山服务区' AND EXTRACT(YEAR FROM oper_date) = 2023 AND delete_ts IS NULL GROUP BY 星期 ORDER BY 星期;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "统计最近一天总营收超过1万元且现金占比低于10%的服务区",
														
 
															+    "sql": "SELECT service_name AS 服务区名称, pay_sum AS 总营收, rmb/pay_sum*100 AS 现金占比 FROM bss_business_day_data WHERE oper_date = (SELECT MAX(oper_date) FROM bss_business_day_data WHERE delete_ts IS NULL) AND pay_sum > 10000 AND rmb/pay_sum < 0.1 AND delete_ts IS NULL ORDER BY 总营收 DESC;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "对比宜春和南昌南服务区最近30天各支付方式的平均日营收",
														
 
															+    "sql": "SELECT service_name AS 服务区名称, AVG(wx) AS 日均微信营收, AVG(zfb) AS 日均支付宝营收, AVG(rmb) AS 日均现金营收 FROM bss_business_day_data WHERE oper_date >= CURRENT_DATE - 30 AND service_name IN ('宜春服务区','南昌南服务区') AND delete_ts IS NULL GROUP BY service_name ORDER BY 服务区名称;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "统计各服务区日均车流量并按车流由高到低排序",
														
 
															+    "sql": "SELECT sa.service_area_name AS 服务区名称, AVG(cc.customer_count) AS 日均车流量 FROM bss_car_day_count cc JOIN bss_service_area sa ON cc.service_area_id = sa.id WHERE cc.delete_ts IS NULL AND sa.delete_ts IS NULL GROUP BY sa.service_area_name ORDER BY 日均车流量 DESC;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "查询危化品车辆占比超过5%的服务区信息",
														
 
															+    "sql": "SELECT sa.service_area_name, ROUND((SUM(CASE WHEN cc.car_type='危化品' THEN cc.customer_count ELSE 0 END)*100.0/SUM(cc.customer_count))::numeric,2) AS 危化品占比 FROM bss_car_day_count cc JOIN bss_service_area sa ON cc.service_area_id = sa.id WHERE cc.delete_ts IS NULL AND sa.delete_ts IS NULL GROUP BY sa.service_area_name HAVING SUM(CASE WHEN cc.car_type='危化品' THEN cc.customer_count ELSE 0 END)*100.0/SUM(cc.customer_count) > 5 ORDER BY 危化品占比 DESC;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "分析最近30天各车型日均通行量变化趋势",
														
 
															+    "sql": "SELECT count_date AS 统计日期, car_type AS 车型, AVG(customer_count) AS 日均车流量 FROM bss_car_day_count WHERE count_date >= CURRENT_DATE - 30 AND delete_ts IS NULL GROUP BY count_date, car_type ORDER BY count_date;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "对比周末与工作日车流量差异",
														
 
															+    "sql": "SELECT CASE WHEN EXTRACT(DOW FROM count_date) IN (0,6) THEN '周末' ELSE '工作日' END AS 时段类型, AVG(customer_count) AS 平均车流量 FROM bss_car_day_count WHERE delete_ts IS NULL GROUP BY 时段类型;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "获取各服务区过境车辆占比TOP5",
														
 
															+    "sql": "SELECT sa.service_area_name, ROUND((SUM(CASE WHEN cc.car_type='过境' THEN cc.customer_count ELSE 0 END)*100.0/SUM(cc.customer_count))::numeric,2) AS 过境占比 FROM bss_car_day_count cc JOIN bss_service_area sa ON cc.service_area_id = sa.id WHERE cc.delete_ts IS NULL AND sa.delete_ts IS NULL GROUP BY sa.service_area_name ORDER BY 过境占比 DESC LIMIT 5;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "统计最近一周每日总车流量及环比增长率",
														
 
															+    "sql": "WITH daily_total AS (SELECT count_date, SUM(customer_count) AS total FROM bss_car_day_count WHERE count_date >= CURRENT_DATE - 7 AND delete_ts IS NULL GROUP BY count_date) SELECT count_date, total, LAG(total) OVER(ORDER BY count_date) AS 前一日流量, ROUND(((total - LAG(total) OVER(ORDER BY count_date))*100.0/LAG(total) OVER(ORDER BY count_date))::numeric,2) AS 环比增长率 FROM daily_total;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "查询连续3天车流量增长的服务区",
														
 
															+    "sql": "WITH daily_growth AS (SELECT service_area_id, count_date, SUM(customer_count) AS daily_count, LAG(SUM(customer_count),1) OVER(PARTITION BY service_area_id ORDER BY count_date) AS prev_count FROM bss_car_day_count WHERE delete_ts IS NULL GROUP BY service_area_id, count_date) SELECT sa.service_area_name FROM (SELECT service_area_id FROM daily_growth WHERE daily_count > prev_count GROUP BY service_area_id, count_date - generate_series(0,2)) t JOIN bss_service_area sa ON t.service_area_id = sa.id;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "统计各车辆类型在不同时间段的分布比例",
														
 
															+    "sql": "SELECT car_type AS 车型, EXTRACT(HOUR FROM create_ts)::integer AS 小时段, ROUND(AVG(customer_count)::numeric,0) AS 平均车流量 FROM bss_car_day_count WHERE delete_ts IS NULL GROUP BY car_type, 小时段 ORDER BY 小时段;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "获取昨日车流量最高的3个服务区及对应车型分布",
														
 
															+    "sql": "SELECT sa.service_area_name, cc.car_type, cc.customer_count FROM bss_car_day_count cc JOIN bss_service_area sa ON cc.service_area_id = sa.id WHERE cc.count_date = CURRENT_DATE - 1 AND sa.delete_ts IS NULL ORDER BY cc.customer_count DESC LIMIT 3;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "分析各区域城际车辆通行量与服务区开放状态的关系",
														
 
															+    "sql": "SELECT sa.service_state AS 开放状态, AVG(CASE WHEN cc.car_type='城际' THEN cc.customer_count ELSE 0 END) AS 平均城际车流量 FROM bss_car_day_count cc RIGHT JOIN bss_service_area sa ON cc.service_area_id = sa.id WHERE sa.delete_ts IS NULL GROUP BY sa.service_state;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "各分公司2023年4月人均营收TOP5（按支付总额/车流量计算）",
														
 
															+    "sql": "SELECT c.company_name AS 分公司名称, SUM(bd.pay_sum)/SUM(car.customer_count) AS 人均营收 FROM bss_company c JOIN bss_service_area sa ON c.id = sa.company_id JOIN bss_business_day_data bd ON sa.service_area_no = bd.service_no JOIN bss_car_day_count car ON sa.id = car.service_area_id AND bd.oper_date = car.count_date WHERE bd.oper_date BETWEEN '2023-04-01' AND '2023-04-30' GROUP BY c.company_name ORDER BY 人均营收 DESC LIMIT 5;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "2023年Q2各分公司客单价对比分析",
														
 
															+    "sql": "SELECT c.company_name AS 分公司名称, AVG(bd.pay_sum/bd.order_sum) AS 客单价 FROM bss_company c JOIN bss_service_area sa ON c.id = sa.company_id JOIN bss_business_day_data bd ON sa.service_area_no = bd.service_no WHERE bd.oper_date BETWEEN '2023-04-01' AND '2023-06-30' GROUP BY c.company_name ORDER BY 客单价 DESC;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "最近一周订单密度（订单数/面积）最低的3个分公司",
														
 
															+    "sql": "SELECT c.company_name AS 分公司名称, SUM(bd.order_sum)/COUNT(DISTINCT sa.id) AS 订单密度 FROM bss_company c JOIN bss_service_area sa ON c.id = sa.company_id JOIN bss_business_day_data bd ON sa.service_area_no = bd.service_no WHERE bd.oper_date >= CURRENT_DATE - 7 GROUP BY c.company_name ORDER BY 订单密度 ASC LIMIT 3;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "各分公司2023年节假日营收总额环比分析",
														
 
															+    "sql": "SELECT c.company_name AS 分公司名称, SUM(CASE WHEN EXTRACT(MONTH FROM bd.oper_date) = 1 THEN bd.pay_sum ELSE 0 END) AS 一月营收, SUM(CASE WHEN EXTRACT(MONTH FROM bd.oper_date) = 2 THEN bd.pay_sum ELSE 0 END) AS 二月营收 FROM bss_company c JOIN bss_service_area sa ON c.id = sa.company_id JOIN bss_business_day_data bd ON sa.service_area_no = bd.service_no WHERE EXTRACT(YEAR FROM bd.oper_date) = 2023 GROUP BY c.company_name;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "2023-04-01当日各分公司运营指标对比（支付总额、订单数、车流量）",
														
 
															+    "sql": "SELECT c.company_name AS 分公司名称, SUM(bd.pay_sum) AS 支付总额, SUM(bd.order_sum) AS 订单总数, SUM(car.customer_count) AS 车流量 FROM bss_company c JOIN bss_service_area sa ON c.id = sa.company_id JOIN bss_business_day_data bd ON sa.service_area_no = bd.service_no JOIN bss_car_day_count car ON sa.id = car.service_area_id WHERE bd.oper_date = '2023-04-01' GROUP BY c.company_name ORDER BY 支付总额 DESC;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "各分公司微信支付占比分析（近30天）",
														
 
															+    "sql": "SELECT c.company_name AS 分公司名称, SUM(bd.wx) / SUM(bd.pay_sum) * 100 AS 微信占比百分比 FROM bss_company c JOIN bss_service_area sa ON c.id = sa.company_id JOIN bss_business_day_data bd ON sa.service_area_no = bd.service_no WHERE bd.oper_date >= CURRENT_DATE - 30 GROUP BY c.company_name ORDER BY 微信占比百分比 DESC;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "各分公司服务区数量与营收能力关联分析",
														
 
															+    "sql": "SELECT c.company_name AS 分公司名称, COUNT(sa.id) AS 服务区数量, SUM(bd.pay_sum) AS 总营收 FROM bss_company c JOIN bss_service_area sa ON c.id = sa.company_id JOIN bss_business_day_data bd ON sa.service_area_no = bd.service_no GROUP BY c.company_name ORDER BY 服务区数量 DESC, 总营收 DESC;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "2023年各分公司月均订单密度趋势分析",
														
 
															+    "sql": "SELECT c.company_name AS 分公司名称, EXTRACT(MONTH FROM bd.oper_date) AS 月份, AVG(bd.order_sum) AS 月均订单密度 FROM bss_company c JOIN bss_service_area sa ON c.id = sa.company_id JOIN bss_business_day_data bd ON sa.service_area_no = bd.service_no WHERE EXTRACT(YEAR FROM bd.oper_date) = 2023 GROUP BY c.company_name, 月份 ORDER BY 分公司名称, 月份;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "各分公司不同支付方式订单数占比分析",
														
 
															+    "sql": "SELECT c.company_name AS 分公司名称, SUM(bd.wx_order)/SUM(bd.order_sum)*100 AS 微信占比, SUM(bd.zf_order)/SUM(bd.order_sum)*100 AS 支付宝占比 FROM bss_company c JOIN bss_service_area sa ON c.id = sa.company_id JOIN bss_business_day_data bd ON sa.service_area_no = bd.service_no GROUP BY c.company_name ORDER BY 微信占比 DESC;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "2023年Q2各分公司营收增长率分析",
														
 
															+    "sql": "SELECT c.company_name AS 分公司名称, SUM(CASE WHEN EXTRACT(MONTH FROM bd.oper_date) = 4 THEN bd.pay_sum ELSE 0 END) / SUM(CASE WHEN EXTRACT(MONTH FROM bd.oper_date) = 5 THEN bd.pay_sum ELSE 0 END) - 1 AS 月增长率 FROM bss_company c JOIN bss_service_area sa ON c.id = sa.company_id JOIN bss_business_day_data bd ON sa.service_area_no = bd.service_no WHERE EXTRACT(QUARTER FROM bd.oper_date) = 2 GROUP BY c.company_name ORDER BY 月增长率 DESC;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "统计各路线关联的服务区数量及平均车流量，按服务区数量降序排列",
														
 
															+    "sql": "SELECT r.route_name AS 路线名称, COUNT(l.service_area_id) AS 服务区数量, AVG(c.customer_count) AS 平均车流量 FROM bss_section_route r LEFT JOIN bss_section_route_area_link l ON r.id = l.section_route_id LEFT JOIN bss_car_day_count c ON l.service_area_id = c.service_area_id WHERE r.delete_ts IS NULL GROUP BY r.route_name ORDER BY 服务区数量 DESC;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "计算2023年Q2各路段日均车流量，筛选出日均车流量>1000的路段",
														
 
															+    "sql": "SELECT s.section_name AS 路段名称, COUNT(*) AS 天数, AVG(c.customer_count) AS 日均车流量 FROM bss_section_route s JOIN bss_section_route_area_link l ON s.id = l.section_route_id JOIN bss_car_day_count c ON l.service_area_id = c.service_area_id WHERE c.count_date BETWEEN '2023-04-01' AND '2023-06-30' AND s.delete_ts IS NULL GROUP BY s.section_name HAVING AVG(c.customer_count) > 1000;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "查询2023年车流量TOP5服务区及对应路线信息",
														
 
															+    "sql": "SELECT a.service_area_name AS 服务区名称, r.route_name AS 路线名称, SUM(c.customer_count) AS 总车流量 FROM bss_service_area a JOIN bss_section_route_area_link l ON a.id = l.service_area_id JOIN bss_section_route r ON l.section_route_id = r.id JOIN bss_car_day_count c ON a.id = c.service_area_id WHERE c.count_date BETWEEN '2023-01-01' AND '2023-12-31' GROUP BY a.service_area_name, r.route_name ORDER BY 总车流量 DESC LIMIT 5;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "统计未关联服务区的路段清单及创建时间",
														
 
															+    "sql": "SELECT r.section_name AS 路段名称, r.create_ts AS 创建时间 FROM bss_section_route r LEFT JOIN bss_section_route_area_link l ON r.id = l.section_route_id WHERE l.service_area_id IS NULL AND r.delete_ts IS NULL;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "分析春运期间（2023-01-07至2023-02-16）各路线车流变化趋势",
														
 
															+    "sql": "SELECT r.route_name AS 路线名称, c.count_date AS 日期, SUM(c.customer_count) AS 总车流量 FROM bss_section_route r JOIN bss_section_route_area_link l ON r.id = l.section_route_id JOIN bss_car_day_count c ON l.service_area_id = c.service_area_id WHERE c.count_date BETWEEN '2023-01-07' AND '2023-02-16' GROUP BY r.route_name, c.count_date ORDER BY 日期;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "计算各服务区车流覆盖率（关联路段车流/总车流）TOP10",
														
 
															+    "sql": "SELECT a.service_area_name AS 服务区名称, SUM(c.customer_count) AS 关联车流, (SELECT SUM(customer_count) FROM bss_car_day_count WHERE service_area_id = a.id) AS 总车流, ROUND((SUM(c.customer_count)/(SELECT SUM(customer_count) FROM bss_car_day_count WHERE service_area_id = a.id)) * 100)::numeric(5,2) AS 覆盖率 FROM bss_service_area a JOIN bss_section_route_area_link l ON a.id = l.service_area_id JOIN bss_car_day_count c ON a.id = c.service_area_id GROUP BY a.id, a.service_area_name ORDER BY 覆盖率 DESC LIMIT 10;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "分析不同分公司管辖路段的服务区密度（服务区数/路段长度）",
														
 
															+    "sql": "SELECT c.company_name AS 分公司名称, COUNT(a.id) AS 服务区数量, SUM(LENGTH(s.code)) AS 路段总长度, ROUND((COUNT(a.id)/SUM(LENGTH(s.code))) * 1000)::numeric(5,2) AS 密度_每千米 FROM bss_company c JOIN bss_service_area a ON c.id = a.company_id JOIN bss_section_route_area_link l ON a.id = l.service_area_id JOIN bss_section_route s ON l.section_route_id = s.id GROUP BY c.company_name;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "分析2023年国庆节期间各服务区营收总额及环比增长率",
														
 
															+    "sql": "WITH holiday_revenue AS (SELECT service_name, SUM(pay_sum) AS holiday_amount FROM bss_business_day_data WHERE oper_date BETWEEN '2023-10-01' AND '2023-10-07' AND delete_ts IS NULL GROUP BY service_name), pre_holiday_revenue AS (SELECT service_name, SUM(pay_sum) AS pre_amount FROM bss_business_day_data WHERE oper_date BETWEEN '2023-09-24' AND '2023-09-30' AND delete_ts IS NULL GROUP BY service_name) SELECT h.service_name, h.holiday_amount, ROUND((h.holiday_amount - p.pre_amount)/p.pre_amount*100, 2) AS growth_rate FROM holiday_revenue h JOIN pre_holiday_revenue p ON h.service_name = p.service_name ORDER BY growth_rate DESC;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "统计2023年春节期间各服务区节假日营收占Q1季度总营收比例",
														
 
															+    "sql": "WITH q1_revenue AS (SELECT service_name, SUM(pay_sum) AS q1_amount FROM bss_business_day_data WHERE oper_date BETWEEN '2023-01-01' AND '2023-03-31' AND delete_ts IS NULL GROUP BY service_name), lunar_revenue AS (SELECT service_name, SUM(pay_sum) AS lunar_amount FROM bss_business_day_data WHERE oper_date BETWEEN '2023-01-20' AND '2023-01-27' AND delete_ts IS NULL GROUP BY service_name) SELECT q.service_name, ROUND(l.lunar_amount/q.q1_amount*100, 2) AS ratio FROM q1_revenue q JOIN lunar_revenue l ON q.service_name = l.service_name ORDER BY ratio DESC;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "对比2023年国庆节期间不同支付方式金额占比",
														
 
															+    "sql": "SELECT '微信' AS pay_type, ROUND(SUM(wx)/SUM(pay_sum)*100, 2) AS ratio FROM bss_business_day_data WHERE oper_date BETWEEN '2023-10-01' AND '2023-10-07' AND delete_ts IS NULL UNION ALL SELECT '支付宝', ROUND(SUM(zfb)/SUM(pay_sum)*100, 2) FROM bss_business_day_data WHERE oper_date BETWEEN '2023-10-01' AND '2023-10-07' AND delete_ts IS NULL UNION ALL SELECT '现金', ROUND(SUM(rmb)/SUM(pay_sum)*100, 2) FROM bss_business_day_data WHERE oper_date BETWEEN '2023-10-01' AND '2023-10-07' AND delete_ts IS NULL;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "分析节假日与非节假日各服务区日均车流量增长率",
														
 
															+    "sql": "WITH holiday_avg AS (SELECT service_area_id, AVG(customer_count) AS holiday_avg FROM bss_car_day_count WHERE count_date BETWEEN '2023-10-01' AND '2023-10-07' AND delete_ts IS NULL GROUP BY service_area_id), non_holiday_avg AS (SELECT service_area_id, AVG(customer_count) AS non_holiday_avg FROM bss_car_day_count WHERE count_date NOT BETWEEN '2023-10-01' AND '2023-10-07' AND delete_ts IS NULL GROUP BY service_area_id) SELECT h.service_area_id, ROUND((h.holiday_avg - n.non_holiday_avg)/n.non_holiday_avg*100, 2) AS growth_rate FROM holiday_avg h JOIN non_holiday_avg n ON h.service_area_id = n.service_area_id ORDER BY growth_rate DESC LIMIT 10;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "统计节假日车流最高峰时段的车辆类型分布",
														
 
															+    "sql": "SELECT car_type, SUM(customer_count) AS total_cars FROM bss_car_day_count WHERE count_date BETWEEN '2023-10-01' AND '2023-10-07' AND EXTRACT(HOUR FROM create_ts) BETWEEN 8 AND 10 AND delete_ts IS NULL GROUP BY car_type ORDER BY total_cars DESC;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "对比2023年五一假期与清明假期营收增幅排名TOP5服务区",
														
 
															+    "sql": "WITH may_revenue AS (SELECT service_name, SUM(pay_sum) AS may_amount FROM bss_business_day_data WHERE oper_date BETWEEN '2023-04-29' AND '2023-05-03' AND delete_ts IS NULL GROUP BY service_name), qingming_revenue AS (SELECT service_name, SUM(pay_sum) AS qingming_amount FROM bss_business_day_data WHERE oper_date BETWEEN '2023-04-05' AND '2023-04-07' AND delete_ts IS NULL GROUP BY service_name) SELECT m.service_name, ROUND((m.may_amount - q.qingming_amount)/q.qingming_amount*100, 2) AS growth_rate FROM may_revenue m JOIN qingming_revenue q ON m.service_name = q.service_name ORDER BY growth_rate DESC LIMIT 5;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "分析节假日现金支付比例变化趋势",
														
 
															+    "sql": "SELECT oper_date, ROUND(SUM(rmb)/SUM(pay_sum)*100, 2) AS cash_ratio FROM bss_business_day_data WHERE oper_date BETWEEN '2023-09-24' AND '2023-10-07' AND delete_ts IS NULL GROUP BY oper_date ORDER BY oper_date;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "统计危化品车辆节假日期间通行量同比增幅",
														
 
															+    "sql": "WITH holiday_2022 AS (SELECT COUNT(*) AS cnt_2022 FROM bss_car_day_count WHERE count_date BETWEEN '2022-10-01' AND '2022-10-07' AND car_type = '危化品' AND delete_ts IS NULL), holiday_2023 AS (SELECT COUNT(*) AS cnt_2023 FROM bss_car_day_count WHERE count_date BETWEEN '2023-10-01' AND '2023-10-07' AND car_type = '危化品' AND delete_ts IS NULL) SELECT ROUND((cnt_2023 - cnt_2022)/cnt_2022*100, 2) AS growth_rate FROM holiday_2022, holiday_2023;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "查询2023年国庆节期间营收增幅超过50%的服务区清单",
														
 
															+    "sql": "WITH pre_data AS (SELECT service_name, SUM(pay_sum) AS pre_amount FROM bss_business_day_data WHERE oper_date BETWEEN '2023-09-24' AND '2023-09-30' AND delete_ts IS NULL GROUP BY service_name), holiday_data AS (SELECT service_name, SUM(pay_sum) AS holiday_amount FROM bss_business_day_data WHERE oper_date BETWEEN '2023-10-01' AND '2023-10-07' AND delete_ts IS NULL GROUP BY service_name) SELECT h.service_name, ROUND((h.holiday_amount - p.pre_amount)/p.pre_amount*100, 2) AS growth_rate FROM holiday_data h JOIN pre_data p ON h.service_name = p.service_name WHERE (h.holiday_amount - p.pre_amount)/p.pre_amount > 0.5 ORDER BY growth_rate DESC;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "分析节假日期间城际车辆流量与服务区地理位置的关系",
														
 
															+    "sql": "SELECT s.service_area_name, s.service_position, AVG(c.customer_count) AS avg_traffic FROM bss_car_day_count c JOIN bss_service_area s ON c.service_area_id = s.id WHERE c.car_type = '城际' AND c.count_date BETWEEN '2023-10-01' AND '2023-10-07' AND c.delete_ts IS NULL GROUP BY s.service_area_name, s.service_position ORDER BY avg_traffic DESC;"
														
 
															+  }
														
 
															+]
														
--- a/data_pipeline/training_data/task_20250701_131627/qs_highway_db_20250701_134736_pair.json.backup
+++ b/data_pipeline/training_data/task_20250701_131627/qs_highway_db_20250701_134736_pair.json.backup
@@ -0,0 +1,202 @@
 
															+[
														
 
															+  {
														
 
															+    "question": "统计2023年4月1日各服务区的总营收及现金支付金额占比",
														
 
															+    "sql": "SELECT service_name AS 服务区名称, SUM(pay_sum) AS 总营收, SUM(rmb)/SUM(pay_sum)*100 AS 现金支付占比 FROM bss_business_day_data WHERE oper_date = '2023-04-01' AND delete_ts IS NULL GROUP BY service_name;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "分析2023年第一季度各支付方式在总营收中的占比变化趋势",
														
 
															+    "sql": "SELECT oper_date AS 统计日期, SUM(wx)/SUM(pay_sum)*100 AS 微信占比, SUM(zfb)/SUM(pay_sum)*100 AS 支付宝占比, SUM(rmb)/SUM(pay_sum)*100 AS 现金占比 FROM bss_business_day_data WHERE oper_date BETWEEN '2023-01-01' AND '2023-03-31' AND delete_ts IS NULL GROUP BY oper_date ORDER BY 统计日期;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "查询最近7天总营收最高的前5个服务区及其移动支付比例",
														
 
															+    "sql": "SELECT service_name AS 服务区名称, SUM(pay_sum) AS 总营收, (SUM(wx)+SUM(zfb))/SUM(pay_sum)*100 AS 移动支付比例 FROM bss_business_day_data WHERE oper_date >= CURRENT_DATE - 7 AND oper_date < CURRENT_DATE AND delete_ts IS NULL GROUP BY service_name ORDER BY 总营收 DESC LIMIT 5;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "对比不同档口的现金支付订单占比并按占比排序",
														
 
															+    "sql": "SELECT branch_name AS 档口名称, SUM(rmb_order)/SUM(order_sum)*100 AS 现金订单占比 FROM bss_business_day_data WHERE delete_ts IS NULL GROUP BY branch_name ORDER BY 现金订单占比 DESC;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "计算宜春服务区2023年各季度月均营收及最大单日营收",
														
 
															+    "sql": "SELECT EXTRACT(QUARTER FROM oper_date) AS 季度, AVG(pay_sum) AS 月均营收, MAX(pay_sum) AS 最大单日营收 FROM bss_business_day_data WHERE service_name = '宜春服务区' AND EXTRACT(YEAR FROM oper_date) = 2023 AND delete_ts IS NULL GROUP BY 季度 ORDER BY 季度;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "统计2023年4月各服务区订单总数及总营收并按营收排名",
														
 
															+    "sql": "SELECT service_name AS 服务区名称, SUM(order_sum) AS 订单总数, SUM(pay_sum) AS 总营收 FROM bss_business_day_data WHERE oper_date BETWEEN '2023-04-01' AND '2023-04-30' AND delete_ts IS NULL GROUP BY service_name ORDER BY 总营收 DESC;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "查询最近一天移动支付占比超过80%的服务区信息",
														
 
															+    "sql": "SELECT service_name AS 服务区名称, (wx+zfb)/pay_sum*100 AS 移动支付比例 FROM bss_business_day_data WHERE oper_date = (SELECT MAX(oper_date) FROM bss_business_day_data WHERE delete_ts IS NULL) AND (wx+zfb)/pay_sum > 0.8 AND delete_ts IS NULL ORDER BY 移动支付比例 DESC;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "分析庐山服务区2023年各星期的营收分布情况",
														
 
															+    "sql": "SELECT EXTRACT(ISODOW FROM oper_date) AS 星期, SUM(pay_sum) AS 总营收 FROM bss_business_day_data WHERE service_name = '庐山服务区' AND EXTRACT(YEAR FROM oper_date) = 2023 AND delete_ts IS NULL GROUP BY 星期 ORDER BY 星期;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "统计最近一天总营收超过1万元且现金占比低于10%的服务区",
														
 
															+    "sql": "SELECT service_name AS 服务区名称, pay_sum AS 总营收, rmb/pay_sum*100 AS 现金占比 FROM bss_business_day_data WHERE oper_date = (SELECT MAX(oper_date) FROM bss_business_day_data WHERE delete_ts IS NULL) AND pay_sum > 10000 AND rmb/pay_sum < 0.1 AND delete_ts IS NULL ORDER BY 总营收 DESC;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "对比宜春和南昌南服务区最近30天各支付方式的平均日营收",
														
 
															+    "sql": "SELECT service_name AS 服务区名称, AVG(wx) AS 日均微信营收, AVG(zfb) AS 日均支付宝营收, AVG(rmb) AS 日均现金营收 FROM bss_business_day_data WHERE oper_date >= CURRENT_DATE - 30 AND service_name IN ('宜春服务区','南昌南服务区') AND delete_ts IS NULL GROUP BY service_name ORDER BY 服务区名称;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "统计各服务区日均车流量并按车流由高到低排序",
														
 
															+    "sql": "SELECT sa.service_area_name AS 服务区名称, AVG(cc.customer_count) AS 日均车流量 FROM bss_car_day_count cc JOIN bss_service_area sa ON cc.service_area_id = sa.id WHERE cc.delete_ts IS NULL AND sa.delete_ts IS NULL GROUP BY sa.service_area_name ORDER BY 日均车流量 DESC;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "查询危化品车辆占比超过5%的服务区信息",
														
 
															+    "sql": "SELECT sa.service_area_name, ROUND((SUM(CASE WHEN cc.car_type='危化品' THEN cc.customer_count ELSE 0 END)*100.0/SUM(cc.customer_count))::numeric,2) AS 危化品占比 FROM bss_car_day_count cc JOIN bss_service_area sa ON cc.service_area_id = sa.id WHERE cc.delete_ts IS NULL AND sa.delete_ts IS NULL GROUP BY sa.service_area_name HAVING SUM(CASE WHEN cc.car_type='危化品' THEN cc.customer_count ELSE 0 END)*100.0/SUM(cc.customer_count) > 5 ORDER BY 危化品占比 DESC;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "分析最近30天各车型日均通行量变化趋势",
														
 
															+    "sql": "SELECT count_date AS 统计日期, car_type AS 车型, AVG(customer_count) AS 日均车流量 FROM bss_car_day_count WHERE count_date >= CURRENT_DATE - 30 AND delete_ts IS NULL GROUP BY count_date, car_type ORDER BY count_date;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "对比周末与工作日车流量差异",
														
 
															+    "sql": "SELECT CASE WHEN EXTRACT(DOW FROM count_date) IN (0,6) THEN '周末' ELSE '工作日' END AS 时段类型, AVG(customer_count) AS 平均车流量 FROM bss_car_day_count WHERE delete_ts IS NULL GROUP BY 时段类型;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "获取各服务区过境车辆占比TOP5",
														
 
															+    "sql": "SELECT sa.service_area_name, ROUND((SUM(CASE WHEN cc.car_type='过境' THEN cc.customer_count ELSE 0 END)*100.0/SUM(cc.customer_count))::numeric,2) AS 过境占比 FROM bss_car_day_count cc JOIN bss_service_area sa ON cc.service_area_id = sa.id WHERE cc.delete_ts IS NULL AND sa.delete_ts IS NULL GROUP BY sa.service_area_name ORDER BY 过境占比 DESC LIMIT 5;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "统计最近一周每日总车流量及环比增长率",
														
 
															+    "sql": "WITH daily_total AS (SELECT count_date, SUM(customer_count) AS total FROM bss_car_day_count WHERE count_date >= CURRENT_DATE - 7 AND delete_ts IS NULL GROUP BY count_date) SELECT count_date, total, LAG(total) OVER(ORDER BY count_date) AS 前一日流量, ROUND(((total - LAG(total) OVER(ORDER BY count_date))*100.0/LAG(total) OVER(ORDER BY count_date))::numeric,2) AS 环比增长率 FROM daily_total;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "查询连续3天车流量增长的服务区",
														
 
															+    "sql": "WITH daily_growth AS (SELECT service_area_id, count_date, SUM(customer_count) AS daily_count, LAG(SUM(customer_count),1) OVER(PARTITION BY service_area_id ORDER BY count_date) AS prev_count FROM bss_car_day_count WHERE delete_ts IS NULL GROUP BY service_area_id, count_date) SELECT sa.service_area_name FROM (SELECT service_area_id FROM daily_growth WHERE daily_count > prev_count GROUP BY service_area_id, count_date - generate_series(0,2)) t JOIN bss_service_area sa ON t.service_area_id = sa.id;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "统计各车辆类型在不同时间段的分布比例",
														
 
															+    "sql": "SELECT car_type AS 车型, EXTRACT(HOUR FROM create_ts)::integer AS 小时段, ROUND(AVG(customer_count)::numeric,0) AS 平均车流量 FROM bss_car_day_count WHERE delete_ts IS NULL GROUP BY car_type, 小时段 ORDER BY 小时段;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "获取昨日车流量最高的3个服务区及对应车型分布",
														
 
															+    "sql": "SELECT sa.service_area_name, cc.car_type, cc.customer_count FROM bss_car_day_count cc JOIN bss_service_area sa ON cc.service_area_id = sa.id WHERE cc.count_date = CURRENT_DATE - 1 AND sa.delete_ts IS NULL ORDER BY cc.customer_count DESC LIMIT 3;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "分析各区域城际车辆通行量与服务区开放状态的关系",
														
 
															+    "sql": "SELECT sa.service_state AS 开放状态, AVG(CASE WHEN cc.car_type='城际' THEN cc.customer_count ELSE 0 END) AS 平均城际车流量 FROM bss_car_day_count cc RIGHT JOIN bss_service_area sa ON cc.service_area_id = sa.id WHERE sa.delete_ts IS NULL GROUP BY sa.service_state;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "各分公司2023年4月人均营收TOP5（按支付总额/车流量计算）",
														
 
															+    "sql": "SELECT c.company_name AS 分公司名称, SUM(bd.pay_sum)/SUM(car.customer_count) AS 人均营收 FROM bss_company c JOIN bss_service_area sa ON c.id = sa.company_id JOIN bss_business_day_data bd ON sa.service_area_no = bd.service_no JOIN bss_car_day_count car ON sa.id = car.service_area_id AND bd.oper_date = car.count_date WHERE bd.oper_date BETWEEN '2023-04-01' AND '2023-04-30' GROUP BY c.company_name ORDER BY 人均营收 DESC LIMIT 5;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "2023年Q2各分公司客单价对比分析",
														
 
															+    "sql": "SELECT c.company_name AS 分公司名称, AVG(bd.pay_sum/bd.order_sum) AS 客单价 FROM bss_company c JOIN bss_service_area sa ON c.id = sa.company_id JOIN bss_business_day_data bd ON sa.service_area_no = bd.service_no WHERE bd.oper_date BETWEEN '2023-04-01' AND '2023-06-30' GROUP BY c.company_name ORDER BY 客单价 DESC;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "最近一周订单密度（订单数/面积）最低的3个分公司",
														
 
															+    "sql": "SELECT c.company_name AS 分公司名称, SUM(bd.order_sum)/COUNT(DISTINCT sa.id) AS 订单密度 FROM bss_company c JOIN bss_service_area sa ON c.id = sa.company_id JOIN bss_business_day_data bd ON sa.service_area_no = bd.service_no WHERE bd.oper_date >= CURRENT_DATE - 7 GROUP BY c.company_name ORDER BY 订单密度 ASC LIMIT 3;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "各分公司2023年节假日营收总额环比分析",
														
 
															+    "sql": "SELECT c.company_name AS 分公司名称, SUM(CASE WHEN EXTRACT(MONTH FROM bd.oper_date) = 1 THEN bd.pay_sum ELSE 0 END) AS 一月营收, SUM(CASE WHEN EXTRACT(MONTH FROM bd.oper_date) = 2 THEN bd.pay_sum ELSE 0 END) AS 二月营收 FROM bss_company c JOIN bss_service_area sa ON c.id = sa.company_id JOIN bss_business_day_data bd ON sa.service_area_no = bd.service_no WHERE EXTRACT(YEAR FROM bd.oper_date) = 2023 GROUP BY c.company_name;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "2023-04-01当日各分公司运营指标对比（支付总额、订单数、车流量）",
														
 
															+    "sql": "SELECT c.company_name AS 分公司名称, SUM(bd.pay_sum) AS 支付总额, SUM(bd.order_sum) AS 订单总数, SUM(car.customer_count) AS 车流量 FROM bss_company c JOIN bss_service_area sa ON c.id = sa.company_id JOIN bss_business_day_data bd ON sa.service_area_no = bd.service_no JOIN bss_car_day_count car ON sa.id = car.service_area_id WHERE bd.oper_date = '2023-04-01' GROUP BY c.company_name ORDER BY 支付总额 DESC;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "各分公司微信支付占比分析（近30天）",
														
 
															+    "sql": "SELECT c.company_name AS 分公司名称, SUM(bd.wx) / SUM(bd.pay_sum) * 100 AS 微信占比百分比 FROM bss_company c JOIN bss_service_area sa ON c.id = sa.company_id JOIN bss_business_day_data bd ON sa.service_area_no = bd.service_no WHERE bd.oper_date >= CURRENT_DATE - 30 GROUP BY c.company_name ORDER BY 微信占比百分比 DESC;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "各分公司服务区数量与营收能力关联分析",
														
 
															+    "sql": "SELECT c.company_name AS 分公司名称, COUNT(sa.id) AS 服务区数量, SUM(bd.pay_sum) AS 总营收 FROM bss_company c JOIN bss_service_area sa ON c.id = sa.company_id JOIN bss_business_day_data bd ON sa.service_area_no = bd.service_no GROUP BY c.company_name ORDER BY 服务区数量 DESC, 总营收 DESC;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "2023年各分公司月均订单密度趋势分析",
														
 
															+    "sql": "SELECT c.company_name AS 分公司名称, EXTRACT(MONTH FROM bd.oper_date) AS 月份, AVG(bd.order_sum) AS 月均订单密度 FROM bss_company c JOIN bss_service_area sa ON c.id = sa.company_id JOIN bss_business_day_data bd ON sa.service_area_no = bd.service_no WHERE EXTRACT(YEAR FROM bd.oper_date) = 2023 GROUP BY c.company_name, 月份 ORDER BY 分公司名称, 月份;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "各分公司不同支付方式订单数占比分析",
														
 
															+    "sql": "SELECT c.company_name AS 分公司名称, SUM(bd.wx_order)/SUM(bd.order_sum)*100 AS 微信占比, SUM(bd.zf_order)/SUM(bd.order_sum)*100 AS 支付宝占比 FROM bss_company c JOIN bss_service_area sa ON c.id = sa.company_id JOIN bss_business_day_data bd ON sa.service_area_no = bd.service_no GROUP BY c.company_name ORDER BY 微信占比 DESC;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "2023年Q2各分公司营收增长率分析",
														
 
															+    "sql": "SELECT c.company_name AS 分公司名称, SUM(CASE WHEN EXTRACT(MONTH FROM bd.oper_date) = 4 THEN bd.pay_sum ELSE 0 END) / SUM(CASE WHEN EXTRACT(MONTH FROM bd.oper_date) = 5 THEN bd.pay_sum ELSE 0 END) - 1 AS 月增长率 FROM bss_company c JOIN bss_service_area sa ON c.id = sa.company_id JOIN bss_business_day_data bd ON sa.service_area_no = bd.service_no WHERE EXTRACT(QUARTER FROM bd.oper_date) = 2 GROUP BY c.company_name ORDER BY 月增长率 DESC;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "统计各路线关联的服务区数量及平均车流量，按服务区数量降序排列",
														
 
															+    "sql": "SELECT r.route_name AS 路线名称, COUNT(l.service_area_id) AS 服务区数量, AVG(c.customer_count) AS 平均车流量 FROM bss_section_route r LEFT JOIN bss_section_route_area_link l ON r.id = l.section_route_id LEFT JOIN bss_car_day_count c ON l.service_area_id = c.service_area_id WHERE r.delete_ts IS NULL GROUP BY r.route_name ORDER BY 服务区数量 DESC;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "计算2023年Q2各路段日均车流量，筛选出日均车流量>1000的路段",
														
 
															+    "sql": "SELECT s.section_name AS 路段名称, COUNT(*) AS 天数, AVG(c.customer_count) AS 日均车流量 FROM bss_section_route s JOIN bss_section_route_area_link l ON s.id = l.section_route_id JOIN bss_car_day_count c ON l.service_area_id = c.service_area_id WHERE c.count_date BETWEEN '2023-04-01' AND '2023-06-30' AND s.delete_ts IS NULL GROUP BY s.section_name HAVING AVG(c.customer_count) > 1000;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "查询2023年车流量TOP5服务区及对应路线信息",
														
 
															+    "sql": "SELECT a.service_area_name AS 服务区名称, r.route_name AS 路线名称, SUM(c.customer_count) AS 总车流量 FROM bss_service_area a JOIN bss_section_route_area_link l ON a.id = l.service_area_id JOIN bss_section_route r ON l.section_route_id = r.id JOIN bss_car_day_count c ON a.id = c.service_area_id WHERE c.count_date BETWEEN '2023-01-01' AND '2023-12-31' GROUP BY a.service_area_name, r.route_name ORDER BY 总车流量 DESC LIMIT 5;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "分析各路线服务区营收贡献占比，按微信支付金额排序",
														
 
															+    "sql": "SELECT r.route_name AS 路线名称, SUM(b.wx) AS 微信支付总额, SUM(b.pay_sum) AS 总营收, ROUND((SUM(b.wx)/SUM(b.pay_sum))*100, 2) AS 微信占比 FROM bss_section_route r JOIN bss_section_route_area_link l ON r.id = l.section_route_id JOIN bss_business_day_data b ON l.service_area_id = b.service_area_id WHERE b.oper_date BETWEEN '2023-01-01' AND '2023-12-31' GROUP BY r.route_name ORDER BY 微信支付总额 DESC;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "对比不同车辆类型在各路线的分布比例",
														
 
															+    "sql": "SELECT r.route_name AS 路线名称, c.car_type AS 车辆类型, COUNT(*) AS 记录数, ROUND((COUNT(*)/(SELECT COUNT(*) FROM bss_car_day_count WHERE service_area_id IN (SELECT service_area_id FROM bss_section_route_area_link WHERE section_route_id = r.id))) * 100)::numeric(5,2) AS 占比百分比 FROM bss_car_day_count c JOIN bss_section_route_area_link l ON c.service_area_id = l.service_area_id JOIN bss_section_route r ON l.section_route_id = r.id GROUP BY r.route_name, c.car_type;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "统计未关联服务区的路段清单及创建时间",
														
 
															+    "sql": "SELECT r.section_name AS 路段名称, r.create_ts AS 创建时间 FROM bss_section_route r LEFT JOIN bss_section_route_area_link l ON r.id = l.section_route_id WHERE l.service_area_id IS NULL AND r.delete_ts IS NULL;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "分析春运期间（2023-01-07至2023-02-16）各路线车流变化趋势",
														
 
															+    "sql": "SELECT r.route_name AS 路线名称, c.count_date AS 日期, SUM(c.customer_count) AS 总车流量 FROM bss_section_route r JOIN bss_section_route_area_link l ON r.id = l.section_route_id JOIN bss_car_day_count c ON l.service_area_id = c.service_area_id WHERE c.count_date BETWEEN '2023-01-07' AND '2023-02-16' GROUP BY r.route_name, c.count_date ORDER BY 日期;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "计算各服务区车流覆盖率（关联路段车流/总车流）TOP10",
														
 
															+    "sql": "SELECT a.service_area_name AS 服务区名称, SUM(c.customer_count) AS 关联车流, (SELECT SUM(customer_count) FROM bss_car_day_count WHERE service_area_id = a.id) AS 总车流, ROUND((SUM(c.customer_count)/(SELECT SUM(customer_count) FROM bss_car_day_count WHERE service_area_id = a.id)) * 100)::numeric(5,2) AS 覆盖率 FROM bss_service_area a JOIN bss_section_route_area_link l ON a.id = l.service_area_id JOIN bss_car_day_count c ON a.id = c.service_area_id GROUP BY a.service_area_name ORDER BY 覆盖率 DESC LIMIT 10;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "查询节假日（2023-10-01至2023-10-07）营收贡献最高的TOP3服务区及对应路线",
														
 
															+    "sql": "SELECT a.service_area_name AS 服务区名称, r.route_name AS 路线名称, SUM(b.pay_sum) AS 总营收 FROM bss_service_area a JOIN bss_section_route_area_link l ON a.id = l.service_area_id JOIN bss_section_route r ON l.section_route_id = r.id JOIN bss_business_day_data b ON a.id = b.service_area_id WHERE b.oper_date BETWEEN '2023-10-01' AND '2023-10-07' GROUP BY a.service_area_name, r.route_name ORDER BY 总营收 DESC LIMIT 3;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "分析不同分公司管辖路段的服务区密度（服务区数/路段长度）",
														
 
															+    "sql": "SELECT c.company_name AS 分公司名称, COUNT(a.id) AS 服务区数量, SUM(LENGTH(s.code)) AS 路段总长度, ROUND((COUNT(a.id)/SUM(LENGTH(s.code))) * 1000)::numeric(5,2) AS 密度_每千米 FROM bss_company c JOIN bss_service_area a ON c.id = a.company_id JOIN bss_section_route_area_link l ON a.id = l.service_area_id JOIN bss_section_route s ON l.section_route_id = s.id GROUP BY c.company_name;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "分析2023年国庆节期间各服务区营收总额及环比增长率",
														
 
															+    "sql": "WITH holiday_revenue AS (SELECT service_name, SUM(pay_sum) AS holiday_amount FROM bss_business_day_data WHERE oper_date BETWEEN '2023-10-01' AND '2023-10-07' AND delete_ts IS NULL GROUP BY service_name), pre_holiday_revenue AS (SELECT service_name, SUM(pay_sum) AS pre_amount FROM bss_business_day_data WHERE oper_date BETWEEN '2023-09-24' AND '2023-09-30' AND delete_ts IS NULL GROUP BY service_name) SELECT h.service_name, h.holiday_amount, ROUND((h.holiday_amount - p.pre_amount)/p.pre_amount*100, 2) AS growth_rate FROM holiday_revenue h JOIN pre_holiday_revenue p ON h.service_name = p.service_name ORDER BY growth_rate DESC;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "统计2023年春节期间各服务区节假日营收占Q1季度总营收比例",
														
 
															+    "sql": "WITH q1_revenue AS (SELECT service_name, SUM(pay_sum) AS q1_amount FROM bss_business_day_data WHERE oper_date BETWEEN '2023-01-01' AND '2023-03-31' AND delete_ts IS NULL GROUP BY service_name), lunar_revenue AS (SELECT service_name, SUM(pay_sum) AS lunar_amount FROM bss_business_day_data WHERE oper_date BETWEEN '2023-01-20' AND '2023-01-27' AND delete_ts IS NULL GROUP BY service_name) SELECT q.service_name, ROUND(l.lunar_amount/q.q1_amount*100, 2) AS ratio FROM q1_revenue q JOIN lunar_revenue l ON q.service_name = l.service_name ORDER BY ratio DESC;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "对比2023年国庆节期间不同支付方式金额占比",
														
 
															+    "sql": "SELECT '微信' AS pay_type, ROUND(SUM(wx)/SUM(pay_sum)*100, 2) AS ratio FROM bss_business_day_data WHERE oper_date BETWEEN '2023-10-01' AND '2023-10-07' AND delete_ts IS NULL UNION ALL SELECT '支付宝', ROUND(SUM(zfb)/SUM(pay_sum)*100, 2) FROM bss_business_day_data WHERE oper_date BETWEEN '2023-10-01' AND '2023-10-07' AND delete_ts IS NULL UNION ALL SELECT '现金', ROUND(SUM(rmb)/SUM(pay_sum)*100, 2) FROM bss_business_day_data WHERE oper_date BETWEEN '2023-10-01' AND '2023-10-07' AND delete_ts IS NULL;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "分析节假日与非节假日各服务区日均车流量增长率",
														
 
															+    "sql": "WITH holiday_avg AS (SELECT service_area_id, AVG(customer_count) AS holiday_avg FROM bss_car_day_count WHERE count_date BETWEEN '2023-10-01' AND '2023-10-07' AND delete_ts IS NULL GROUP BY service_area_id), non_holiday_avg AS (SELECT service_area_id, AVG(customer_count) AS non_holiday_avg FROM bss_car_day_count WHERE count_date NOT BETWEEN '2023-10-01' AND '2023-10-07' AND delete_ts IS NULL GROUP BY service_area_id) SELECT h.service_area_id, ROUND((h.holiday_avg - n.non_holiday_avg)/n.non_holiday_avg*100, 2) AS growth_rate FROM holiday_avg h JOIN non_holiday_avg n ON h.service_area_id = n.service_area_id ORDER BY growth_rate DESC LIMIT 10;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "统计节假日车流最高峰时段的车辆类型分布",
														
 
															+    "sql": "SELECT car_type, SUM(customer_count) AS total_cars FROM bss_car_day_count WHERE count_date BETWEEN '2023-10-01' AND '2023-10-07' AND EXTRACT(HOUR FROM create_ts) BETWEEN 8 AND 10 AND delete_ts IS NULL GROUP BY car_type ORDER BY total_cars DESC;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "对比2023年五一假期与清明假期营收增幅排名TOP5服务区",
														
 
															+    "sql": "WITH may_revenue AS (SELECT service_name, SUM(pay_sum) AS may_amount FROM bss_business_day_data WHERE oper_date BETWEEN '2023-04-29' AND '2023-05-03' AND delete_ts IS NULL GROUP BY service_name), qingming_revenue AS (SELECT service_name, SUM(pay_sum) AS qingming_amount FROM bss_business_day_data WHERE oper_date BETWEEN '2023-04-05' AND '2023-04-07' AND delete_ts IS NULL GROUP BY service_name) SELECT m.service_name, ROUND((m.may_amount - q.qingming_amount)/q.qingming_amount*100, 2) AS growth_rate FROM may_revenue m JOIN qingming_revenue q ON m.service_name = q.service_name ORDER BY growth_rate DESC LIMIT 5;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "分析节假日现金支付比例变化趋势",
														
 
															+    "sql": "SELECT oper_date, ROUND(SUM(rmb)/SUM(pay_sum)*100, 2) AS cash_ratio FROM bss_business_day_data WHERE oper_date BETWEEN '2023-09-24' AND '2023-10-07' AND delete_ts IS NULL GROUP BY oper_date ORDER BY oper_date;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "统计危化品车辆节假日期间通行量同比增幅",
														
 
															+    "sql": "WITH holiday_2022 AS (SELECT COUNT(*) AS cnt_2022 FROM bss_car_day_count WHERE count_date BETWEEN '2022-10-01' AND '2022-10-07' AND car_type = '危化品' AND delete_ts IS NULL), holiday_2023 AS (SELECT COUNT(*) AS cnt_2023 FROM bss_car_day_count WHERE count_date BETWEEN '2023-10-01' AND '2023-10-07' AND car_type = '危化品' AND delete_ts IS NULL) SELECT ROUND((cnt_2023 - cnt_2022)/cnt_2022*100, 2) AS growth_rate FROM holiday_2022, holiday_2023;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "查询2023年国庆节期间营收增幅超过50%的服务区清单",
														
 
															+    "sql": "WITH pre_data AS (SELECT service_name, SUM(pay_sum) AS pre_amount FROM bss_business_day_data WHERE oper_date BETWEEN '2023-09-24' AND '2023-09-30' AND delete_ts IS NULL GROUP BY service_name), holiday_data AS (SELECT service_name, SUM(pay_sum) AS holiday_amount FROM bss_business_day_data WHERE oper_date BETWEEN '2023-10-01' AND '2023-10-07' AND delete_ts IS NULL GROUP BY service_name) SELECT h.service_name, ROUND((h.holiday_amount - p.pre_amount)/p.pre_amount*100, 2) AS growth_rate FROM holiday_data h JOIN pre_data p ON h.service_name = p.service_name WHERE (h.holiday_amount - p.pre_amount)/p.pre_amount > 0.5 ORDER BY growth_rate DESC;"
														
 
															+  },
														
 
															+  {
														
 
															+    "question": "分析节假日期间城际车辆流量与服务区地理位置的关系",
														
 
															+    "sql": "SELECT s.service_area_name, s.service_position, AVG(c.customer_count) AS avg_traffic FROM bss_car_day_count c JOIN bss_service_area s ON c.service_area_id = s.id WHERE c.car_type = '城际' AND c.count_date BETWEEN '2023-10-01' AND '2023-10-07' AND c.delete_ts IS NULL GROUP BY s.service_area_name, s.service_position ORDER BY avg_traffic DESC;"
														
 
															+  }
														
 
															+]
														
--- a/data_pipeline/training_data/task_20250701_131627/task_config.json
+++ b/data_pipeline/training_data/task_20250701_131627/task_config.json
@@ -0,0 +1,14 @@
 
															+{
														
 
															+  "task_id": "task_20250701_131627",
														
 
															+  "created_at": "2025-07-01T05:16:27.671265",
														
 
															+  "parameters": {
														
 
															+    "db_connection": "postgresql://postgres:postgres@192.168.67.1:6432/highway_db",
														
 
															+    "table_list_file": "data_pipeline/tables.txt",
														
 
															+    "business_context": "高速公路服务区管理系统",
														
 
															+    "enable_llm_repair": true,
														
 
															+    "modify_original_file": true,
														
 
															+    "enable_sql_validation": true,
														
 
															+    "enable_training_data_load": true
														
 
															+  },
														
 
															+  "output_directory": "data_pipeline\\training_data\\task_20250701_131627"
														
 
															+}
														
--- a/data_pipeline/training_data/task_20250701_131627/task_result.json
+++ b/data_pipeline/training_data/task_20250701_131627/task_result.json
@@ -0,0 +1,88 @@
 
															+{
														
 
															+  "success": true,
														
 
															+  "workflow_summary": {
														
 
															+    "total_duration": 1283.84,
														
 
															+    "completed_steps": [
														
 
															+      "ddl_md_generation",
														
 
															+      "question_sql_generation",
														
 
															+      "sql_validation",
														
 
															+      "training_data_load"
														
 
															+    ],
														
 
															+    "failed_steps": [],
														
 
															+    "total_steps": 4,
														
 
															+    "workflow_started": "2025-07-01T13:30:53.267230",
														
 
															+    "workflow_completed": "2025-07-01T13:52:17.112211"
														
 
															+  },
														
 
															+  "input_parameters": {
														
 
															+    "db_connection": "postgresql://postgres:***@192.168.67.1:6432/highway_db",
														
 
															+    "table_list_file": "data_pipeline/tables.txt",
														
 
															+    "business_context": "高速公路服务区管理系统",
														
 
															+    "db_name": "highway_db",
														
 
															+    "output_directory": "data_pipeline\\training_data\\task_20250701_131627",
														
 
															+    "enable_sql_validation": true,
														
 
															+    "enable_llm_repair": true,
														
 
															+    "modify_original_file": true,
														
 
															+    "enable_training_data_load": true
														
 
															+  },
														
 
															+  "processing_results": {
														
 
															+    "ddl_md_generation": {
														
 
															+      "total_tables": 7,
														
 
															+      "processed_successfully": 7,
														
 
															+      "failed": 0,
														
 
															+      "files_generated": 14,
														
 
															+      "duration": 422.30856490135193
														
 
															+    },
														
 
															+    "question_sql_generation": {
														
 
															+      "output_file": "data_pipeline\\training_data\\task_20250701_131627\\qs_highway_db_20250701_134736_pair.json",
														
 
															+      "total_questions": 50,
														
 
															+      "total_themes": 5,
														
 
															+      "successful_themes": 5,
														
 
															+      "failed_themes": [],
														
 
															+      "duration": 607.0530173778534
														
 
															+    },
														
 
															+    "sql_validation": {
														
 
															+      "original_sql_count": 50,
														
 
															+      "valid_sql_count": 47,
														
 
															+      "invalid_sql_count": 3,
														
 
															+      "success_rate": 0.94,
														
 
															+      "repair_stats": {
														
 
															+        "attempted": 4,
														
 
															+        "successful": 1,
														
 
															+        "failed": 3
														
 
															+      },
														
 
															+      "file_modification_stats": {
														
 
															+        "modified": 1,
														
 
															+        "deleted": 3,
														
 
															+        "failed_modifications": 0
														
 
															+      },
														
 
															+      "average_execution_time": 0.02947342872619629,
														
 
															+      "total_retries": 0,
														
 
															+      "duration": 236.6604528427124
														
 
															+    },
														
 
															+    "training_data_load": {
														
 
															+      "training_data_dir": "data_pipeline\\training_data\\task_20250701_131627",
														
 
															+      "load_successful": true,
														
 
															+      "total_records": 288,
														
 
															+      "data_type_counts": {
														
 
															+        "sql": 254,
														
 
															+        "documentation": 17,
														
 
															+        "ddl": 16,
														
 
															+        "error_sql": 1
														
 
															+      },
														
 
															+      "duration": 17.167370080947876
														
 
															+    }
														
 
															+  },
														
 
															+  "final_outputs": {
														
 
															+    "primary_output_file": "data_pipeline\\training_data\\task_20250701_131627\\qs_highway_db_20250701_134736_pair.json",
														
 
															+    "output_directory": "data_pipeline\\training_data\\task_20250701_131627",
														
 
															+    "final_question_count": 47,
														
 
															+    "backup_files_created": true
														
 
															+  },
														
 
															+  "performance_metrics": {
														
 
															+    "step1_duration": 422.31,
														
 
															+    "step2_duration": 607.05,
														
 
															+    "step3_duration": 236.66,
														
 
															+    "step4_duration": 17.17,
														
 
															+    "total_duration": 1283.84
														
 
															+  }
														
 
															+}
														
--- a/docs/data_pipeline_api_config_changes.md
+++ b/docs/data_pipeline_api_config_changes.md
@@ -0,0 +1,179 @@
 
															+# Data Pipeline API 配置变更说明
														
 
															+
														
 
															+## 变更概述
														
 
															+
														
 
															+基于用户需求，Data Pipeline API 进行了重要的配置变更，主要目的是：
														
 
															+
														
 
															+1. **简化API调用**：移除 `db_connection` 必填参数
														
 
															+2. **统一配置管理**：使用 `app_config.py` 中的配置
														
 
															+3. **明确数据库职责**：任务管理表存储在向量数据库中
														
 
															+
														
 
															+## 主要变更内容
														
 
															+
														
 
															+### 1. API参数变更
														
 
															+
														
 
															+#### 变更前
														
 
															+```json
														
 
															+{
														
 
															+  "db_connection": "postgresql://user:pass@host:5432/dbname",  // 必填
														
 
															+  "table_list_file": "tables.txt",
														
 
															+  "business_context": "业务描述"
														
 
															+}
														
 
															+```
														
 
															+
														
 
															+#### 变更后
														
 
															+```json
														
 
															+{
														
 
															+  "table_list_file": "tables.txt",                            // 必填
														
 
															+  "business_context": "业务描述",                            // 必填
														
 
															+  "db_name": "highway_db"                                     // 可选
														
 
															+}
														
 
															+```
														
 
															+
														
 
															+### 2. 数据库连接配置
														
 
															+
														
 
															+#### 业务数据库连接
														
 
															+- **配置来源**: `app_config.py` 中的 `APP_DB_CONFIG`
														
 
															+- **用途**: Schema分析和训练数据生成的源数据库
														
 
															+- **自动构建**: 系统自动构建连接字符串用于 `schema_workflow` 执行
														
 
															+
														
 
															+#### 任务管理数据库连接
														
 
															+- **配置来源**: `app_config.py` 中的 `PGVECTOR_CONFIG`
														
 
															+- **用途**: 存储任务状态、执行记录、日志等管理信息
														
 
															+- **表结构**: 4个管理表都创建在向量数据库中
														
 
															+
														
 
															+### 3. 代码变更清单
														
 
															+
														
 
															+#### 修改的文件：
														
 
															+
														
 
															+1. **`data_pipeline/api/simple_db_manager.py`**
														
 
															+   - 修改 `create_task()` 方法签名
														
 
															+   - 移除 `db_connection` 必填参数
														
 
															+   - 添加 `_build_db_connection_string()` 方法
														
 
															+   - 从 `APP_DB_CONFIG` 自动获取业务数据库配置
														
 
															+
														
 
															+2. **`data_pipeline/api/simple_workflow.py`**
														
 
															+   - 修改 `SimpleWorkflowManager.create_task()` 方法
														
 
															+   - 更新参数传递逻辑
														
 
															+
														
 
															+3. **`citu_app.py`**
														
 
															+   - 更新 `/api/v0/data_pipeline/tasks` POST 接口
														
 
															+   - 移除 `db_connection` 参数验证
														
 
															+   - 添加可选的 `db_name` 参数支持
														
 
															+
														
 
															+4. **文档更新**
														
 
															+   - `docs/data_pipeline_api_usage_guide.md`
														
 
															+   - `docs/data_pipeline_api_design.md`
														
 
															+   - 更新API调用示例和参数说明
														
 
															+
														
 
															+## 数据库架构
														
 
															+
														
 
															+### 双数据库设计
														
 
															+
														
 
															+```
														
 
															+┌─────────────────────┐       ┌─────────────────────┐
														
 
															+│   业务数据库        │       │   向量数据库        │
														
 
															+│  (APP_DB_CONFIG)    │       │  (PGVECTOR_CONFIG)  │
														
 
															+├─────────────────────┤       ├─────────────────────┤
														
 
															+│ • 业务表数据        │       │ • 任务管理表        │
														
 
															+│ • Schema信息        │  ───→ │ • 执行记录表        │
														
 
															+│ • 训练数据源        │       │ • 日志表            │
														
 
															+│                     │       │ • 文件输出表        │
														
 
															+└─────────────────────┘       └─────────────────────┘
														
 
															+      ↑                              ↑
														
 
															+      │                              │
														
 
															+ schema_workflow              SimpleTaskManager
														
 
															+  数据处理执行                    任务状态管理
														
 
															+```
														
 
															+
														
 
															+## 向前兼容性
														
 
															+
														
 
															+### API兼容性
														
 
															+- **破坏性变更**: 是的，移除了 `db_connection` 必填参数
														
 
															+- **迁移方案**: 
														
 
															+  1. 更新API调用代码，移除 `db_connection` 参数
														
 
															+  2. 确保 `app_config.py` 中正确配置了 `APP_DB_CONFIG`
														
 
															+  3. 可选择性添加 `db_name` 参数指定特定数据库
														
 
															+
														
 
															+### 数据库兼容性
														
 
															+- **表结构**: 无变更，继续使用现有的4个管理表
														
 
															+- **存储位置**: 确保表创建在向量数据库中
														
 
															+- **初始化**: 使用 `data_pipeline/sql/init_tables.sql` 在向量数据库中创建
														
 
															+
														
 
															+## 配置示例
														
 
															+
														
 
															+### app_config.py 示例配置
														
 
															+
														
 
															+```python
														
 
															+# 业务数据库配置（用于数据处理）
														
 
															+APP_DB_CONFIG = {
														
 
															+    'host': '192.168.67.1',
														
 
															+    'port': 6432,
														
 
															+    'dbname': 'highway_db',
														
 
															+    'user': 'postgres',
														
 
															+    'password': 'password'
														
 
															+}
														
 
															+
														
 
															+# 向量数据库配置（用于任务管理）
														
 
															+PGVECTOR_CONFIG = {
														
 
															+    'host': '192.168.67.1',
														
 
															+    'port': 5432,
														
 
															+    'dbname': 'highway_pgvector_db',
														
 
															+    'user': 'postgres',
														
 
															+    'password': 'password'
														
 
															+}
														
 
															+```
														
 
															+
														
 
															+## 测试方法
														
 
															+
														
 
															+### 1. 使用新API格式
														
 
															+```bash
														
 
															+curl -X POST http://localhost:8084/api/v0/data_pipeline/tasks \
														
 
															+  -H "Content-Type: application/json" \
														
 
															+  -d '{
														
 
															+    "table_list_file": "data_pipeline/tables.txt",
														
 
															+    "business_context": "高速公路服务区管理系统",
														
 
															+    "db_name": "highway_db"
														
 
															+  }'
														
 
															+```
														
 
															+
														
 
															+### 2. 运行测试脚本
														
 
															+```bash
														
 
															+python test_api_changes.py
														
 
															+```
														
 
															+
														
 
															+## 注意事项
														
 
															+
														
 
															+1. **配置检查**: 确保 `app_config.py` 中的数据库配置正确
														
 
															+2. **权限验证**: 确保应用有权限访问两个数据库
														
 
															+3. **表初始化**: 在向量数据库中执行 `init_tables.sql`
														
 
															+4. **监控日志**: 关注任务创建和执行过程中的日志信息
														
 
															+
														
 
															+## 常见问题
														
 
															+
														
 
															+### Q: 为什么要移除 db_connection 参数？
														
 
															+A: 
														
 
															+- 简化API调用，避免敏感信息在请求中传递
														
 
															+- 统一配置管理，便于维护
														
 
															+- 与现有系统架构保持一致
														
 
															+
														
 
															+### Q: 如何指定不同的业务数据库？
														
 
															+A: 
														
 
															+- 使用可选的 `db_name` 参数
														
 
															+- 或在 `app_config.py` 中修改 `APP_DB_CONFIG`
														
 
															+
														
 
															+### Q: 旧的API调用会怎样？
														
 
															+A: 
														
 
															+- 包含 `db_connection` 的请求会被忽略此参数
														
 
															+- 必须提供 `table_list_file` 和 `business_context`
														
 
															+- 建议更新到新的API格式
														
 
															+
														
 
															+### Q: 任务管理表为什么放在向量数据库中？
														
 
															+A: 
														
 
															+- 向量数据库用于存储系统元数据
														
 
															+- 避免污染业务数据库
														
 
															+- 便于系统数据的统一管理
														
 
															+
														
 
															+## 总结
														
 
															+
														
 
															+这次变更使Data Pipeline API更加简洁和易用，同时保持了系统的功能完整性。通过将配置管理集中到 `app_config.py`，提高了系统的可维护性和安全性。
														
--- a/docs/data_pipeline_api_design.md
+++ b/docs/data_pipeline_api_design.md
@@ -0,0 +1,1204 @@
 
															+# Data Pipeline API 概要设计
														
 
															+
														
 
															+## 项目背景
														
 
															+
														
 
															+为了让Web UI能够调用Data Pipeline生成训练数据的功能，并实现任务的后台执行、进度追踪和日志查看，我们需要设计一套API系统来支持这些需求。
														
 
															+
														
 
															+## 设计目标
														
 
															+
														
 
															+1. **后台执行**：支持长时间运行的训练数据生成任务，不阻塞HTTP请求
														
 
															+2. **进度追踪**：提供实时的任务执行进度和状态查询
														
 
															+3. **日志管理**：集中管理任务日志，支持详细日志查看
														
 
															+4. **文件管理**：统一管理生成的训练数据文件
														
 
															+5. **并发控制**：确保同时只有一个任务在执行
														
 
															+6. **持久化**：任务状态持久化存储，支持服务重启后的状态恢复
														
 
															+
														
 
															+## 核心设计原则
														
 
															+
														
 
															+### 1. 任务与API解耦
														
 
															+- **API服务器**：仅负责任务调度和状态查询
														
 
															+- **独立脚本**：实际执行数据处理工作，完全独立运行
														
 
															+- **数据库桥梁**：作为两者之间的通信媒介
														
 
															+
														
 
															+### 2. 任务ID即时间戳约定
														
 
															+- **任务ID生成规则**：`task_YYYYMMDD_HHMMSS` 格式
														
 
															+  - 示例：`task_20250627_143052` 表示 2025年6月27日 14:30:52 创建的任务
														
 
															+  - 使用本地时间，确保在同一秒内不会创建多个任务
														
 
															+  - 任务ID同时作为：
														
 
															+    - 数据库主键
														
 
															+    - 文件系统目录名
														
 
															+    - API查询参数
														
 
															+- **优势**：
														
 
															+  - 自然排序，方便查找最新任务
														
 
															+  - 无需额外的ID生成器
														
 
															+  - 时间信息直观可见
														
 
															+
														
 
															+### 3. 时间戳目录管理
														
 
															+每个任务在`./data_pipeline/training_data/`下创建独立的时间戳目录：
														
 
															+```
														
 
															+./data_pipeline/training_data/
														
 
															+├── task_20250627_143052/                   # 时间戳作为任务ID
														
 
															+│   ├── data_pipeline.log                   # 所有data_pipeline模块的统一日志
														
 
															+│   ├── task_config.json                    # 任务配置参数
														
 
															+│   ├── task_result.json                    # 最终执行结果
														
 
															+│   ├── bss_*.ddl                          # 生成的DDL文件
														
 
															+│   ├── bss_*_detail.md                    # 生成的MD文档
														
 
															+│   ├── qs_*.json                          # Question-SQL对
														
 
															+│   ├── metadata.txt                        # 元数据文件
														
 
															+│   ├── sql_validation_*_summary.log       # SQL验证摘要报告
														
 
															+│   ├── sql_validation_*_report.json       # SQL验证详细报告（可选）
														
 
															+│   └── file_modifications_*.log           # 文件修改日志（如果启用修改功能）
														
 
															+└── task_20250627_150123/
														
 
															+    └── ...
														
 
															+```
														
 
															+
														
 
															+**目录创建细节**：
														
 
															+- **创建时机**：在API返回之前创建，确保任务开始执行时目录已存在
														
 
															+- **创建位置**：相对于项目根目录的`./data_pipeline/training_data/`
														
 
															+- **权限设置**：确保当前用户和子进程都有读写权限（755）
														
 
															+- **失败处理**：如果目录创建失败，取消任务创建，返回错误信息
														
 
															+- **文件组织**：
														
 
															+  - 所有SchemaWorkflowOrchestrator的输出都重定向到此目录
														
 
															+  - 日志文件使用独立的FileHandler写入此目录
														
 
															+  - 配置文件在任务创建时立即写入
														
 
															+
														
 
															+### 4. 粗粒度进度追踪
														
 
															+采用步骤级进度追踪，不追踪表级别的细节：
														
 
															+- DDL/MD生成：0% → 40%
														
 
															+- Question-SQL生成：40% → 70%
														
 
															+- SQL验证：70% → 90%
														
 
															+- 训练数据加载：90% → 100%
														
 
															+
														
 
															+## 数据库设计
														
 
															+
														
 
															+### 任务表 (data_pipeline_tasks)
														
 
															+```sql
														
 
															+CREATE TABLE data_pipeline_tasks (
														
 
															+    id VARCHAR(32) PRIMARY KEY,                    -- 任务ID (时间戳格式)
														
 
															+    task_type VARCHAR(50) NOT NULL,                -- 任务类型
														
 
															+    status VARCHAR(20) NOT NULL,                   -- 任务状态: pending/in_progress/partial_completed/completed/failed
														
 
															+    parameters JSONB NOT NULL,                     -- 任务参数
														
 
															+    result JSONB,                                  -- 任务结果
														
 
															+    error_message TEXT,                            -- 错误信息
														
 
															+    step_status JSONB DEFAULT '{                   -- 各步骤状态跟踪
														
 
															+        "ddl_generation": "pending",
														
 
															+        "qa_generation": "pending", 
														
 
															+        "sql_validation": "pending",
														
 
															+        "training_load": "pending"
														
 
															+    }',
														
 
															+    output_directory TEXT,                         -- 任务输出目录
														
 
															+    created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
														
 
															+    started_at TIMESTAMP,
														
 
															+    completed_at TIMESTAMP,
														
 
															+    created_by VARCHAR(50),
														
 
															+    db_name VARCHAR(100),                          -- 数据库名称
														
 
															+    business_context TEXT                          -- 业务上下文
														
 
															+);
														
 
															+```
														
 
															+
														
 
															+### 任务执行记录表 (data_pipeline_task_executions)
														
 
															+```sql
														
 
															+CREATE TABLE data_pipeline_task_executions (
														
 
															+    id SERIAL PRIMARY KEY,
														
 
															+    task_id VARCHAR(32) REFERENCES data_pipeline_tasks(id) ON DELETE CASCADE,
														
 
															+    execution_step VARCHAR(50) NOT NULL,          -- 'ddl_generation', 'qa_generation', 'sql_validation', 'training_load'
														
 
															+    status VARCHAR(20) NOT NULL,                  -- 'running', 'completed', 'failed'
														
 
															+    started_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
														
 
															+    completed_at TIMESTAMP,
														
 
															+    error_message TEXT,
														
 
															+    execution_result JSONB,                       -- 步骤执行结果
														
 
															+    execution_id VARCHAR(100) UNIQUE,             -- {task_id}_step_{step_name}_exec_{timestamp}
														
 
															+    force_executed BOOLEAN DEFAULT FALSE,         -- 是否强制执行
														
 
															+    files_cleaned BOOLEAN DEFAULT FALSE           -- 是否清理了旧文件
														
 
															+);
														
 
															+```
														
 
															+
														
 
															+### 任务日志表 (data_pipeline_task_logs)
														
 
															+```sql
														
 
															+CREATE TABLE data_pipeline_task_logs (
														
 
															+    id SERIAL PRIMARY KEY,
														
 
															+    task_id VARCHAR(32) REFERENCES data_pipeline_tasks(id) ON DELETE CASCADE,
														
 
															+    execution_id VARCHAR(100) REFERENCES data_pipeline_task_executions(execution_id),
														
 
															+    log_level VARCHAR(10) NOT NULL,               -- 'DEBUG', 'INFO', 'WARNING', 'ERROR', 'CRITICAL'
														
 
															+    message TEXT NOT NULL,
														
 
															+    step_name VARCHAR(50),                        -- 执行步骤名称
														
 
															+    module_name VARCHAR(100),                     -- 模块名称
														
 
															+    function_name VARCHAR(100),                   -- 函数名称
														
 
															+    timestamp TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
														
 
															+    extra_data JSONB DEFAULT '{}'                 -- 额外的结构化信息
														
 
															+);
														
 
															+```
														
 
															+
														
 
															+### 任务文件输出表 (data_pipeline_task_outputs)
														
 
															+```sql
														
 
															+CREATE TABLE data_pipeline_task_outputs (
														
 
															+    id SERIAL PRIMARY KEY,
														
 
															+    task_id VARCHAR(32) REFERENCES data_pipeline_tasks(id) ON DELETE CASCADE,
														
 
															+    execution_id VARCHAR(100) REFERENCES data_pipeline_task_executions(execution_id),
														
 
															+    file_type VARCHAR(50) NOT NULL,               -- 'ddl', 'md', 'json', 'log', 'report'
														
 
															+    file_name VARCHAR(255) NOT NULL,              -- 文件名
														
 
															+    file_path TEXT NOT NULL,                      -- 相对路径
														
 
															+    file_size BIGINT DEFAULT 0,                   -- 文件大小（字节）
														
 
															+    content_hash VARCHAR(64),                     -- 文件内容hash
														
 
															+    description TEXT,                             -- 文件描述
														
 
															+    created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
														
 
															+    modified_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
														
 
															+    is_primary BOOLEAN DEFAULT FALSE,             -- 是否为主要输出文件
														
 
															+    is_downloadable BOOLEAN DEFAULT TRUE          -- 是否可下载
														
 
															+);
														
 
															+```
														
 
															+
														
 
															+### 索引设计
														
 
															+```sql
														
 
															+-- 任务表索引
														
 
															+CREATE INDEX idx_tasks_status ON data_pipeline_tasks(status);
														
 
															+CREATE INDEX idx_tasks_created_at ON data_pipeline_tasks(created_at DESC);
														
 
															+CREATE INDEX idx_tasks_db_name ON data_pipeline_tasks(db_name);
														
 
															+CREATE INDEX idx_tasks_created_by ON data_pipeline_tasks(created_by);
														
 
															+
														
 
															+-- 执行记录表索引
														
 
															+CREATE INDEX idx_executions_task_id ON data_pipeline_task_executions(task_id);
														
 
															+CREATE INDEX idx_executions_step ON data_pipeline_task_executions(execution_step);
														
 
															+CREATE INDEX idx_executions_status ON data_pipeline_task_executions(status);
														
 
															+CREATE INDEX idx_executions_started_at ON data_pipeline_task_executions(started_at DESC);
														
 
															+
														
 
															+-- 日志表索引
														
 
															+CREATE INDEX idx_logs_task_id ON data_pipeline_task_logs(task_id);
														
 
															+CREATE INDEX idx_logs_execution_id ON data_pipeline_task_logs(execution_id);
														
 
															+CREATE INDEX idx_logs_timestamp ON data_pipeline_task_logs(timestamp DESC);
														
 
															+CREATE INDEX idx_logs_level ON data_pipeline_task_logs(log_level);
														
 
															+CREATE INDEX idx_logs_step ON data_pipeline_task_logs(step_name);
														
 
															+
														
 
															+-- 文件输出表索引
														
 
															+CREATE INDEX idx_outputs_task_id ON data_pipeline_task_outputs(task_id);
														
 
															+CREATE INDEX idx_outputs_execution_id ON data_pipeline_task_outputs(execution_id);
														
 
															+CREATE INDEX idx_outputs_file_type ON data_pipeline_task_outputs(file_type);
														
 
															+CREATE INDEX idx_outputs_primary ON data_pipeline_task_outputs(is_primary) WHERE is_primary = TRUE;
														
 
															+```
														
 
															+
														
 
															+## API设计
														
 
															+
														
 
															+**实现位置**：所有API端点都在`citu_app.py`中实现，作为现有Flask应用的扩展。
														
 
															+
														
 
															+### 1. 创建任务（不执行）
														
 
															+```
														
 
															+POST /api/v0/data_pipeline/tasks
														
 
															+```
														
 
															+
														
 
															+**请求参数**：
														
 
															+```json
														
 
															+{
														
 
															+  "task_type": "data_workflow",
														
 
															+  "table_list_file": "tables.txt",
														
 
															+  "business_context": "高速公路服务区管理系统",
														
 
															+  "db_name": "highway_db",
														
 
															+  "enable_sql_validation": true,
														
 
															+  "enable_llm_repair": true,
														
 
															+  "modify_original_file": true,
														
 
															+  "enable_training_data_load": true
														
 
															+}
														
 
															+```
														
 
															+
														
 
															+**注意：** 数据库连接信息自动从 `app_config.py` 获取：
														
 
															+- 业务数据库连接：使用 `APP_DB_CONFIG`
														
 
															+- 任务管理表存储：使用 `PGVECTOR_CONFIG`（向量数据库）
														
 
															+
														
 
															+**响应**：
														
 
															+```json
														
 
															+{
														
 
															+  "success": true,
														
 
															+  "message": "任务创建成功",
														
 
															+  "data": {
														
 
															+    "task_id": "task_20250627_143052",
														
 
															+    "status": "pending",
														
 
															+    "output_directory": "./data_pipeline/training_data/task_20250627_143052",
														
 
															+    "step_status": {
														
 
															+      "ddl_generation": "pending",
														
 
															+      "qa_generation": "pending", 
														
 
															+      "sql_validation": "pending",
														
 
															+      "training_load": "pending"
														
 
															+    },
														
 
															+    "created_at": "2025-06-27T14:30:52"
														
 
															+  }
														
 
															+}
														
 
															+```
														
 
															+
														
 
															+### 1.1. 执行任务步骤
														
 
															+```
														
 
															+POST /api/v0/data_pipeline/tasks/{task_id}/execute
														
 
															+```
														
 
															+
														
 
															+**请求参数**：
														
 
															+```json
														
 
															+{
														
 
															+  "step": "ddl_generation",
														
 
															+  "force_execute": false,
														
 
															+  "clean_previous": true
														
 
															+}
														
 
															+```
														
 
															+
														
 
															+**响应**：
														
 
															+```json
														
 
															+{
														
 
															+  "success": true,
														
 
															+  "message": "步骤执行已启动",
														
 
															+  "data": {
														
 
															+    "execution_id": "task_20250627_143052_step_ddl_generation_exec_20250627143055",
														
 
															+    "task_id": "task_20250627_143052",
														
 
															+    "step": "ddl_generation",
														
 
															+    "status": "running",
														
 
															+    "started_at": "2025-06-27T14:30:55"
														
 
															+  }
														
 
															+}
														
 
															+```
														
 
															+
														
 
															+### 1.2. 创建任务并立即执行完整工作流
														
 
															+```
														
 
															+POST /api/v0/data_pipeline/tasks/execute-complete
														
 
															+```
														
 
															+
														
 
															+**请求参数**：
														
 
															+```json
														
 
															+{
														
 
															+  "task_type": "complete_workflow",
														
 
															+  "table_list_file": "tables.txt",
														
 
															+  "business_context": "高速公路服务区管理系统",
														
 
															+  "db_name": "highway_db"
														
 
															+}
														
 
															+```
														
 
															+
														
 
															+**响应**：
														
 
															+```json
														
 
															+{
														
 
															+  "success": true,
														
 
															+  "message": "完整工作流执行已启动",
														
 
															+  "data": {
														
 
															+    "task_id": "task_20250627_143052",
														
 
															+    "execution_id": "task_20250627_143052_step_complete_exec_20250627143055",
														
 
															+    "status": "running",
														
 
															+    "started_at": "2025-06-27T14:30:55"
														
 
															+  }
														
 
															+}
														
 
															+```
														
 
															+
														
 
															+### 2. 获取任务列表
														
 
															+```
														
 
															+GET /api/v0/data_pipeline/tasks
														
 
															+```
														
 
															+
														
 
															+**响应**：
														
 
															+```json
														
 
															+{
														
 
															+  "success": true,
														
 
															+  "data": {
														
 
															+    "tasks": [
														
 
															+      {
														
 
															+        "task_id": "task_20250627_143052",
														
 
															+        "task_type": "complete_workflow",
														
 
															+        "status": "running",
														
 
															+        "progress": 45,
														
 
															+        "created_at": "2025-06-27T14:30:52"
														
 
															+      }
														
 
															+    ]
														
 
															+  }
														
 
															+}
														
 
															+```
														
 
															+
														
 
															+### 3. 获取任务详情
														
 
															+```
														
 
															+GET /api/v0/data_pipeline/tasks/{task_id}
														
 
															+```
														
 
															+
														
 
															+**响应**：
														
 
															+```json
														
 
															+{
														
 
															+  "success": true,
														
 
															+  "data": {
														
 
															+    "task_id": "task_20250627_143052",
														
 
															+    "task_type": "data_workflow",
														
 
															+    "status": "in_progress",
														
 
															+    "parameters": { ... },
														
 
															+    "step_status": {
														
 
															+      "ddl_generation": "completed",
														
 
															+      "qa_generation": "running", 
														
 
															+      "sql_validation": "pending",
														
 
															+      "training_load": "pending"
														
 
															+    },
														
 
															+    "output_directory": "./data_pipeline/training_data/task_20250627_143052",
														
 
															+    "created_at": "2025-06-27T14:30:52",
														
 
															+    "started_at": "2025-06-27T14:30:53",
														
 
															+    "completed_at": null,
														
 
															+    "current_execution": {
														
 
															+      "execution_id": "task_20250627_143052_step_qa_generation_exec_20250627143521",
														
 
															+      "step": "qa_generation",
														
 
															+      "status": "running",
														
 
															+      "started_at": "2025-06-27T14:35:21"
														
 
															+    }
														
 
															+  }
														
 
															+}
														
 
															+```
														
 
															+
														
 
															+### 3.1. 获取任务执行历史
														
 
															+```
														
 
															+GET /api/v0/data_pipeline/tasks/{task_id}/executions
														
 
															+```
														
 
															+
														
 
															+**响应**：
														
 
															+```json
														
 
															+{
														
 
															+  "success": true,
														
 
															+  "data": {
														
 
															+    "executions": [
														
 
															+      {
														
 
															+        "execution_id": "task_20250627_143052_step_ddl_generation_exec_20250627143053",
														
 
															+        "step": "ddl_generation",
														
 
															+        "status": "completed",
														
 
															+        "started_at": "2025-06-27T14:30:53",
														
 
															+        "completed_at": "2025-06-27T14:35:20",
														
 
															+        "duration": 267,
														
 
															+        "force_executed": false,
														
 
															+        "files_cleaned": true
														
 
															+      },
														
 
															+      {
														
 
															+        "execution_id": "task_20250627_143052_step_qa_generation_exec_20250627143521",
														
 
															+        "step": "qa_generation",
														
 
															+        "status": "running",
														
 
															+        "started_at": "2025-06-27T14:35:21",
														
 
															+        "completed_at": null,
														
 
															+        "force_executed": false,
														
 
															+        "files_cleaned": false
														
 
															+      }
														
 
															+    ]
														
 
															+  }
														
 
															+}
														
 
															+```
														
 
															+
														
 
															+### 4. 获取当前活跃任务
														
 
															+```
														
 
															+GET /api/v0/data_pipeline/tasks/active
														
 
															+```
														
 
															+
														
 
															+**响应**：返回最近的运行中任务，如无则返回最近完成的任务
														
 
															+
														
 
															+### 5. 获取任务日志
														
 
															+```
														
 
															+GET /api/v0/data_pipeline/tasks/{task_id}/logs?limit=100&level=INFO
														
 
															+```
														
 
															+
														
 
															+**响应**：
														
 
															+```json
														
 
															+{
														
 
															+  "success": true,
														
 
															+  "data": {
														
 
															+    "logs": [
														
 
															+      {
														
 
															+        "timestamp": "2025-06-27T14:30:53",
														
 
															+        "level": "INFO",
														
 
															+        "step_name": "ddl_md_generation",
														
 
															+        "message": "开始处理表: bss_business_day_data"
														
 
															+      }
														
 
															+    ]
														
 
															+  }
														
 
															+}
														
 
															+```
														
 
															+
														
 
															+### 6. 获取任务输出文件
														
 
															+```
														
 
															+GET /api/v0/data_pipeline/tasks/{task_id}/files
														
 
															+```
														
 
															+
														
 
															+**响应**：
														
 
															+```json
														
 
															+{
														
 
															+  "success": true,
														
 
															+  "data": {
														
 
															+    "files": [
														
 
															+      {
														
 
															+        "file_name": "qs_highway_db_20250627_143052_pair.json",
														
 
															+        "file_type": "json",
														
 
															+        "file_size": 102400,
														
 
															+        "download_url": "/api/v0/data_pipeline/tasks/task_20250627_143052/files/download/qs_highway_db_20250627_143052_pair.json"
														
 
															+      }
														
 
															+    ]
														
 
															+  }
														
 
															+}
														
 
															+```
														
 
															+
														
 
															+### 7. 下载文件
														
 
															+```
														
 
															+GET /api/v0/data_pipeline/tasks/{task_id}/files/download/{filename}
														
 
															+```
														
 
															+
														
 
															+## 任务与执行模型设计
														
 
															+
														
 
															+### 1. 核心概念
														
 
															+
														
 
															+**任务（Task）**：一个完整的数据处理工作单元，包含4个步骤，有唯一的任务ID和输出目录
														
 
															+**执行（Execution）**：在某个任务中执行特定步骤的一次操作，支持重复执行和分步执行
														
 
															+
														
 
															+### 2. 步骤定义
														
 
															+
														
 
															+**步骤标识使用描述性名称**：
														
 
															+- **ddl_generation**：DDL生成 - 生成DDL文件和MD文档
														
 
															+- **qa_generation**：Q&A生成 - 生成Question-SQL对
														
 
															+- **sql_validation**：SQL验证 - 验证和修正SQL语句  
														
 
															+- **training_load**：训练数据加载 - 加载训练数据到Vanna
														
 
															+
														
 
															+### 3. 支持的执行模式
														
 
															+
														
 
															+**完整工作流模式**：
														
 
															+- 一次性执行所有4个步骤：ddl_generation → qa_generation → sql_validation → training_load
														
 
															+- 传统的端到端执行方式
														
 
															+
														
 
															+**分步执行模式**：
														
 
															+- 在同一个任务中分多次执行不同步骤
														
 
															+- 支持检查每个步骤的结果后再决定是否执行下一步
														
 
															+- 支持重复执行同一步骤（比如步骤失败后重新执行）
														
 
															+- 所有步骤的日志和输出文件都在同一个任务目录中
														
 
															+
														
 
															+### 4. 步骤依赖关系
														
 
															+
														
 
															+- **ddl_generation**：无依赖，可直接执行
														
 
															+- **qa_generation**：依赖 ddl_generation 成功完成
														
 
															+- **sql_validation**：依赖 qa_generation 成功完成
														
 
															+- **training_load**：依赖 sql_validation 成功完成
														
 
															+
														
 
															+### 5. 文件管理策略
														
 
															+
														
 
															+**同一任务目录原则**：
														
 
															+- 所有步骤的输出都在 `./data_pipeline/training_data/{task_id}/` 目录
														
 
															+- 重复执行步骤时清理该步骤的旧输出文件
														
 
															+- 保持其他步骤的文件不受影响
														
 
															+
														
 
															+**步骤文件映射**：
														
 
															+- ddl_generation: `*.ddl`, `*_detail.md`, `metadata.txt`
														
 
															+- qa_generation: `qs_*.json`, `qs_*.json.backup`
														
 
															+- sql_validation: `sql_validation_*_summary.log`, `sql_validation_*_report.json`
														
 
															+- training_load: `training_load_*.log`
														
 
															+
														
 
															+### 6. 并发控制
														
 
															+
														
 
															+**单任务内串行执行**：
														
 
															+- 同一任务内不允许并发执行多个步骤
														
 
															+- 全局可以有多个不同任务并发执行
														
 
															+- 执行前检查是否有正在运行的步骤
														
 
															+
														
 
															+## 执行流程设计
														
 
															+
														
 
															+### 1. 任务创建流程
														
 
															+```
														
 
															+1. 前端发送POST请求创建任务
														
 
															+2. API生成task_id (格式: task_YYYYMMDD_HHMMSS)
														
 
															+3. 在数据库中创建任务记录，状态为'pending'
														
 
															+4. 创建对应的时间戳目录
														
 
															+5. 初始化步骤状态为全部'pending'
														
 
															+6. 立即返回task_id给前端
														
 
															+7. 任务创建完成，等待步骤执行请求
														
 
															+```
														
 
															+
														
 
															+### 2. 步骤执行流程  
														
 
															+```
														
 
															+1. 前端发送POST请求执行特定步骤
														
 
															+2. 检查任务是否存在
														
 
															+3. 检查步骤依赖关系（除非force_execute=true）
														
 
															+4. 检查是否有正在运行的步骤（并发控制）
														
 
															+5. 生成execution_id
														
 
															+6. 创建执行记录，状态为'running'
														
 
															+7. 如果clean_previous=true，清理该步骤的旧输出文件
														
 
															+8. 启动独立任务执行器进程: subprocess.Popen([
														
 
															+     sys.executable, 
														
 
															+     './data_pipeline/task_executor.py',
														
 
															+     '--task-id', task_id,
														
 
															+     '--execution-mode', execution_mode,  # 'complete' 或 'step'
														
 
															+     '--step-name', step_name if execution_mode == 'step' else None
														
 
															+    ],
														
 
															+    stdout=subprocess.PIPE,
														
 
															+    stderr=subprocess.PIPE,
														
 
															+    text=True,
														
 
															+    cwd=project_root
														
 
															+)
														
 
															+9. 立即返回execution_id给前端
														
 
															+10. API请求结束，task_executor.py脚本继续后台运行
														
 
															+```
														
 
															+
														
 
															+**详细实现步骤**：
														
 
															+
														
 
															+#### 2.1 任务ID生成
														
 
															+```python
														
 
															+from datetime import datetime
														
 
															+task_id = f"task_{datetime.now().strftime('%Y%m%d_%H%M%S')}"
														
 
															+```
														
 
															+
														
 
															+#### 2.2 并发检查
														
 
															+```sql
														
 
															+SELECT COUNT(*) FROM data_pipeline_tasks WHERE status = 'running';
														
 
															+-- 如果结果 > 0，返回错误："已有任务正在执行，请稍后再试"
														
 
															+```
														
 
															+
														
 
															+#### 2.3 任务记录创建
														
 
															+```sql
														
 
															+INSERT INTO data_pipeline_tasks (id, task_type, status, parameters, created_by)
														
 
															+VALUES (?, ?, 'pending', ?::jsonb, ?);
														
 
															+```
														
 
															+
														
 
															+#### 2.4 目录创建
														
 
															+```python
														
 
															+task_dir = os.path.join('./data_pipeline/training_data/', task_id)
														
 
															+os.makedirs(task_dir, mode=0o755, exist_ok=False)  # exist_ok=False 确保目录唯一
														
 
															+```
														
 
															+
														
 
															+#### 2.5 配置文件写入
														
 
															+```python
														
 
															+config_path = os.path.join(task_dir, 'task_config.json')
														
 
															+with open(config_path, 'w', encoding='utf-8') as f:
														
 
															+    json.dump({
														
 
															+        'task_id': task_id,
														
 
															+        'task_type': task_type,
														
 
															+        'parameters': parameters,
														
 
															+        'created_at': datetime.now().isoformat()
														
 
															+    }, f, indent=2, ensure_ascii=False)
														
 
															+```
														
 
															+
														
 
															+#### 2.6 启动后台进程
														
 
															+```python
														
 
															+# 使用subprocess.Popen启动独立任务执行器进程
														
 
															+process = subprocess.Popen(
														
 
															+    [sys.executable, 
														
 
															+     './data_pipeline/task_executor.py',
														
 
															+     '--task-id', task_id,
														
 
															+     '--execution-mode', execution_mode,  # 'complete' 或 'step'
														
 
															+     '--step-name', step_name if execution_mode == 'step' else None
														
 
															+    ],
														
 
															+    stdout=subprocess.PIPE,
														
 
															+    stderr=subprocess.PIPE,
														
 
															+    text=True,
														
 
															+    cwd=project_root  # 项目根目录
														
 
															+)
														
 
															+```
														
 
															+
														
 
															+### 2. 后台执行流程
														
 
															+```
														
 
															+1. task_executor.py启动，接收task_id和执行模式参数
														
 
															+2. 初始化日志系统，创建SimpleWorkflowExecutor实例
														
 
															+3. 确保任务目录存在，设置任务目录日志记录器
														
 
															+4. 更新数据库状态为'running'，started_at时间戳
														
 
															+5. 创建SchemaWorkflowOrchestrator并重定向其日志到任务目录
														
 
															+6. 执行工作流（完整或单步），记录详细日志到data_pipeline.log
														
 
															+7. 生成的文件都保存在对应的时间戳目录
														
 
															+8. 完成后更新数据库状态为'completed'或'failed'
														
 
															+9. 清理资源，脚本退出
														
 
															+```
														
 
															+
														
 
															+**任务执行架构** (基于独立的task_executor.py):
														
 
															+
														
 
															+#### 2.1 任务执行器参数
														
 
															+```python
														
 
															+# data_pipeline/task_executor.py 命令行参数
														
 
															+parser.add_argument('--task-id', required=True, help='任务ID')
														
 
															+parser.add_argument('--execution-mode', default='complete', 
														
 
															+                   choices=['complete', 'step'], help='执行模式')
														
 
															+parser.add_argument('--step-name', help='步骤名称（当execution-mode=step时必需）')
														
 
															+```
														
 
															+
														
 
															+#### 2.2 任务执行主函数
														
 
															+```python
														
 
															+async def execute_task(task_id: str, execution_mode: str, step_name: str = None):
														
 
															+    """执行任务的异步函数"""
														
 
															+    executor = None
														
 
															+    try:
														
 
															+        # 创建SimpleWorkflowExecutor实例
														
 
															+        executor = SimpleWorkflowExecutor(task_id)
														
 
															+        
														
 
															+        if execution_mode == "complete":
														
 
															+            # 执行完整工作流
														
 
															+            return await executor.execute_complete_workflow()
														
 
															+        elif execution_mode == "step":
														
 
															+            # 执行单个步骤
														
 
															+            return await executor.execute_single_step(step_name)
														
 
															+        else:
														
 
															+            raise ValueError(f"不支持的执行模式: {execution_mode}")
														
 
															+            
														
 
															+    finally:
														
 
															+        if executor:
														
 
															+            executor.cleanup()
														
 
															+```
														
 
															+
														
 
															+#### 2.3 SimpleWorkflowExecutor核心功能
														
 
															+```python
														
 
															+class SimpleWorkflowExecutor:
														
 
															+    def __init__(self, task_id: str):
														
 
															+        self.task_id = task_id
														
 
															+        self.task_manager = SimpleTaskManager()  # 数据库管理
														
 
															+        self.file_manager = SimpleFileManager()  # 文件管理
														
 
															+        self.task_dir_logger = None              # 任务目录日志记录器
														
 
															+        self._load_task_info()                   # 加载任务信息
														
 
															+    
														
 
															+    def _setup_task_directory_logger(self):
														
 
															+        """设置任务目录日志记录器"""
														
 
															+        task_dir = self.file_manager.get_task_directory(self.task_id)
														
 
															+        log_file = task_dir / "data_pipeline.log"
														
 
															+        
														
 
															+        # 创建专门的任务目录日志记录器
														
 
															+        self.task_dir_logger = logging.getLogger(f"TaskDir_{self.task_id}")
														
 
															+        self.task_dir_logger.setLevel(logging.DEBUG)
														
 
															+        self.task_dir_logger.handlers.clear()
														
 
															+        self.task_dir_logger.propagate = False
														
 
															+        
														
 
															+        # 创建文件处理器
														
 
															+        file_handler = logging.FileHandler(log_file, encoding='utf-8')
														
 
															+        formatter = logging.Formatter(
														
 
															+            '%(asctime)s [%(levelname)s] %(name)s: %(message)s',
														
 
															+            datefmt='%Y-%m-%d %H:%M:%S'
														
 
															+        )
														
 
															+        file_handler.setFormatter(formatter)
														
 
															+        self.task_dir_logger.addHandler(file_handler)
														
 
															+    
														
 
															+    def _redirect_orchestrator_logs(self, orchestrator):
														
 
															+        """重定向SchemaWorkflowOrchestrator的日志到任务目录"""
														
 
															+        if self.task_dir_logger and hasattr(orchestrator, 'logger'):
														
 
															+            for handler in self.task_dir_logger.handlers:
														
 
															+                if isinstance(handler, logging.FileHandler):
														
 
															+                    orchestrator.logger.addHandler(handler)
														
 
															+                    break
														
 
															+```
														
 
															+
														
 
															+#### 2.4 双日志系统设计
														
 
															+
														
 
															+##### 日志文件位置
														
 
															+- **任务目录日志**：`./data_pipeline/training_data/{task_id}/data_pipeline.log` - 详细执行日志
														
 
															+- **数据库日志**：存储在 `data_pipeline_task_logs` 表 - 结构化查询和展示
														
 
															+- **系统日志**：`./logs/` 目录保留系统级日志（app.log、agent.log、vanna.log）
														
 
															+
														
 
															+##### 日志记录机制
														
 
															+1. **任务目录日志记录器**：
														
 
															+   - 每个任务创建独立的 `TaskDir_{task_id}` 日志记录器
														
 
															+   - 直接写入任务目录的 `data_pipeline.log` 文件
														
 
															+   - 捕获所有详细的执行过程信息
														
 
															+
														
 
															+2. **数据库日志记录器**：
														
 
															+   - 通过 `SimpleTaskManager.record_log()` 记录关键事件
														
 
															+   - 支持按级别、步骤、时间等条件查询
														
 
															+   - 用于API返回和Web UI展示
														
 
															+
														
 
															+3. **SchemaWorkflowOrchestrator日志重定向**：
														
 
															+   - 将orchestrator的日志同时输出到任务目录文件
														
 
															+   - 确保所有子模块的日志都集中记录
														
 
															+   - 保持现有日志系统不变的同时增强功能
														
 
															+
														
 
															+##### 日志内容示例
														
 
															+```
														
 
															+# 任务目录日志文件内容示例
														
 
															+2025-07-01 14:30:52 [INFO] TaskDir_task_20250701_143052: 任务目录日志初始化完成 - 任务ID: task_20250701_143052
														
 
															+2025-07-01 14:30:52 [INFO] TaskDir_task_20250701_143052: 任务参数: {"db_connection": "...", "business_context": "..."}
														
 
															+2025-07-01 14:30:53 [INFO] TaskDir_task_20250701_143052: [complete] 开始执行步骤: complete
														
 
															+2025-07-01 14:30:53 [INFO] DataPipelineOrchestrator: 开始执行完整工作流
														
 
															+2025-07-01 14:30:54 [INFO] DDLMDGenerator: 开始处理表: bss_business_day_data
														
 
															+```
														
 
															+
														
 
															+#### 2.5 执行示例
														
 
															+
														
 
															+```bash
														
 
															+# 1. API调用（完整工作流）
														
 
															+python data_pipeline/task_executor.py \
														
 
															+    --task-id "task_20250627_143052" \
														
 
															+    --execution-mode complete
														
 
															+
														
 
															+# 2. API调用（单步执行DDL生成）
														
 
															+python data_pipeline/task_executor.py \
														
 
															+    --task-id "task_20250627_143052" \
														
 
															+    --execution-mode step \
														
 
															+    --step-name ddl_generation
														
 
															+
														
 
															+# 3. API调用（单步执行Q&A生成）
														
 
															+python data_pipeline/task_executor.py \
														
 
															+    --task-id "task_20250627_143052" \
														
 
															+    --execution-mode step \
														
 
															+    --step-name qa_generation
														
 
															+
														
 
															+# 4. API调用（单步执行SQL验证）
														
 
															+python data_pipeline/task_executor.py \
														
 
															+    --task-id "task_20250627_143052" \
														
 
															+    --execution-mode step \
														
 
															+    --step-name sql_validation
														
 
															+
														
 
															+# 5. API调用（单步执行训练数据加载）
														
 
															+python data_pipeline/task_executor.py \
														
 
															+    --task-id "task_20250627_143052" \
														
 
															+    --execution-mode step \
														
 
															+    --step-name training_load
														
 
															+```
														
 
															+
														
 
															+### 3. 分步执行使用流程
														
 
															+
														
 
															+#### 场景1：分步执行，检查每步结果
														
 
															+```bash
														
 
															+# 1. 创建任务
														
 
															+curl -X POST /api/v0/data_pipeline/tasks \
														
 
															+  -d '{"task_type": "data_workflow", "parameters": {...}}'
														
 
															+# 返回: {"task_id": "task_20250627_143052"}
														
 
															+
														
 
															+# 2. 执行DDL生成
														
 
															+curl -X POST /api/v0/data_pipeline/tasks/task_20250627_143052/execute \
														
 
															+  -d '{"step": "ddl_generation"}'
														
 
															+# 等待完成，检查结果
														
 
															+
														
 
															+# 3. 检查DDL生成结果满意后，执行Q&A生成
														
 
															+curl -X POST /api/v0/data_pipeline/tasks/task_20250627_143052/execute \
														
 
															+  -d '{"step": "qa_generation"}'
														
 
															+
														
 
															+# 4. 如果Q&A结果不满意，重新执行
														
 
															+curl -X POST /api/v0/data_pipeline/tasks/task_20250627_143052/execute \
														
 
															+  -d '{"step": "qa_generation", "clean_previous": true}'
														
 
															+
														
 
															+# 5. 继续后续步骤
														
 
															+curl -X POST /api/v0/data_pipeline/tasks/task_20250627_143052/execute \
														
 
															+  -d '{"step": "sql_validation"}'
														
 
															+
														
 
															+curl -X POST /api/v0/data_pipeline/tasks/task_20250627_143052/execute \
														
 
															+  -d '{"step": "training_load"}'
														
 
															+```
														
 
															+
														
 
															+#### 场景2：一次性执行完整工作流
														
 
															+```bash
														
 
															+# 创建任务并立即执行完整工作流
														
 
															+curl -X POST /api/v0/data_pipeline/tasks/execute-complete \
														
 
															+  -d '{"task_type": "complete_workflow", "parameters": {...}}'
														
 
															+```
														
 
															+
														
 
															+### 4. 前端轮询实现
														
 
															+```javascript
														
 
															+// 分步执行时的轮询
														
 
															+async function pollExecutionStatus(taskId, executionId) {
														
 
															+    const pollInterval = setInterval(async () => {
														
 
															+        const response = await fetch(`/api/v0/data_pipeline/tasks/${taskId}/executions`);
														
 
															+        const data = await response.json();
														
 
															+        
														
 
															+        const currentExecution = data.data.executions.find(e => e.execution_id === executionId);
														
 
															+        
														
 
															+        // 更新UI
														
 
															+        updateStepStatus(currentExecution.step, currentExecution.status);
														
 
															+        
														
 
															+        // 检查是否完成
														
 
															+        if (currentExecution.status === 'completed' || currentExecution.status === 'failed') {
														
 
															+            clearInterval(pollInterval);
														
 
															+            handleStepComplete(currentExecution);
														
 
															+        }
														
 
															+    }, 5000);
														
 
															+}
														
 
															+
														
 
															+// 任务整体状态轮询
														
 
															+async function pollTaskStatus(taskId) {
														
 
															+    const pollInterval = setInterval(async () => {
														
 
															+        const response = await fetch(`/api/v0/data_pipeline/tasks/${taskId}`);
														
 
															+        const data = await response.json();
														
 
															+        
														
 
															+        // 更新各步骤状态
														
 
															+        updateAllStepsStatus(data.data.step_status);
														
 
															+        
														
 
															+        // 更新当前执行信息
														
 
															+        if (data.data.current_execution) {
														
 
															+            updateCurrentExecution(data.data.current_execution);
														
 
															+        }
														
 
															+        
														
 
															+        // 检查任务是否全部完成
														
 
															+        if (data.data.status === 'completed' || data.data.status === 'failed') {
														
 
															+            clearInterval(pollInterval);
														
 
															+            handleTaskComplete(data.data);
														
 
															+        }
														
 
															+    }, 5000);
														
 
															+}
														
 
															+```
														
 
															+
														
 
															+## 任务配置文件格式
														
 
															+
														
 
															+### task_config.json 示例
														
 
															+```json
														
 
															+{
														
 
															+  "task_id": "task_20250627_143052",
														
 
															+  "task_type": "complete_workflow",
														
 
															+  "created_at": "2025-06-27T14:30:52",
														
 
															+  "parameters": {
														
 
															+    "db_connection": {
														
 
															+      "host": "localhost",
														
 
															+      "port": 5432,
														
 
															+      "database": "highway_db",
														
 
															+      "user": "postgres",
														
 
															+      "password": "******"
														
 
															+    },
														
 
															+    "table_list": ["bss_business_day_data", "bss_car_day_count", ...],
														
 
															+    "business_context": "高速公路服务区管理系统",
														
 
															+    "output_dir": "./data_pipeline/training_data/task_20250627_143052",
														
 
															+    "execution_mode": "complete",
														
 
															+    "single_step": null,
														
 
															+    "llm_config": {
														
 
															+      "model": "qianwen",
														
 
															+      "temperature": 0.7
														
 
															+    }
														
 
															+  }
														
 
															+}
														
 
															+```
														
 
															+
														
 
															+## 错误处理机制
														
 
															+
														
 
															+### 1. API层错误处理
														
 
															+```python
														
 
															+try:
														
 
															+    task_id = create_task(request_data)
														
 
															+    return {"success": True, "task_id": task_id}
														
 
															+except ConcurrentTaskError:
														
 
															+    return {"success": False, "error": "已有任务正在执行"}, 409
														
 
															+except Exception as e:
														
 
															+    logger.error(f"任务创建失败: {str(e)}")
														
 
															+    return {"success": False, "error": "任务创建失败"}, 500
														
 
															+```
														
 
															+
														
 
															+### 2. 执行流程中的错误处理
														
 
															+```python
														
 
															+try:
														
 
															+    # 执行任务
														
 
															+    report = await orchestrator.execute_complete_workflow()
														
 
															+    if self.db_logger:
														
 
															+        self.db_logger.update_status('completed')
														
 
															+except Exception as e:
														
 
															+    # 记录错误到日志和数据库
														
 
															+    self.logger.error(f"任务执行失败: {str(e)}", exc_info=True)
														
 
															+    if self.db_logger:
														
 
															+        self.db_logger.log('ERROR', str(e))
														
 
															+        self.db_logger.update_status('failed', error_message=str(e))
														
 
															+    raise
														
 
															+```
														
 
															+
														
 
															+### 3. 僵尸任务检测
														
 
															+```python
														
 
															+# 在API启动时检查
														
 
															+def check_zombie_tasks():
														
 
															+    # 查找超过2小时仍在运行的任务
														
 
															+    query = """
														
 
															+    UPDATE data_pipeline_tasks 
														
 
															+    SET status = 'failed', 
														
 
															+        error_message = '任务超时，可能已停止运行'
														
 
															+    WHERE status = 'running' 
														
 
															+    AND started_at < NOW() - INTERVAL '2 hours'
														
 
															+    """
														
 
															+```
														
 
															+
														
 
															+## 并发控制策略
														
 
															+
														
 
															+### 单任务执行原则
														
 
															+- 同时只允许一个任务处于'running'状态
														
 
															+- 新任务提交时检查数据库，如有运行中任务则拒绝
														
 
															+- 前端显示当前运行任务信息，提示用户等待
														
 
															+
														
 
															+### 任务锁实现
														
 
															+```python
														
 
															+# 使用数据库事务确保原子性
														
 
															+def acquire_task_lock(task_id):
														
 
															+    with db.transaction():
														
 
															+        # 检查是否有运行中的任务
														
 
															+        running_count = db.query(
														
 
															+            "SELECT COUNT(*) FROM data_pipeline_tasks WHERE status = 'running'"
														
 
															+        ).scalar()
														
 
															+        
														
 
															+        if running_count > 0:
														
 
															+            raise ConcurrentTaskError("已有任务正在执行")
														
 
															+            
														
 
															+        # 获取锁：更新状态为running
														
 
															+        db.execute(
														
 
															+            "UPDATE data_pipeline_tasks SET status = 'running', started_at = NOW() WHERE id = %s",
														
 
															+            [task_id]
														
 
															+        )
														
 
															+```
														
 
															+
														
 
															+## Web UI模块设计
														
 
															+
														
 
															+### 1. 任务管理页面
														
 
															+- **任务创建表单**：配置任务参数并提交
														
 
															+- **任务列表**：显示历史任务和状态
														
 
															+- **任务筛选**：按状态、时间等筛选任务
														
 
															+
														
 
															+### 2. 任务详情页面
														
 
															+- **实时进度条**：显示当前执行进度
														
 
															+- **步骤状态**：各步骤的执行状态和耗时
														
 
															+- **实时日志**：滚动显示任务日志
														
 
															+- **文件管理**：列出生成的文件并提供下载
														
 
															+
														
 
															+### 3. 日志查看器
														
 
															+- **日志级别筛选**：INFO/WARNING/ERROR
														
 
															+- **关键词搜索**：在日志中搜索特定内容
														
 
															+- **自动滚动**：新日志自动滚动到底部
														
 
															+- **日志导出**：下载完整日志文件
														
 
															+
														
 
															+### 4. 文件管理器
														
 
															+- **文件列表**：显示所有生成的文件
														
 
															+- **批量下载**：打包下载所有文件
														
 
															+- **文件预览**：在线查看文本文件内容
														
 
															+- **文件统计**：显示文件大小和生成时间
														
 
															+
														
 
															+## 技术实现要点
														
 
															+
														
 
															+### 1. 数据库连接管理
														
 
															+- 复用现有的PostgreSQL连接配置
														
 
															+- 在独立脚本中建立独立的数据库连接
														
 
															+- 确保连接池的正确释放
														
 
															+
														
 
															+### 2. 日志系统集成
														
 
															+- 复用现有的core.logging系统
														
 
															+- 在SchemaWorkflowOrchestrator中添加数据库日志写入
														
 
															+- 保持原有的文件日志不变
														
 
															+
														
 
															+### 3. 文件路径管理
														
 
															+- 统一使用绝对路径避免路径混乱
														
 
															+- 确保时间戳目录的正确创建和权限
														
 
															+- 提供文件清理机制避免磁盘空间耗尽
														
 
															+
														
 
															+### 4. 错误处理
														
 
															+- 完善的异常捕获和错误信息记录
														
 
															+- 优雅的错误恢复机制
														
 
															+- 清晰的错误信息展示给用户
														
 
															+
														
 
															+## SchemaWorkflowOrchestrator集成细节
														
 
															+
														
 
															+### 1. 主要修改点
														
 
															+
														
 
															+由于直接调用schema_workflow.py，不需要额外的worker.py，主要修改集中在：
														
 
															+
														
 
															+1. **命令行参数扩展**：添加`--task-id`和`--no-db-tracking`参数
														
 
															+2. **数据库记录器集成**：在SchemaWorkflowOrchestrator中集成进度记录功能
														
 
															+3. **各步骤进度更新**：在现有的执行步骤中添加进度更新调用
														
 
															+
														
 
															+### 2. 进度更新实现
														
 
															+
														
 
															+在每个执行步骤方法中添加进度更新：
														
 
															+
														
 
															+```python
														
 
															+# _execute_step_1_ddl_md_generation
														
 
															+if self.db_logger:
														
 
															+    self.db_logger.update_progress(10, 'ddl_md_generation')
														
 
															+    self.db_logger.log('INFO', 'DDL/MD生成开始', 'ddl_md_generation')
														
 
															+    # ... 执行实际工作
														
 
															+    self.db_logger.update_progress(40, 'ddl_md_generation')
														
 
															+    
														
 
															+# _execute_step_2_question_sql_generation  
														
 
															+if self.db_logger:
														
 
															+    self.db_logger.update_progress(40, 'question_sql_generation')
														
 
															+    # ... 执行实际工作
														
 
															+    self.db_logger.update_progress(70, 'question_sql_generation')
														
 
															+    
														
 
															+# _execute_step_3_sql_validation
														
 
															+if self.db_logger:
														
 
															+    self.db_logger.update_progress(70, 'sql_validation')
														
 
															+    # ... 执行实际工作
														
 
															+    self.db_logger.update_progress(90, 'sql_validation')
														
 
															+    
														
 
															+# _execute_step_4_training_data_load
														
 
															+if self.db_logger:
														
 
															+    self.db_logger.update_progress(90, 'training_data_load')
														
 
															+    # ... 执行实际工作
														
 
															+    self.db_logger.update_progress(100, 'training_data_load')
														
 
															+```
														
 
															+
														
 
															+### 3. 任务状态管理
														
 
															+
														
 
															+在主执行流程中管理任务状态：
														
 
															+
														
 
															+```python
														
 
															+async def execute_complete_workflow(self):
														
 
															+    # 开始时更新状态
														
 
															+    if self.db_logger:
														
 
															+        self.db_logger.update_status('running')
														
 
															+    
														
 
															+    try:
														
 
															+        # 执行各步骤...
														
 
															+        report = await self._generate_final_report()
														
 
															+        
														
 
															+        # 成功完成
														
 
															+        if self.db_logger:
														
 
															+            self.db_logger.update_status('completed')
														
 
															+            
														
 
															+    except Exception as e:
														
 
															+        # 失败处理
														
 
															+        if self.db_logger:
														
 
															+            self.db_logger.update_status('failed', str(e))
														
 
															+        raise
														
 
															+```
														
 
															+
														
 
															+### 4. 输出目录管理
														
 
															+
														
 
															+当通过API调用时，output_dir会被设置为任务特定的时间戳目录，确保所有输出文件都集中存储。
														
 
															+
														
 
															+## API安全性考虑
														
 
															+
														
 
															+### 1. 认证和授权
														
 
															+- 使用现有的API认证机制（如JWT）
														
 
															+- 检查用户权限，确保有执行数据生成的权限
														
 
															+- 记录操作者信息到created_by字段
														
 
															+
														
 
															+### 2. 输入验证
														
 
															+```python
														
 
															+def validate_task_request(request_data):
														
 
															+    # 验证必填字段
														
 
															+    required_fields = ['task_type', 'parameters']
														
 
															+    for field in required_fields:
														
 
															+        if field not in request_data:
														
 
															+            raise ValueError(f"缺少必填字段: {field}")
														
 
															+    
														
 
															+    # 验证数据库连接参数
														
 
															+    db_params = request_data['parameters'].get('db_connection', {})
														
 
															+    if not all(k in db_params for k in ['host', 'port', 'database']):
														
 
															+        raise ValueError("数据库连接参数不完整")
														
 
															+        
														
 
															+    # 验证表列表
														
 
															+    table_list = request_data['parameters'].get('table_list', [])
														
 
															+    if not table_list:
														
 
															+        raise ValueError("表列表不能为空")
														
 
															+```
														
 
															+
														
 
															+### 3. 路径安全
														
 
															+- 禁止路径遍历攻击
														
 
															+- 确保所有文件操作都在指定的任务目录内
														
 
															+- 使用os.path.normpath和验证路径前缀
														
 
															+
														
 
															+## 性能优化建议
														
 
															+
														
 
															+### 1. 数据库查询优化
														
 
															+- 使用批量插入日志，而非逐条插入
														
 
															+- 建立适当的索引加速查询
														
 
															+- 定期清理旧日志数据
														
 
															+
														
 
															+### 2. 文件处理优化
														
 
															+- 大文件使用流式读写
														
 
															+- 压缩旧任务的输出文件
														
 
															+- 实现文件分片下载
														
 
															+
														
 
															+### 3. 内存管理
														
 
															+- 在worker中及时释放大对象
														
 
															+- 使用生成器处理大数据集
														
 
															+- 监控内存使用情况
														
 
															+
														
 
															+## 任务清理策略
														
 
															+
														
 
															+### 1. 自动清理
														
 
															+```python
														
 
															+# 定期任务清理旧数据
														
 
															+def cleanup_old_tasks():
														
 
															+    # 清理30天前的任务
														
 
															+    cutoff_date = datetime.now() - timedelta(days=30)
														
 
															+    
														
 
															+    # 查询要清理的任务
														
 
															+    old_tasks = db.query("""
														
 
															+        SELECT id FROM data_pipeline_tasks 
														
 
															+        WHERE created_at < %s AND status IN ('completed', 'failed')
														
 
															+    """, [cutoff_date])
														
 
															+    
														
 
															+    for task in old_tasks:
														
 
															+        # 删除文件目录
														
 
															+        task_dir = os.path.join('./data_pipeline/training_data/', task.id)
														
 
															+        if os.path.exists(task_dir):
														
 
															+            shutil.rmtree(task_dir)
														
 
															+            
														
 
															+        # 删除数据库记录
														
 
															+        db.execute("DELETE FROM data_pipeline_tasks WHERE id = %s", [task.id])
														
 
															+```
														
 
															+
														
 
															+### 2. 手动清理API
														
 
															+```
														
 
															+DELETE /api/v0/data_pipeline/tasks/{task_id}
														
 
															+```
														
 
															+
														
 
															+## 监控指标
														
 
															+
														
 
															+### 1. 任务指标
														
 
															+- 任务执行时间统计
														
 
															+- 任务成功率
														
 
															+- 各步骤平均耗时
														
 
															+
														
 
															+### 2. 系统指标
														
 
															+- CPU和内存使用率
														
 
															+- 磁盘空间占用
														
 
															+- 数据库连接池状态
														
 
															+
														
 
															+### 3. 告警规则
														
 
															+- 任务执行超时告警
														
 
															+- 磁盘空间不足告警
														
 
															+- 连续失败任务告警
														
 
															+
														
 
															+## 部署和运维
														
 
															+
														
 
															+### 1. 依赖要求
														
 
															+- 现有的Data Pipeline依赖不变
														
 
															+- 确保subprocess能够正确启动Python脚本
														
 
															+- 数据库表的创建和权限配置
														
 
															+- Windows系统需要注意Python路径和脚本执行权限
														
 
															+
														
 
															+### 2. 初始化脚本
														
 
															+```sql
														
 
															+-- 创建必要的数据库表
														
 
															+CREATE TABLE IF NOT EXISTS data_pipeline_tasks (...);
														
 
															+CREATE TABLE IF NOT EXISTS data_pipeline_task_logs (...);
														
 
															+CREATE TABLE IF NOT EXISTS data_pipeline_task_outputs (...);
														
 
															+
														
 
															+-- 创建索引
														
 
															+CREATE INDEX IF NOT EXISTS idx_tasks_status ON data_pipeline_tasks(status);
														
 
															+CREATE INDEX IF NOT EXISTS idx_tasks_created_at ON data_pipeline_tasks(created_at);
														
 
															+CREATE INDEX IF NOT EXISTS idx_logs_task_id ON data_pipeline_task_logs(task_id);
														
 
															+
														
 
															+-- 创建清理函数
														
 
															+CREATE OR REPLACE FUNCTION cleanup_old_tasks()...
														
 
															+```
														
 
															+
														
 
															+### 3. 运维检查清单
														
 
															+- [ ] 确保training_data目录有足够的磁盘空间
														
 
															+- [ ] 定期检查是否有僵尸任务
														
 
															+- [ ] 监控任务执行时间趋势
														
 
															+- [ ] 备份重要的训练数据
														
 
															+- [ ] 定期执行任务清理
														
 
															+
														
 
															+### 4. 故障排查指南
														
 
															+1. **任务卡住**：检查数据库中任务状态，查看任务目录下的日志文件
														
 
															+2. **任务失败**：
														
 
															+   - 查看数据库中的 error_message 字段
														
 
															+   - 在 data_pipeline.log 中搜索 [ERROR] 级别日志
														
 
															+   - 检查数据库连接和LLM服务状态
														
 
															+3. **磁盘满**：执行清理脚本，调整保留策略
														
 
															+4. **性能下降**：检查数据库索引，清理历史日志
														
 
															+
														
 
															+## 总结
														
 
															+
														
 
															+本设计采用了任务与API解耦的架构，通过数据库作为通信桥梁，实现了长时间任务的后台执行和实时进度追踪。设计简洁实用，充分复用了现有的代码和基础设施，能够满足Web UI调用Data Pipeline的各种需求。
														
 
															+
														
 
															+本概要设计文档详细描述了Data Pipeline API的完整实现方案：
														
 
															+
														
 
															+1. **核心设计特点**：
														
 
															+   - 任务ID即时间戳的简洁设计，无需额外的ID生成器
														
 
															+   - API与执行脚本完全解耦，支持服务重启后任务继续执行
														
 
															+   - 基于数据库的状态管理和进度追踪，替代复杂的消息队列
														
 
															+   - 时间戳目录的统一文件管理，所有输出集中存储
														
 
															+
														
 
															+2. **技术实现亮点**：
														
 
															+   - 使用subprocess实现真正的后台执行，不阻塞HTTP请求
														
 
															+   - 粗粒度进度追踪（步骤级），避免过度复杂
														
 
															+   - 完善的错误处理和恢复机制，包括僵尸任务检测
														
 
															+   - 单任务执行保证系统稳定性，避免资源竞争
														
 
															+
														
 
															+3. **实用性考虑**：
														
 
															+   - 充分复用现有的SchemaWorkflowOrchestrator代码
														
 
															+   - 支持服务重启后的状态恢复，任务不会丢失
														
 
															+   - 提供完整的文件管理和下载功能
														
 
															+   - 包含监控、清理和运维策略，便于长期维护
														
 
															+
														
 
															+4. **Web UI友好设计**：
														
 
															+   - 清晰的RESTful API设计，易于前端集成
														
 
															+   - 实时进度查询，支持轮询机制
														
 
															+   - 完整的日志查看和文件下载功能
														
 
															+   - 直观的任务状态展示
														
 
															+
														
 
															+5. **关键实现变更**：
														
 
															+   - 直接调用schema_workflow.py，无需额外的worker.py
														
 
															+   - 手工执行时自动生成manual_前缀的task_id
														
 
															+   - 支持--no-db-tracking参数禁用数据库追踪
														
 
															+   - 只需修改schema_workflow.py一个文件即可实现所有功能
														
 
															+   - 使用环境变量方案统一管理data_pipeline模块的日志路径
														
 
															+   - 所有任务日志都写入各自的任务目录，不再使用./logs/data_pipeline.log
														
 
															+   - 禁用日志轮转（rotation），因为每个任务的日志是独立的
														
 
															+
														
 
															+本方案在保持简单实用的同时，提供了完整的功能支持，能够很好地满足Data Pipeline Web UI集成的需求。
														
--- a/docs/data_pipeline_api_detailed_design.md
+++ b/docs/data_pipeline_api_detailed_design.md
@@ -0,0 +1,1136 @@
 
															+# Data Pipeline API 详细设计文档
														
 
															+
														
 
															+## 项目概述
														
 
															+
														
 
															+本文档是基于概要设计文档和现有代码结构，对Data Pipeline API系统的详细技术实现设计。该系统将为Web UI提供完整的数据管道调度、执行监控和日志管理功能。
														
 
															+
														
 
															+## 核心需求分析
														
 
															+
														
 
															+### 1. 业务需求
														
 
															+- **API调度执行**：通过REST API调度执行 `./data_pipeline/schema_workflow.py`
														
 
															+- **执行监控**：实时查看任务执行状态和进度
														
 
															+- **日志集中管理**：所有日志写入任务特定的子目录
														
 
															+- **步骤控制**：支持通过参数控制执行特定步骤
														
 
															+- **数据库日志记录**：关键步骤信息写入PostgreSQL数据库
														
 
															+
														
 
															+### 2. 技术约束
														
 
															+- 复用现有的 `SchemaWorkflowOrchestrator` 架构
														
 
															+- 集成现有的日志系统 (`core.logging`)
														
 
															+- 使用现有的Flask应用 (`citu_app.py`) 作为API承载
														
 
															+- 保持与现有数据库配置的兼容性
														
 
															+
														
 
															+## 系统架构设计
														
 
															+
														
 
															+### 1. 整体架构
														
 
															+
														
 
															+```
														
 
															+┌─────────────────────┐    ┌─────────────────────┐    ┌─────────────────────┐
														
 
															+│   Web Frontend      │    │   Flask API         │    │  Schema Workflow    │
														
 
															+│                     │ ─→ │   (citu_app.py)     │ ─→ │  (subprocess)       │
														
 
															+│ - 任务创建表单      │    │ - 任务调度          │    │ - DDL生成           │
														
 
															+│ - 进度监控界面      │    │ - 状态查询          │    │ - Q&A生成           │
														
 
															+│ - 日志查看器        │    │ - 日志API           │    │ - SQL验证           │
														
 
															+│ - 文件管理器        │    │ - 文件管理          │    │ - 训练数据加载      │
														
 
															+└─────────────────────┘    └─────────────────────┘    └─────────────────────┘
														
 
															+                                    │                           │
														
 
															+                                    ▼                           ▼
														
 
															+                           ┌─────────────────────┐    ┌─────────────────────┐
														
 
															+                           │  PostgreSQL DB      │    │  File System        │
														
 
															+                           │ - 任务状态表        │    │ - 任务目录          │
														
 
															+                           │ - 日志记录表        │    │ - 输出文件          │
														
 
															+                           │ - 文件输出表        │    │ - 日志文件          │
														
 
															+                           └─────────────────────┘    └─────────────────────┘
														
 
															+```
														
 
															+
														
 
															+### 2. 进程分离设计
														
 
															+
														
 
															+```
														
 
															+HTTP Request ──┐
														
 
															+               │
														
 
															+               ▼
														
 
															+        ┌─────────────┐    subprocess.Popen    ┌──────────────────┐
														
 
															+        │ Flask API   │ ──────────────────────→ │ task_executor.py │
														
 
															+        │ Process     │                        │ Process          │
														
 
															+        │             │    Database Bridge     │                  │
														
 
															+        │ - 任务调度  │ ←─────────────────────→ │ - SimpleWorkflow │
														
 
															+        │ - 状态查询  │                        │ - 进度更新       │
														
 
															+        │ - 文件管理  │                        │ - 双日志记录     │
														
 
															+        └─────────────┘                        └──────────────────┘
														
 
															+               │                                        │
														
 
															+               ▼                                        ▼
														
 
															+        立即返回task_id                     独立执行工作流+日志到任务目录
														
 
															+```
														
 
															+
														
 
															+## 数据库设计详细说明
														
 
															+
														
 
															+### 1. 表结构设计
														
 
															+
														
 
															+#### 任务主表 (data_pipeline_tasks)
														
 
															+```sql
														
 
															+CREATE TABLE data_pipeline_tasks (
														
 
															+    -- 主键：时间戳格式的任务ID
														
 
															+    id VARCHAR(32) PRIMARY KEY,                    -- 'task_20250627_143052'
														
 
															+    
														
 
															+    -- 任务基本信息
														
 
															+    task_type VARCHAR(50) NOT NULL DEFAULT 'data_workflow',
														
 
															+    status VARCHAR(20) NOT NULL DEFAULT 'pending', -- pending/in_progress/partial_completed/completed/failed
														
 
															+    
														
 
															+    -- 配置和结果（JSON格式）
														
 
															+    parameters JSONB NOT NULL,                     -- 任务配置参数
														
 
															+    result JSONB,                                  -- 最终执行结果
														
 
															+    
														
 
															+    -- 错误处理
														
 
															+    error_message TEXT,                            -- 错误详细信息
														
 
															+    
														
 
															+    -- 步骤状态跟踪
														
 
															+    step_status JSONB DEFAULT '{                   -- 各步骤状态
														
 
															+        "ddl_generation": "pending",
														
 
															+        "qa_generation": "pending", 
														
 
															+        "sql_validation": "pending",
														
 
															+        "training_load": "pending"
														
 
															+    }',
														
 
															+    
														
 
															+    -- 时间戳
														
 
															+    created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
														
 
															+    started_at TIMESTAMP,
														
 
															+    completed_at TIMESTAMP,
														
 
															+    
														
 
															+    -- 创建者信息
														
 
															+    created_by VARCHAR(50) DEFAULT 'api',          -- 'api', 'manual', 'system'
														
 
															+    
														
 
															+    -- 输出目录
														
 
															+    output_directory TEXT,                         -- 任务输出目录路径
														
 
															+    
														
 
															+    -- 索引字段
														
 
															+    db_name VARCHAR(100),                          -- 数据库名称（便于筛选）
														
 
															+    business_context TEXT                          -- 业务上下文（便于搜索）
														
 
															+);
														
 
															+
														
 
															+-- 创建索引
														
 
															+CREATE INDEX idx_tasks_status ON data_pipeline_tasks(status);
														
 
															+CREATE INDEX idx_tasks_created_at ON data_pipeline_tasks(created_at DESC);
														
 
															+CREATE INDEX idx_tasks_db_name ON data_pipeline_tasks(db_name);
														
 
															+CREATE INDEX idx_tasks_created_by ON data_pipeline_tasks(created_by);
														
 
															+```
														
 
															+
														
 
															+#### 任务执行记录表 (data_pipeline_task_executions)
														
 
															+```sql
														
 
															+CREATE TABLE data_pipeline_task_executions (
														
 
															+    id SERIAL PRIMARY KEY,
														
 
															+    task_id VARCHAR(32) REFERENCES data_pipeline_tasks(id) ON DELETE CASCADE,
														
 
															+    execution_step VARCHAR(50) NOT NULL,          -- 'ddl_generation', 'qa_generation', 'sql_validation', 'training_load', 'complete'
														
 
															+    status VARCHAR(20) NOT NULL,                  -- 'running', 'completed', 'failed'
														
 
															+    started_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
														
 
															+    completed_at TIMESTAMP,
														
 
															+    error_message TEXT,
														
 
															+    execution_result JSONB,                       -- 步骤执行结果
														
 
															+    execution_id VARCHAR(100) UNIQUE,             -- {task_id}_step_{step_name}_exec_{timestamp}
														
 
															+    force_executed BOOLEAN DEFAULT FALSE,         -- 是否强制执行
														
 
															+    files_cleaned BOOLEAN DEFAULT FALSE,          -- 是否清理了旧文件
														
 
															+    duration_seconds INTEGER                      -- 执行时长（秒）
														
 
															+);
														
 
															+
														
 
															+-- 创建索引
														
 
															+CREATE INDEX idx_executions_task_id ON data_pipeline_task_executions(task_id);
														
 
															+CREATE INDEX idx_executions_step ON data_pipeline_task_executions(execution_step);
														
 
															+CREATE INDEX idx_executions_status ON data_pipeline_task_executions(status);
														
 
															+CREATE INDEX idx_executions_started_at ON data_pipeline_task_executions(started_at DESC);
														
 
															+```
														
 
															+
														
 
															+#### 任务日志表 (data_pipeline_task_logs)
														
 
															+```sql
														
 
															+CREATE TABLE data_pipeline_task_logs (
														
 
															+    id SERIAL PRIMARY KEY,
														
 
															+    task_id VARCHAR(32) REFERENCES data_pipeline_tasks(id) ON DELETE CASCADE,
														
 
															+    execution_id VARCHAR(100) REFERENCES data_pipeline_task_executions(execution_id),
														
 
															+    
														
 
															+    -- 日志内容
														
 
															+    log_level VARCHAR(10) NOT NULL,               -- 'DEBUG', 'INFO', 'WARNING', 'ERROR', 'CRITICAL'
														
 
															+    message TEXT NOT NULL,                        -- 日志消息内容
														
 
															+    
														
 
															+    -- 上下文信息
														
 
															+    step_name VARCHAR(50),                        -- 执行步骤名称
														
 
															+    module_name VARCHAR(100),                     -- 模块名称
														
 
															+    function_name VARCHAR(100),                   -- 函数名称
														
 
															+    
														
 
															+    -- 时间戳
														
 
															+    timestamp TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
														
 
															+    
														
 
															+    -- 额外信息（JSON格式）
														
 
															+    extra_data JSONB DEFAULT '{}'                 -- 额外的结构化信息
														
 
															+);
														
 
															+
														
 
															+-- 创建索引
														
 
															+CREATE INDEX idx_logs_task_id ON data_pipeline_task_logs(task_id);
														
 
															+CREATE INDEX idx_logs_execution_id ON data_pipeline_task_logs(execution_id);
														
 
															+CREATE INDEX idx_logs_timestamp ON data_pipeline_task_logs(timestamp DESC);
														
 
															+CREATE INDEX idx_logs_level ON data_pipeline_task_logs(log_level);
														
 
															+CREATE INDEX idx_logs_step ON data_pipeline_task_logs(step_name);
														
 
															+```
														
 
															+
														
 
															+#### 任务输出文件表 (data_pipeline_task_outputs)
														
 
															+```sql
														
 
															+CREATE TABLE data_pipeline_task_outputs (
														
 
															+    id SERIAL PRIMARY KEY,
														
 
															+    task_id VARCHAR(32) REFERENCES data_pipeline_tasks(id) ON DELETE CASCADE,
														
 
															+    execution_id VARCHAR(100) REFERENCES data_pipeline_task_executions(execution_id),
														
 
															+    
														
 
															+    -- 文件信息
														
 
															+    file_type VARCHAR(50) NOT NULL,               -- 'ddl', 'md', 'json', 'log', 'report'
														
 
															+    file_name VARCHAR(255) NOT NULL,              -- 文件名
														
 
															+    file_path TEXT NOT NULL,                      -- 相对路径
														
 
															+    file_size BIGINT DEFAULT 0,                   -- 文件大小（字节）
														
 
															+    
														
 
															+    -- 文件内容摘要
														
 
															+    content_hash VARCHAR(64),                     -- 文件内容hash
														
 
															+    description TEXT,                             -- 文件描述
														
 
															+    
														
 
															+    -- 时间戳
														
 
															+    created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
														
 
															+    modified_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
														
 
															+    
														
 
															+    -- 状态
														
 
															+    is_primary BOOLEAN DEFAULT FALSE,             -- 是否为主要输出文件
														
 
															+    is_downloadable BOOLEAN DEFAULT TRUE          -- 是否可下载
														
 
															+);
														
 
															+
														
 
															+-- 创建索引
														
 
															+CREATE INDEX idx_outputs_task_id ON data_pipeline_task_outputs(task_id);
														
 
															+CREATE INDEX idx_outputs_execution_id ON data_pipeline_task_outputs(execution_id);
														
 
															+CREATE INDEX idx_outputs_file_type ON data_pipeline_task_outputs(file_type);
														
 
															+CREATE INDEX idx_outputs_primary ON data_pipeline_task_outputs(is_primary) WHERE is_primary = TRUE;
														
 
															+```
														
 
															+
														
 
															+### 2. 数据库操作类设计
														
 
															+
														
 
															+```python
														
 
															+# data_pipeline/api/simple_db_manager.py
														
 
															+class SimpleTaskManager:
														
 
															+    """简化的数据管道任务数据库管理器"""
														
 
															+    
														
 
															+    def __init__(self):
														
 
															+        self.logger = get_data_pipeline_logger("SimpleTaskManager")
														
 
															+        self._connection = None
														
 
															+        self._connect_to_pgvector()
														
 
															+    
														
 
															+    def create_task(self, db_connection: str, table_list_file: str, 
														
 
															+                   business_context: str, **kwargs) -> str:
														
 
															+        """创建新任务记录，返回task_id"""
														
 
															+        
														
 
															+    def update_task_status(self, task_id: str, status: str, 
														
 
															+                          error_message: str = None) -> bool:
														
 
															+        """更新任务状态"""
														
 
															+        
														
 
															+    def update_step_status(self, task_id: str, step_name: str, 
														
 
															+                          status: str) -> bool:
														
 
															+        """更新步骤状态"""
														
 
															+        
														
 
															+    def get_task(self, task_id: str) -> dict:
														
 
															+        """获取任务详情"""
														
 
															+        
														
 
															+    def get_tasks_list(self, limit: int = 50, status: str = None) -> list:
														
 
															+        """获取任务列表"""
														
 
															+        
														
 
															+    def create_execution(self, task_id: str, step_name: str) -> str:
														
 
															+        """创建执行记录，返回execution_id"""
														
 
															+        
														
 
															+    def complete_execution(self, execution_id: str, status: str, 
														
 
															+                          error_message: str = None) -> bool:
														
 
															+        """完成执行记录"""
														
 
															+        
														
 
															+    def record_log(self, task_id: str, level: str, message: str, 
														
 
															+                  execution_id: str = None, step_name: str = None) -> bool:
														
 
															+        """记录任务日志"""
														
 
															+        
														
 
															+    def get_task_logs(self, task_id: str, limit: int = 100) -> list:
														
 
															+        """获取任务日志"""
														
 
															+        
														
 
															+    def get_task_outputs(self, task_id: str) -> list:
														
 
															+        """获取任务输出文件列表"""
														
 
															+```
														
 
															+
														
 
															+## API接口详细设计
														
 
															+
														
 
															+### 1. API路由设计
														
 
															+
														
 
															+所有API都在 `citu_app.py` 中实现，路由前缀为 `/api/v0/data_pipeline/`
														
 
															+
														
 
															+```python
														
 
															+# citu_app.py 中添加的路由
														
 
															+@app.flask_app.route('/api/v0/data_pipeline/tasks', methods=['POST'])
														
 
															+def create_data_pipeline_task():
														
 
															+    """创建数据管道任务"""
														
 
															+
														
 
															+@app.flask_app.route('/api/v0/data_pipeline/tasks', methods=['GET'])
														
 
															+def get_data_pipeline_tasks():
														
 
															+    """获取任务列表"""
														
 
															+
														
 
															+@app.flask_app.route('/api/v0/data_pipeline/tasks/<task_id>', methods=['GET'])
														
 
															+def get_data_pipeline_task(task_id):
														
 
															+    """获取单个任务详情"""
														
 
															+
														
 
															+@app.flask_app.route('/api/v0/data_pipeline/tasks/active', methods=['GET'])
														
 
															+def get_active_data_pipeline_task():
														
 
															+    """获取当前活跃任务"""
														
 
															+
														
 
															+@app.flask_app.route('/api/v0/data_pipeline/tasks/<task_id>/logs', methods=['GET'])
														
 
															+def get_data_pipeline_task_logs(task_id):
														
 
															+    """获取任务日志"""
														
 
															+
														
 
															+@app.flask_app.route('/api/v0/data_pipeline/tasks/<task_id>/files', methods=['GET'])
														
 
															+def get_data_pipeline_task_files(task_id):
														
 
															+    """获取任务输出文件列表"""
														
 
															+
														
 
															+@app.flask_app.route('/api/v0/data_pipeline/tasks/<task_id>/files/download/<filename>', methods=['GET'])
														
 
															+def download_data_pipeline_task_file(task_id, filename):
														
 
															+    """下载任务输出文件"""
														
 
															+
														
 
															+@app.flask_app.route('/api/v0/data_pipeline/tasks/<task_id>', methods=['DELETE'])
														
 
															+def delete_data_pipeline_task(task_id):
														
 
															+    """删除任务（清理）"""
														
 
															+```
														
 
															+
														
 
															+### 2. API接口实现详情
														
 
															+
														
 
															+#### 2.1 创建任务接口
														
 
															+
														
 
															+```python
														
 
															+@app.flask_app.route('/api/v0/data_pipeline/tasks', methods=['POST'])
														
 
															+def create_data_pipeline_task():
														
 
															+    """
														
 
															+    创建数据管道任务
														
 
															+    
														
 
															+    Request Body:
														
 
															+    {
														
 
															+        "task_type": "complete_workflow",
														
 
															+        "parameters": {
														
 
															+            "db_connection": "postgresql://...",
														
 
															+            "table_list_file": "tables.txt", 
														
 
															+            "business_context": "业务描述",
														
 
															+            "output_dir": "./data_pipeline/training_data/",
														
 
															+            "execution_mode": "complete",
														
 
															+            "single_step": null
														
 
															+        }
														
 
															+    }
														
 
															+    """
														
 
															+    try:
														
 
															+        # 1. 参数验证
														
 
															+        req_data = request.get_json()
														
 
															+        if not req_data:
														
 
															+            return jsonify(bad_request_response("请求体不能为空")), 400
														
 
															+            
														
 
															+        task_type = req_data.get('task_type', 'complete_workflow')
														
 
															+        parameters = req_data.get('parameters', {})
														
 
															+        
														
 
															+        # 验证必需参数
														
 
															+        required_params = ['db_connection', 'table_list_file', 'business_context']
														
 
															+        missing_params = [p for p in required_params if not parameters.get(p)]
														
 
															+        if missing_params:
														
 
															+            return jsonify(bad_request_response(
														
 
															+                f"缺少必需参数: {', '.join(missing_params)}",
														
 
															+                missing_params=missing_params
														
 
															+            )), 400
														
 
															+        
														
 
															+        # 验证执行模式参数
														
 
															+        execution_mode = parameters.get('execution_mode', 'complete')
														
 
															+        single_step = parameters.get('single_step')
														
 
															+        
														
 
															+        if execution_mode not in ['complete', 'single']:
														
 
															+            return jsonify(bad_request_response("execution_mode必须是complete或single")), 400
														
 
															+            
														
 
															+        if execution_mode == 'single':
														
 
															+            if not single_step or single_step not in [1, 2, 3, 4]:
														
 
															+                return jsonify(bad_request_response("单步模式下single_step必须是1、2、3、4中的一个")), 400
														
 
															+        elif execution_mode == 'complete' and single_step:
														
 
															+            return jsonify(bad_request_response("完整模式下不应提供single_step参数")), 400
														
 
															+        
														
 
															+        # 2. 并发检查 - 简化版本（依赖SimpleWorkflowManager）
														
 
															+        workflow_manager = SimpleWorkflowManager()
														
 
															+        
														
 
															+        # 3. 创建任务记录（返回task_id）
														
 
															+        task_id = workflow_manager.create_task(
														
 
															+            db_connection=parameters['db_connection'],
														
 
															+            table_list_file=parameters['table_list_file'],
														
 
															+            business_context=parameters['business_context'],
														
 
															+            **{k: v for k, v in parameters.items() 
														
 
															+               if k not in ['db_connection', 'table_list_file', 'business_context']}
														
 
															+        )
														
 
															+        
														
 
															+        # 4. 启动后台进程
														
 
															+        import subprocess
														
 
															+        import sys
														
 
															+        from pathlib import Path
														
 
															+        
														
 
															+        # 构建任务执行器命令
														
 
															+        cmd_args = [
														
 
															+            sys.executable, 
														
 
															+            str(Path(__file__).parent / "data_pipeline" / "task_executor.py"),
														
 
															+            '--task-id', task_id,
														
 
															+            '--execution-mode', 'complete'
														
 
															+        ]
														
 
															+        
														
 
															+        # 如果是单步执行，添加步骤参数
														
 
															+        if execution_mode == 'step' and single_step:
														
 
															+            cmd_args.extend(['--step-name', f'step_{single_step}'])
														
 
															+        
														
 
															+        # 启动后台进程
														
 
															+        try:
														
 
															+            process = subprocess.Popen(
														
 
															+                cmd_args,
														
 
															+                stdout=subprocess.PIPE,
														
 
															+                stderr=subprocess.PIPE,
														
 
															+                text=True,
														
 
															+                cwd=Path(__file__).parent
														
 
															+            )
														
 
															+            logger.info(f"启动任务进程: PID={process.pid}, task_id={task_id}")
														
 
															+        except Exception as e:
														
 
															+            # 清理任务记录
														
 
															+            workflow_manager.cleanup()
														
 
															+            return jsonify(internal_error_response(f"启动后台进程失败: {str(e)}")), 500
														
 
															+        
														
 
															+        # 5. 返回成功响应
														
 
															+        
														
 
															+        # 启动进程
														
 
															+        try:
														
 
															+            log_file_path = os.path.join(task_dir, 'data_pipeline.log')
														
 
															+            process = subprocess.Popen(
														
 
															+                cmd_args,
														
 
															+                stdout=open(log_file_path, 'w', encoding='utf-8'),
														
 
															+                stderr=subprocess.STDOUT,
														
 
															+                cwd=os.getcwd(),
														
 
															+                start_new_session=True
														
 
															+            )
														
 
															+            
														
 
															+            logger.info(f"启动后台任务: {task_id}, PID: {process.pid}")
														
 
															+            
														
 
															+        except Exception as e:
														
 
															+            # 清理资源
														
 
															+            task_manager.update_task_status(task_id, 'failed', error_message=f"启动进程失败: {str(e)}")
														
 
															+            shutil.rmtree(task_dir, ignore_errors=True)
														
 
															+            return jsonify(internal_error_response(f"启动任务失败: {str(e)}")), 500
														
 
															+        
														
 
															+        # 9. 返回成功响应
														
 
															+        return jsonify(success_response(
														
 
															+            message="任务创建成功",
														
 
															+            data={
														
 
															+                "task_id": task_id,
														
 
															+                "status": "pending",
														
 
															+                "created_at": datetime.now().isoformat(),
														
 
															+                "output_directory": task_dir
														
 
															+            }
														
 
															+        )), 201
														
 
															+        
														
 
															+    except Exception as e:
														
 
															+        logger.exception(f"创建任务失败: {str(e)}")
														
 
															+        return jsonify(internal_error_response("创建任务失败")), 500
														
 
															+```
														
 
															+
														
 
															+#### 2.2 获取任务详情接口
														
 
															+
														
 
															+```python
														
 
															+@app.flask_app.route('/api/v0/data_pipeline/tasks/<task_id>', methods=['GET'])
														
 
															+def get_data_pipeline_task(task_id):
														
 
															+    """
														
 
															+    获取单个任务详情
														
 
															+    
														
 
															+    Response:
														
 
															+    {
														
 
															+        "success": true,
														
 
															+        "data": {
														
 
															+            "task_id": "task_20250627_143052",
														
 
															+            "task_type": "complete_workflow",
														
 
															+            "status": "running",
														
 
															+            "progress": 45,
														
 
															+            "current_step": "question_sql_generation",
														
 
															+            "parameters": {...},
														
 
															+            "result": {...},
														
 
															+            "error_message": null,
														
 
															+            "step_details": [...],
														
 
															+            "created_at": "2025-06-27T14:30:52",
														
 
															+            "started_at": "2025-06-27T14:30:53",
														
 
															+            "completed_at": null,
														
 
															+            "duration": 125.5,
														
 
															+            "output_directory": "./data_pipeline/training_data/task_20250627_143052"
														
 
															+        }
														
 
															+    }
														
 
															+    """
														
 
															+    try:
														
 
															+        # 参数验证
														
 
															+        if not task_id or not task_id.startswith('task_'):
														
 
															+            return jsonify(bad_request_response("无效的任务ID格式")), 400
														
 
															+        
														
 
															+        workflow_manager = SimpleWorkflowManager()
														
 
															+        task_data = workflow_manager.get_task_status(task_id)
														
 
															+        
														
 
															+        if not task_data:
														
 
															+            return jsonify(not_found_response(f"任务不存在: {task_id}")), 404
														
 
															+        
														
 
															+        # 计算执行时长
														
 
															+        duration = None
														
 
															+        if task_data.get('started_at'):
														
 
															+            end_time = task_data.get('completed_at') or datetime.now()
														
 
															+            start_time = task_data['started_at']
														
 
															+            if isinstance(start_time, str):
														
 
															+                start_time = datetime.fromisoformat(start_time)
														
 
															+            if isinstance(end_time, str):
														
 
															+                end_time = datetime.fromisoformat(end_time)
														
 
															+            duration = (end_time - start_time).total_seconds()
														
 
															+        
														
 
															+        # 获取步骤详情
														
 
															+        step_details = []
														
 
															+        step_stats = task_data.get('step_stats', {})
														
 
															+        
														
 
															+        for step_name in ['ddl_md_generation', 'question_sql_generation', 'sql_validation', 'training_data_load']:
														
 
															+            step_info = step_stats.get(step_name, {})
														
 
															+            step_details.append({
														
 
															+                "step": step_name,
														
 
															+                "status": step_info.get('status', 'pending'),
														
 
															+                "started_at": step_info.get('started_at'),
														
 
															+                "completed_at": step_info.get('completed_at'),
														
 
															+                "duration": step_info.get('duration'),
														
 
															+                "error_message": step_info.get('error_message')
														
 
															+            })
														
 
															+        
														
 
															+        response_data = {
														
 
															+            **task_data,
														
 
															+            "duration": duration,
														
 
															+            "step_details": step_details
														
 
															+        }
														
 
															+        
														
 
															+        return jsonify(success_response("获取任务详情成功", data=response_data))
														
 
															+        
														
 
															+    except Exception as e:
														
 
															+        logger.exception(f"获取任务详情失败: {str(e)}")
														
 
															+        return jsonify(internal_error_response("获取任务详情失败")), 500
														
 
															+```
														
 
															+
														
 
															+## Schema Workflow 集成设计
														
 
															+
														
 
															+### 1. 命令行参数扩展
														
 
															+
														
 
															+在现有的 `setup_argument_parser()` 函数中添加新参数：
														
 
															+
														
 
															+```python
														
 
															+def setup_argument_parser():
														
 
															+    """设置命令行参数解析器"""
														
 
															+    parser = argparse.ArgumentParser(
														
 
															+        description="Schema工作流编排器 - 端到端的Schema处理流程",
														
 
															+        formatter_class=argparse.RawDescriptionHelpFormatter
														
 
															+    )
														
 
															+    
														
 
															+    # ... 现有参数 ...
														
 
															+    
														
 
															+    # 新增API集成参数
														
 
															+    parser.add_argument(
														
 
															+        "--task-id",
														
 
															+        required=False,
														
 
															+        help="任务ID（API调用时提供，手动执行时自动生成）"
														
 
															+    )
														
 
															+    
														
 
															+    parser.add_argument(
														
 
															+        "--no-db-tracking",
														
 
															+        action="store_true",
														
 
															+        help="禁用数据库任务追踪（不记录到任务表）"
														
 
															+    )
														
 
															+    
														
 
															+    # 新增执行模式参数
														
 
															+    parser.add_argument(
														
 
															+        "--execution-mode",
														
 
															+        choices=['complete', 'single'],
														
 
															+        default='complete',
														
 
															+        help="执行模式：complete=完整工作流，single=单步执行"
														
 
															+    )
														
 
															+    
														
 
															+    parser.add_argument(
														
 
															+        "--single-step",
														
 
															+        type=int,
														
 
															+        choices=[1, 2, 3, 4],
														
 
															+        help="单步执行时指定步骤号（1=DDL生成，2=Q&A生成，3=SQL验证，4=训练数据加载）"
														
 
															+    )
														
 
															+    
														
 
															+    return parser
														
 
															+```
														
 
															+
														
 
															+### 2. SchemaWorkflowOrchestrator 类修改
														
 
															+
														
 
															+```python
														
 
															+class SchemaWorkflowOrchestrator:
														
 
															+    """端到端的Schema处理编排器 - 完整工作流程"""
														
 
															+    
														
 
															+    def __init__(self, 
														
 
															+                 db_connection: str,
														
 
															+                 table_list_file: str, 
														
 
															+                 business_context: str,
														
 
															+                 output_dir: str = None,
														
 
															+                 enable_sql_validation: bool = True,
														
 
															+                 enable_llm_repair: bool = True,
														
 
															+                 modify_original_file: bool = True,
														
 
															+                 enable_training_data_load: bool = True,
														
 
															+                 # 新增参数
														
 
															+                 task_id: str = None,
														
 
															+                 db_logger: 'DatabaseProgressLogger' = None,
														
 
															+                 execution_mode: str = 'complete',
														
 
															+                 single_step: int = None):
														
 
															+        """
														
 
															+        初始化Schema工作流编排器
														
 
															+        
														
 
															+        Args:
														
 
															+            # ... 现有参数 ...
														
 
															+            task_id: 任务ID（可选）
														
 
															+            db_logger: 数据库进度记录器（可选）
														
 
															+            execution_mode: 执行模式 ('complete' 或 'single')
														
 
															+            single_step: 单步执行时的步骤号 (1-4)
														
 
															+        """
														
 
															+        # ... 现有初始化代码 ...
														
 
															+        
														
 
															+        # 新增属性
														
 
															+        self.task_id = task_id
														
 
															+        self.db_logger = db_logger
														
 
															+        self.execution_mode = execution_mode
														
 
															+        self.single_step = single_step
														
 
															+        
														
 
															+        # 如果提供了task_id但没有db_logger，尝试创建一个
														
 
															+        if self.task_id and not self.db_logger:
														
 
															+            try:
														
 
															+                self.db_logger = self._create_db_logger()
														
 
															+            except Exception as e:
														
 
															+                self.logger.warning(f"无法创建数据库记录器: {e}")
														
 
															+    
														
 
															+    def _create_db_logger(self):
														
 
															+        """创建数据库进度记录器"""
														
 
															+        from data_pipeline.api.database_logger import DatabaseProgressLogger
														
 
															+        return DatabaseProgressLogger(self.task_id, self.db_connection)
														
 
															+    
														
 
															+    def _should_execute_step(self, step_number: int) -> bool:
														
 
															+        """判断是否应该执行指定步骤"""
														
 
															+        if self.execution_mode == 'complete':
														
 
															+            # 完整模式：执行所有步骤
														
 
															+            return True
														
 
															+        elif self.execution_mode == 'single':
														
 
															+            # 单步模式：只执行指定的步骤
														
 
															+            return step_number == self.single_step
														
 
															+        else:
														
 
															+            return False
														
 
															+    
														
 
															+    async def execute_complete_workflow(self) -> Dict[str, Any]:
														
 
															+        """执行完整的Schema处理工作流程"""
														
 
															+        self.workflow_state["start_time"] = time.time()
														
 
															+        
														
 
															+        # 更新数据库状态为running
														
 
															+        if self.db_logger:
														
 
															+            self.db_logger.update_task_status('running')
														
 
															+            self.db_logger.add_log('INFO', f'开始执行Schema工作流编排', 'workflow_start')
														
 
															+        
														
 
															+        self.logger.info("🚀 开始执行Schema工作流编排")
														
 
															+        # ... 现有日志 ...
														
 
															+        
														
 
															+        try:
														
 
															+            # 步骤1: 生成DDL和MD文件
														
 
															+            if self._should_execute_step(1):
														
 
															+                await self._execute_step_1_ddl_md_generation()
														
 
															+            
														
 
															+            # 步骤2: 生成Question-SQL对
														
 
															+            if self._should_execute_step(2):
														
 
															+                await self._execute_step_2_question_sql_generation()
														
 
															+            
														
 
															+            # 步骤3: 验证和修正SQL
														
 
															+            if self._should_execute_step(3):
														
 
															+                await self._execute_step_3_sql_validation()
														
 
															+            
														
 
															+            # 步骤4: 训练数据加载
														
 
															+            if self._should_execute_step(4):
														
 
															+                await self._execute_step_4_training_data_load()
														
 
															+            
														
 
															+            # 设置结束时间
														
 
															+            self.workflow_state["end_time"] = time.time()
														
 
															+            
														
 
															+            # 生成最终报告
														
 
															+            final_report = await self._generate_final_report()
														
 
															+            
														
 
															+            # 更新数据库状态为completed
														
 
															+            if self.db_logger:
														
 
															+                self.db_logger.update_task_status('completed', result=final_report)
														
 
															+                self.db_logger.add_log('INFO', '工作流执行完成', 'workflow_complete')
														
 
															+            
														
 
															+            self.logger.info("✅ Schema工作流编排完成")
														
 
															+            return final_report
														
 
															+            
														
 
															+        except Exception as e:
														
 
															+            self.workflow_state["end_time"] = time.time()
														
 
															+            
														
 
															+            # 更新数据库状态为failed
														
 
															+            if self.db_logger:
														
 
															+                self.db_logger.update_task_status('failed', error_message=str(e))
														
 
															+                self.db_logger.add_log('ERROR', f'工作流执行失败: {str(e)}', 'workflow_error')
														
 
															+            
														
 
															+            self.logger.exception(f"❌ 工作流程执行失败: {str(e)}")
														
 
															+            error_report = await self._generate_error_report(e)
														
 
															+            return error_report
														
 
															+    
														
 
															+    async def _execute_step_1_ddl_md_generation(self):
														
 
															+        """步骤1: 生成DDL和MD文件"""
														
 
															+        self.workflow_state["current_step"] = "ddl_md_generation"
														
 
															+        
														
 
															+        # 更新数据库进度
														
 
															+        if self.db_logger:
														
 
															+            self.db_logger.update_progress(10, 'ddl_md_generation')
														
 
															+            self.db_logger.add_log('INFO', 'DDL/MD生成开始', 'ddl_md_generation')
														
 
															+        
														
 
															+        # ... 现有执行代码 ...
														
 
															+        
														
 
															+        try:
														
 
															+            # ... DDL/MD生成逻辑 ...
														
 
															+            
														
 
															+            # 更新进度
														
 
															+            if self.db_logger:
														
 
															+                self.db_logger.update_progress(40, 'ddl_md_generation')
														
 
															+                self.db_logger.add_log('INFO', f'DDL/MD生成完成: 成功处理 {processed_tables} 个表', 'ddl_md_generation')
														
 
															+            
														
 
															+        except Exception as e:
														
 
															+            if self.db_logger:
														
 
															+                self.db_logger.add_log('ERROR', f'DDL/MD生成失败: {str(e)}', 'ddl_md_generation')
														
 
															+            raise
														
 
															+    
														
 
															+    # 类似地修改其他步骤方法...
														
 
															+```
														
 
															+
														
 
															+### 3. 数据库进度记录器
														
 
															+
														
 
															+```python
														
 
															+# data_pipeline/api/database_logger.py
														
 
															+class DatabaseProgressLogger:
														
 
															+    """数据库进度记录器"""
														
 
															+    
														
 
															+    def __init__(self, task_id: str, db_connection_string: str):
														
 
															+        self.task_id = task_id
														
 
															+        self.task_manager = DataPipelineTaskManager(db_connection_string)
														
 
															+        self.logger = get_data_pipeline_logger("DatabaseLogger")
														
 
															+    
														
 
															+    def update_task_status(self, status: str, current_step: str = None, 
														
 
															+                          error_message: str = None, result: dict = None):
														
 
															+        """更新任务状态"""
														
 
															+        try:
														
 
															+            success = self.task_manager.update_task_status(
														
 
															+                self.task_id, status, current_step, error_message
														
 
															+            )
														
 
															+            if result and status == 'completed':
														
 
															+                self.task_manager.update_task_result(self.task_id, result)
														
 
															+            return success
														
 
															+        except Exception as e:
														
 
															+            self.logger.warning(f"更新任务状态失败: {e}")
														
 
															+            return False
														
 
															+    
														
 
															+    def update_progress(self, progress: int, current_step: str = None):
														
 
															+        """更新任务进度"""
														
 
															+        try:
														
 
															+            return self.task_manager.update_task_progress(
														
 
															+                self.task_id, progress, current_step
														
 
															+            )
														
 
															+        except Exception as e:
														
 
															+            self.logger.warning(f"更新任务进度失败: {e}")
														
 
															+            return False
														
 
															+    
														
 
															+    def add_log(self, level: str, message: str, step_name: str = None, 
														
 
															+               extra_data: dict = None):
														
 
															+        """添加任务日志"""
														
 
															+        try:
														
 
															+            return self.task_manager.add_task_log(
														
 
															+                self.task_id, level, message, step_name, extra_data
														
 
															+            )
														
 
															+        except Exception as e:
														
 
															+            self.logger.warning(f"添加任务日志失败: {e}")
														
 
															+            return False
														
 
															+```
														
 
															+
														
 
															+## 日志系统集成设计
														
 
															+
														
 
															+### 1. 日志路径管理
														
 
															+
														
 
															+修改 `core/logging/log_manager.py` 以支持任务特定的日志目录：
														
 
															+
														
 
															+```python
														
 
															+def _create_file_handler(self, file_config: dict, module: str) -> logging.Handler:
														
 
															+    """创建文件处理器"""
														
 
															+    
														
 
															+    # 对于data_pipeline模块，检查是否有任务特定的日志目录
														
 
															+    if module == 'data_pipeline' and 'DATA_PIPELINE_LOG_DIR' in os.environ:
														
 
															+        log_file = Path(os.environ['DATA_PIPELINE_LOG_DIR']) / 'data_pipeline.log'
														
 
															+        # 禁用轮转，因为每个任务的日志是独立的
														
 
															+        file_config = file_config.copy()
														
 
															+        file_config['enable_rotation'] = False
														
 
															+    else:
														
 
															+        log_file = self.base_log_dir / file_config.get('filename', f'{module}.log')
														
 
															+    
														
 
															+    # 确保日志目录存在
														
 
															+    log_file.parent.mkdir(parents=True, exist_ok=True)
														
 
															+    
														
 
															+    # ... 其余代码保持不变 ...
														
 
															+```
														
 
															+
														
 
															+### 2. 任务日志初始化
														
 
															+
														
 
															+在 `schema_workflow.py` 的 `main()` 函数中：
														
 
															+
														
 
															+```python
														
 
															+async def main():
														
 
															+    """命令行入口点"""
														
 
															+    parser = setup_argument_parser()
														
 
															+    args = parser.parse_args()
														
 
															+    
														
 
															+    # 初始化变量
														
 
															+    task_id = None
														
 
															+    db_logger = None
														
 
															+    
														
 
															+    # 如果不禁用数据库追踪
														
 
															+    if not args.no_db_tracking:
														
 
															+        # 如果没有task_id，自动生成
														
 
															+        if not args.task_id:
														
 
															+            from datetime import datetime
														
 
															+            args.task_id = f"manual_{datetime.now().strftime('%Y%m%d_%H%M%S')}"
														
 
															+            logger.info(f"📝 自动生成任务ID: {args.task_id}")
														
 
															+        
														
 
															+        task_id = args.task_id
														
 
															+        
														
 
															+        # 确定任务目录
														
 
															+        if task_id.startswith('task_'):
														
 
															+            # API调用的任务，输出目录已经是任务特定的
														
 
															+            task_dir = args.output_dir
														
 
															+        else:
														
 
															+            # 手动执行的任务，创建任务特定目录
														
 
															+            task_dir = os.path.join(args.output_dir, task_id)
														
 
															+            os.makedirs(task_dir, exist_ok=True)
														
 
															+            args.output_dir = task_dir
														
 
															+        
														
 
															+        # 设置环境变量，让日志系统知道当前的任务目录
														
 
															+        os.environ['DATA_PIPELINE_LOG_DIR'] = task_dir
														
 
															+        
														
 
															+        # 重新初始化日志系统
														
 
															+        from core.logging import initialize_logging
														
 
															+        initialize_logging()
														
 
															+        
														
 
															+        try:
														
 
															+            # 创建任务记录（如果是手动执行）
														
 
															+            if task_id.startswith('manual_'):
														
 
															+                task_manager = DataPipelineTaskManager(args.db_connection)
														
 
															+                task_manager.create_task(
														
 
															+                    task_id=task_id,
														
 
															+                    task_type='complete_workflow',
														
 
															+                    parameters={
														
 
															+                        'db_connection': args.db_connection,
														
 
															+                        'table_list': args.table_list,
														
 
															+                        'business_context': args.business_context,
														
 
															+                        'output_dir': args.output_dir,
														
 
															+                        # ... 其他参数
														
 
															+                    },
														
 
															+                    created_by='manual'
														
 
															+                )
														
 
															+            
														
 
															+            # 初始化数据库记录器
														
 
															+            db_logger = DatabaseProgressLogger(task_id, args.db_connection)
														
 
															+            logger.info(f"✅ 已启用数据库任务追踪: {task_id}")
														
 
															+            
														
 
															+        except Exception as e:
														
 
															+            logger.warning(f"⚠️ 无法初始化任务追踪: {e}")
														
 
															+            db_logger = None
														
 
															+    else:
														
 
															+        logger.info("ℹ️ 已禁用数据库任务追踪")
														
 
															+    
														
 
															+    # 参数验证：单步模式必须提供步骤号
														
 
															+    if args.execution_mode == 'single' and not args.single_step:
														
 
															+        logger.error("单步模式下必须提供 --single-step 参数")
														
 
															+        sys.exit(1)
														
 
															+    
														
 
															+    # 创建编排器，传入新参数
														
 
															+    orchestrator = SchemaWorkflowOrchestrator(
														
 
															+        db_connection=args.db_connection,
														
 
															+        table_list_file=args.table_list,
														
 
															+        business_context=args.business_context,
														
 
															+        output_dir=args.output_dir,
														
 
															+        enable_sql_validation=not args.skip_validation,
														
 
															+        enable_llm_repair=not args.disable_llm_repair,
														
 
															+        modify_original_file=not args.no_modify_file,
														
 
															+        enable_training_data_load=not args.skip_training_load,
														
 
															+        task_id=task_id,
														
 
															+        db_logger=db_logger,
														
 
															+        execution_mode=args.execution_mode,
														
 
															+        single_step=args.single_step
														
 
															+    )
														
 
															+    
														
 
															+    # 执行工作流
														
 
															+    report = await orchestrator.execute_complete_workflow()
														
 
															+    
														
 
															+    # ... 其余代码保持不变 ...
														
 
															+```
														
 
															+
														
 
															+## 错误处理和监控
														
 
															+
														
 
															+### 1. 僵尸任务检测
														
 
															+
														
 
															+```python
														
 
															+# data_pipeline/api/task_monitor.py
														
 
															+class TaskMonitor:
														
 
															+    """任务监控器"""
														
 
															+    
														
 
															+    def __init__(self, db_connection_string: str):
														
 
															+        self.task_manager = DataPipelineTaskManager(db_connection_string)
														
 
															+        self.logger = get_data_pipeline_logger("TaskMonitor")
														
 
															+    
														
 
															+    def check_zombie_tasks(self, timeout_hours: int = 2):
														
 
															+        """检查僵尸任务"""
														
 
															+        try:
														
 
															+            cutoff_time = datetime.now() - timedelta(hours=timeout_hours)
														
 
															+            
														
 
															+            # 查找超时的运行中任务
														
 
															+            zombie_tasks = self.task_manager.get_zombie_tasks(cutoff_time)
														
 
															+            
														
 
															+            for task in zombie_tasks:
														
 
															+                task_id = task['id']
														
 
															+                self.logger.warning(f"发现僵尸任务: {task_id}")
														
 
															+                
														
 
															+                # 标记为失败
														
 
															+                self.task_manager.update_task_status(
														
 
															+                    task_id, 
														
 
															+                    'failed', 
														
 
															+                    error_message=f"任务超时（超过{timeout_hours}小时），可能已停止运行"
														
 
															+                )
														
 
															+                
														
 
															+                # 记录日志
														
 
															+                self.task_manager.add_task_log(
														
 
															+                    task_id, 
														
 
															+                    'ERROR', 
														
 
															+                    f"任务被标记为僵尸任务，执行时间超过{timeout_hours}小时", 
														
 
															+                    'system_check'
														
 
															+                )
														
 
															+        
														
 
															+        except Exception as e:
														
 
															+            self.logger.error(f"检查僵尸任务失败: {e}")
														
 
															+
														
 
															+# 在citu_app.py中添加定期检查
														
 
															+import threading
														
 
															+import time
														
 
															+
														
 
															+def start_task_monitor():
														
 
															+    """启动任务监控器"""
														
 
															+    def monitor_loop():
														
 
															+        monitor = TaskMonitor(app_config.PGVECTOR_CONFIG)
														
 
															+        while True:
														
 
															+            try:
														
 
															+                monitor.check_zombie_tasks()
														
 
															+                time.sleep(300)  # 每5分钟检查一次
														
 
															+            except Exception as e:
														
 
															+                logger.error(f"任务监控异常: {e}")
														
 
															+                time.sleep(60)  # 出错时等待1分钟再重试
														
 
															+    
														
 
															+    monitor_thread = threading.Thread(target=monitor_loop, daemon=True)
														
 
															+    monitor_thread.start()
														
 
															+    logger.info("任务监控器已启动")
														
 
															+
														
 
															+# 在应用启动时调用
														
 
															+if __name__ == '__main__':
														
 
															+    start_task_monitor()
														
 
															+    app.run()
														
 
															+```
														
 
															+
														
 
															+### 2. 文件输出管理
														
 
															+
														
 
															+```python
														
 
															+# data_pipeline/api/file_manager.py
														
 
															+class TaskFileManager:
														
 
															+    """任务文件管理器"""
														
 
															+    
														
 
															+    def __init__(self, task_id: str, output_dir: str, db_connection_string: str):
														
 
															+        self.task_id = task_id
														
 
															+        self.output_dir = Path(output_dir)
														
 
															+        self.task_manager = DataPipelineTaskManager(db_connection_string)
														
 
															+        self.logger = get_data_pipeline_logger("FileManager")
														
 
															+    
														
 
															+    def scan_and_register_files(self):
														
 
															+        """扫描并注册输出文件"""
														
 
															+        try:
														
 
															+            if not self.output_dir.exists():
														
 
															+                return
														
 
															+            
														
 
															+            # 文件类型映射
														
 
															+            file_type_mapping = {
														
 
															+                '.ddl': 'ddl',
														
 
															+                '.md': 'md', 
														
 
															+                '.json': 'json',
														
 
															+                '.log': 'log',
														
 
															+                '.txt': 'txt'
														
 
															+            }
														
 
															+            
														
 
															+            for file_path in self.output_dir.iterdir():
														
 
															+                if file_path.is_file():
														
 
															+                    file_ext = file_path.suffix.lower()
														
 
															+                    file_type = file_type_mapping.get(file_ext, 'other')
														
 
															+                    file_size = file_path.stat().st_size
														
 
															+                    
														
 
															+                    # 判断是否为主要输出文件
														
 
															+                    is_primary = (
														
 
															+                        file_path.name.endswith('_pair.json') or
														
 
															+                        file_path.name == 'metadata.txt' or
														
 
															+                        file_path.name.endswith('_summary.log')
														
 
															+                    )
														
 
															+                    
														
 
															+                    # 注册文件
														
 
															+                    self.task_manager.register_output_file(
														
 
															+                        task_id=self.task_id,
														
 
															+                        file_type=file_type,
														
 
															+                        file_name=file_path.name,
														
 
															+                        file_path=str(file_path.relative_to(self.output_dir)),
														
 
															+                        file_size=file_size,
														
 
															+                        is_primary=is_primary
														
 
															+                    )
														
 
															+        
														
 
															+        except Exception as e:
														
 
															+            self.logger.error(f"扫描文件失败: {e}")
														
 
															+    
														
 
															+    def cleanup_task_files(self):
														
 
															+        """清理任务文件"""
														
 
															+        try:
														
 
															+            if self.output_dir.exists():
														
 
															+                shutil.rmtree(self.output_dir)
														
 
															+                self.logger.info(f"已清理任务文件: {self.output_dir}")
														
 
															+        except Exception as e:
														
 
															+            self.logger.error(f"清理任务文件失败: {e}")
														
 
															+```
														
 
															+
														
 
															+## 部署和初始化
														
 
															+
														
 
															+### 1. 数据库初始化脚本
														
 
															+
														
 
															+```sql
														
 
															+-- data_pipeline/sql/init_tables.sql
														
 
															+
														
 
															+-- 创建任务表
														
 
															+CREATE TABLE IF NOT EXISTS data_pipeline_tasks (
														
 
															+    id VARCHAR(32) PRIMARY KEY,
														
 
															+    task_type VARCHAR(50) NOT NULL DEFAULT 'complete_workflow',
														
 
															+    status VARCHAR(20) NOT NULL DEFAULT 'pending',
														
 
															+    parameters JSONB NOT NULL,
														
 
															+    result JSONB,
														
 
															+    error_message TEXT,
														
 
															+    error_step VARCHAR(100),
														
 
															+    progress INTEGER DEFAULT 0 CHECK (progress >= 0 AND progress <= 100),
														
 
															+    current_step VARCHAR(100),
														
 
															+    created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
														
 
															+    started_at TIMESTAMP,
														
 
															+    completed_at TIMESTAMP,
														
 
															+    created_by VARCHAR(50) DEFAULT 'api',
														
 
															+    step_stats JSONB DEFAULT '{}',
														
 
															+    output_directory TEXT,
														
 
															+    db_name VARCHAR(100),
														
 
															+    business_context TEXT
														
 
															+);
														
 
															+
														
 
															+-- 创建日志表
														
 
															+CREATE TABLE IF NOT EXISTS data_pipeline_task_logs (
														
 
															+    id SERIAL PRIMARY KEY,
														
 
															+    task_id VARCHAR(32) REFERENCES data_pipeline_tasks(id) ON DELETE CASCADE,
														
 
															+    log_level VARCHAR(10) NOT NULL,
														
 
															+    message TEXT NOT NULL,
														
 
															+    step_name VARCHAR(100),
														
 
															+    module_name VARCHAR(100),
														
 
															+    function_name VARCHAR(100),
														
 
															+    timestamp TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
														
 
															+    extra_data JSONB DEFAULT '{}'
														
 
															+);
														
 
															+
														
 
															+-- 创建输出文件表
														
 
															+CREATE TABLE IF NOT EXISTS data_pipeline_task_outputs (
														
 
															+    id SERIAL PRIMARY KEY,
														
 
															+    task_id VARCHAR(32) REFERENCES data_pipeline_tasks(id) ON DELETE CASCADE,
														
 
															+    file_type VARCHAR(50) NOT NULL,
														
 
															+    file_name VARCHAR(255) NOT NULL,
														
 
															+    file_path TEXT NOT NULL,
														
 
															+    file_size BIGINT DEFAULT 0,
														
 
															+    content_hash VARCHAR(64),
														
 
															+    description TEXT,
														
 
															+    created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
														
 
															+    modified_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
														
 
															+    is_primary BOOLEAN DEFAULT FALSE,
														
 
															+    is_downloadable BOOLEAN DEFAULT TRUE
														
 
															+);
														
 
															+
														
 
															+-- 创建索引
														
 
															+CREATE INDEX IF NOT EXISTS idx_tasks_status ON data_pipeline_tasks(status);
														
 
															+CREATE INDEX IF NOT EXISTS idx_tasks_created_at ON data_pipeline_tasks(created_at DESC);
														
 
															+CREATE INDEX IF NOT EXISTS idx_tasks_db_name ON data_pipeline_tasks(db_name);
														
 
															+CREATE INDEX IF NOT EXISTS idx_tasks_created_by ON data_pipeline_tasks(created_by);
														
 
															+
														
 
															+CREATE INDEX IF NOT EXISTS idx_logs_task_id ON data_pipeline_task_logs(task_id);
														
 
															+CREATE INDEX IF NOT EXISTS idx_logs_timestamp ON data_pipeline_task_logs(timestamp DESC);
														
 
															+CREATE INDEX IF NOT EXISTS idx_logs_level ON data_pipeline_task_logs(log_level);
														
 
															+CREATE INDEX IF NOT EXISTS idx_logs_step ON data_pipeline_task_logs(step_name);
														
 
															+
														
 
															+CREATE INDEX IF NOT EXISTS idx_outputs_task_id ON data_pipeline_task_outputs(task_id);
														
 
															+CREATE INDEX IF NOT EXISTS idx_outputs_file_type ON data_pipeline_task_outputs(file_type);
														
 
															+CREATE INDEX IF NOT EXISTS idx_outputs_primary ON data_pipeline_task_outputs(is_primary) WHERE is_primary = TRUE;
														
 
															+
														
 
															+-- 创建清理函数
														
 
															+CREATE OR REPLACE FUNCTION cleanup_old_data_pipeline_tasks(days_to_keep INTEGER DEFAULT 30)
														
 
															+RETURNS INTEGER AS $$
														
 
															+DECLARE
														
 
															+    deleted_count INTEGER;
														
 
															+    cutoff_date TIMESTAMP;
														
 
															+BEGIN
														
 
															+    cutoff_date := NOW() - INTERVAL '1 day' * days_to_keep;
														
 
															+    
														
 
															+    -- 删除旧任务（级联删除相关日志和文件记录）
														
 
															+    DELETE FROM data_pipeline_tasks 
														
 
															+    WHERE created_at < cutoff_date 
														
 
															+    AND status IN ('completed', 'failed');
														
 
															+    
														
 
															+    GET DIAGNOSTICS deleted_count = ROW_COUNT;
														
 
															+    
														
 
															+    RETURN deleted_count;
														
 
															+END;
														
 
															+$$ LANGUAGE plpgsql;
														
 
															+```
														
 
															+
														
 
															+### 2. 配置文件更新
														
 
															+
														
 
															+需要在 `app_config.py` 中添加Data Pipeline相关配置：
														
 
															+
														
 
															+```python
														
 
															+# Data Pipeline API配置
														
 
															+DATA_PIPELINE_CONFIG = {
														
 
															+    "max_concurrent_tasks": 1,           # 最大并发任务数
														
 
															+    "task_timeout_hours": 2,             # 任务超时时间（小时）
														
 
															+    "log_retention_days": 30,            # 日志保留天数
														
 
															+    "file_retention_days": 30,           # 文件保留天数
														
 
															+    "monitor_interval_seconds": 300,     # 监控检查间隔（秒）
														
 
															+    "enable_file_download": True,        # 是否允许文件下载
														
 
															+    "max_download_file_size": 100 * 1024 * 1024,  # 最大下载文件大小（字节）
														
 
															+}
														
 
															+```
														
 
															+
														
 
															+## 总结
														
 
															+
														
 
															+本详细设计文档提供了Data Pipeline API系统的完整技术实现方案：
														
 
															+
														
 
															+### 主要特点
														
 
															+
														
 
															+1. **API与执行分离**：使用subprocess实现真正的后台执行，API不阻塞
														
 
															+2. **数据库驱动的状态管理**：所有任务状态、进度、日志都记录在PostgreSQL中
														
 
															+3. **灵活的步骤控制**：支持从指定步骤开始、结束，以及跳过特定步骤
														
 
															+4. **统一的日志管理**：每个任务的日志都写入独立的任务目录
														
 
															+5. **完整的文件管理**：自动扫描、注册和管理任务输出文件
														
 
															+6. **健壮的错误处理**：包括僵尸任务检测、超时处理等
														
 
															+
														
 
															+### 实现要点
														
 
															+
														
 
															+1. **最小化代码修改**：主要修改集中在 `schema_workflow.py` 和 `citu_app.py`
														
 
															+2. **向后兼容**：手动执行方式仍然完全支持
														
 
															+3. **扩展性好**：易于添加新的任务类型和执行步骤
														
 
															+4. **监控友好**：提供完整的任务监控和清理机制
														
 
															+
														
 
															+### 关键文件
														
 
															+
														
 
															+1. `citu_app.py` - 添加API路由实现
														
 
															+2. `data_pipeline/schema_workflow.py` - 修改以支持API集成
														
 
															+3. `data_pipeline/api/database_manager.py` - 数据库操作封装（新建）
														
 
															+4. `data_pipeline/api/database_logger.py` - 进度记录器（新建）
														
 
															+5. `data_pipeline/sql/init_tables.sql` - 数据库初始化脚本（新建）
														
 
															+
														
 
															+这个设计充分考虑了现有代码结构，提供了完整的API功能，同时保持了系统的简洁性和可维护性。
														
--- a/docs/data_pipeline_api_usage_guide.md
+++ b/docs/data_pipeline_api_usage_guide.md
@@ -0,0 +1,637 @@
 
															+# Data Pipeline API 使用指南
														
 
															+
														
 
															+## 概述
														
 
															+
														
 
															+Data Pipeline API 是一个简化的数据管道调度和管理系统，支持通过 REST API 调度执行数据管道任务，提供任务管理、进度监控、双日志系统和文件管理等功能。
														
 
															+
														
 
															+## 系统架构
														
 
															+
														
 
															+### 核心组件
														
 
															+
														
 
															+1. **简化任务管理器** (`SimpleTaskManager`) - 管理任务生命周期和数据库操作
														
 
															+2. **简化工作流执行器** (`SimpleWorkflowExecutor`) - 执行具体的数据管道任务
														
 
															+3. **任务执行器** (`task_executor.py`) - 独立进程执行任务
														
 
															+4. **文件管理器** (`SimpleFileManager`) - 管理任务输出文件和下载
														
 
															+5. **双日志系统** - 数据库日志 + 任务目录详细日志
														
 
															+
														
 
															+### 数据库结构
														
 
															+
														
 
															+系统使用 4 个主要数据库表（部署在 pgvector 数据库中）：
														
 
															+
														
 
															+- `data_pipeline_tasks` - 任务主表
														
 
															+- `data_pipeline_task_executions` - 任务执行记录表
														
 
															+- `data_pipeline_task_logs` - 任务日志表
														
 
															+- `data_pipeline_task_outputs` - 任务输出文件表
														
 
															+
														
 
															+### 执行架构
														
 
															+
														
 
															+```
														
 
															+API请求 → citu_app.py → subprocess → task_executor.py → SimpleWorkflowExecutor → SchemaWorkflowOrchestrator
														
 
															+```
														
 
															+
														
 
															+- **进程隔离**：使用 subprocess 启动独立进程执行任务
														
 
															+- **双日志记录**：数据库结构化日志 + 任务目录详细文件日志
														
 
															+- **任务目录管理**：每个任务在 `./data_pipeline/training_data/{task_id}/` 目录中独立存储
														
 
															+
														
 
															+## 部署说明
														
 
															+
														
 
															+### 1. 数据库初始化
														
 
															+
														
 
															+首先运行 SQL 初始化脚本创建必要的数据库表：
														
 
															+
														
 
															+```bash
														
 
															+psql -h host -p port -U username -d database_name -f data_pipeline/sql/init_tables.sql
														
 
															+```
														
 
															+
														
 
															+### 2. 启动应用
														
 
															+
														
 
															+启动 Flask 应用（包含 Data Pipeline API）：
														
 
															+
														
 
															+```bash
														
 
															+python citu_app.py
														
 
															+```
														
 
															+
														
 
															+应用将在 `http://localhost:8084` 启动，Data Pipeline API 端点前缀为 `/api/v0/data_pipeline/`。
														
 
															+
														
 
															+## API 使用指南
														
 
															+
														
 
															+### 基础任务管理
														
 
															+
														
 
															+#### 1. 创建任务
														
 
															+
														
 
															+```bash
														
 
															+curl -X POST http://localhost:8084/api/v0/data_pipeline/tasks \\
														
 
															+  -H "Content-Type: application/json" \\
														
 
															+  -d '{
														
 
															+    "table_list_file": "tables.txt",
														
 
															+    "business_context": "高速公路服务区管理系统",
														
 
															+    "db_name": "highway_db",
														
 
															+    "enable_sql_validation": true,
														
 
															+    "enable_llm_repair": true,
														
 
															+    "modify_original_file": true,
														
 
															+    "enable_training_data_load": true
														
 
															+  }'
														
 
															+```
														
 
															+
														
 
															+响应示例：
														
 
															+```json
														
 
															+{
														
 
															+  "success": true,
														
 
															+  "code": 201,
														
 
															+  "message": "任务创建成功",
														
 
															+  "data": {
														
 
															+    "task_id": "task_20250627_143052",
														
 
															+    "status": "pending",
														
 
															+    "created_at": "2025-06-27T14:30:52"
														
 
															+  }
														
 
															+}
														
 
															+```
														
 
															+
														
 
															+#### 2. 执行任务
														
 
															+
														
 
															+**完整工作流执行：**
														
 
															+```bash
														
 
															+curl -X POST http://localhost:8084/api/v0/data_pipeline/tasks/task_20250627_143052/execute \\
														
 
															+  -H "Content-Type: application/json" \\
														
 
															+  -d '{
														
 
															+    "execution_mode": "complete",
														
 
															+    "force_execution": false,
														
 
															+    "clean_existing_files": true
														
 
															+  }'
														
 
															+```
														
 
															+
														
 
															+**单步执行：**
														
 
															+```bash
														
 
															+curl -X POST http://localhost:8084/api/v0/data_pipeline/tasks/task_20250627_143052/execute \\
														
 
															+  -H "Content-Type: application/json" \\
														
 
															+  -d '{
														
 
															+    "execution_mode": "step", 
														
 
															+    "step_name": "ddl_generation"
														
 
															+  }'
														
 
															+```
														
 
															+
														
 
															+**可用的步骤名称：**
														
 
															+- `ddl_generation` - DDL生成和MD文档生成
														
 
															+- `qa_generation` - Q&A问答对生成
														
 
															+- `sql_validation` - SQL验证和修复
														
 
															+- `training_load` - 训练数据加载到Vanna
														
 
															+
														
 
															+响应示例：
														
 
															+```json
														
 
															+{
														
 
															+  "success": true,
														
 
															+  "code": 202,
														
 
															+  "message": "任务执行已启动",
														
 
															+  "data": {
														
 
															+    "task_id": "task_20250627_143052",
														
 
															+    "execution_mode": "step",
														
 
															+    "step_name": "ddl_generation",
														
 
															+    "status": "running"
														
 
															+  }
														
 
															+}
														
 
															+
														
 
															+#### 3. 查询任务状态
														
 
															+
														
 
															+```bash
														
 
															+curl -X GET http://localhost:8084/api/v0/data_pipeline/tasks/task_20250627_143052
														
 
															+```
														
 
															+
														
 
															+响应示例：
														
 
															+```json
														
 
															+{
														
 
															+  "success": true,
														
 
															+  "data": {
														
 
															+    "task_id": "task_20250627_143052",
														
 
															+    "status": "in_progress",
														
 
															+    "step_status": {
														
 
															+      "ddl_generation": "completed",
														
 
															+      "qa_generation": "running",
														
 
															+      "sql_validation": "pending",
														
 
															+      "training_load": "pending"
														
 
															+    },
														
 
															+    "current_execution": {
														
 
															+      "execution_id": "task_20250627_143052_step_qa_generation_exec_20250627_143100",
														
 
															+      "step": "qa_generation",
														
 
															+      "status": "running",
														
 
															+      "started_at": "2025-06-27T14:31:00"
														
 
															+    }
														
 
															+  }
														
 
															+}
														
 
															+```
														
 
															+
														
 
															+#### 4. 获取任务列表
														
 
															+
														
 
															+```bash
														
 
															+curl -X GET "http://localhost:8084/api/v0/data_pipeline/tasks?limit=10&status=completed"
														
 
															+```
														
 
															+
														
 
															+### 日志管理
														
 
															+
														
 
															+#### 查看任务日志（数据库日志）
														
 
															+
														
 
															+```bash
														
 
															+curl -X GET "http://localhost:8084/api/v0/data_pipeline/tasks/task_20250627_143052/logs?limit=50&level=ERROR"
														
 
															+```
														
 
															+
														
 
															+### 文件管理
														
 
															+
														
 
															+#### 1. 获取任务文件列表
														
 
															+
														
 
															+#### 查看任务目录详细日志
														
 
															+
														
 
															+任务执行过程中的详细日志会写入任务目录的 `data_pipeline.log` 文件：
														
 
															+
														
 
															+**文件位置：** `./data_pipeline/training_data/{task_id}/data_pipeline.log`
														
 
															+
														
 
															+**日志内容示例：**
														
 
															+```
														
 
															+2025-07-01 14:30:52 [INFO] TaskDir_task_20250701_143052: 任务目录日志初始化完成 - 任务ID: task_20250701_143052
														
 
															+2025-07-01 14:30:53 [INFO] TaskDir_task_20250701_143052: [complete] 开始执行步骤: complete
														
 
															+2025-07-01 14:30:53 [INFO] DataPipelineOrchestrator: 开始执行完整工作流
														
 
															+2025-07-01 14:30:54 [INFO] DDLMDGenerator: 开始处理表: bss_business_day_data
														
 
															+```
														
 
															+
														
 
															+### 文件管理
														
 
															+
														
 
															+#### 1. 获取输出文件列表
														
 
															+
														
 
															+```bash
														
 
															+curl -X GET http://localhost:8084/api/v0/data_pipeline/tasks/task_20250627_143052/files
														
 
															+```
														
 
															+
														
 
															+#### 2. 下载任务文件
														
 
															+
														
 
															+```bash
														
 
															+curl -X GET http://localhost:8084/api/v0/data_pipeline/tasks/task_20250627_143052/files/qs_highway_db_20250627_143052_pair.json \\
														
 
															+  -o downloaded_file.json
														
 
															+```
														
 
															+
														
 
															+#### 3. 创建任务压缩包
														
 
															+
														
 
															+```bash
														
 
															+curl -X POST http://localhost:8084/api/v0/data_pipeline/tasks/task_20250627_143052/files/archive \\
														
 
															+  -H "Content-Type: application/json" \\
														
 
															+  -d '{"archive_format": "zip"}'
														
 
															+```
														
 
															+
														
 
															+#### 4. 验证文件完整性
														
 
															+
														
 
															+```bash
														
 
															+curl -X GET http://localhost:8084/api/v0/data_pipeline/tasks/task_20250627_143052/files/integrity
														
 
															+```
														
 
															+
														
 
															+#### 5. 清理旧文件
														
 
															+
														
 
															+```bash
														
 
															+curl -X POST http://localhost:8084/api/v0/data_pipeline/files/cleanup \\
														
 
															+  -H "Content-Type: application/json" \\
														
 
															+  -d '{"days_to_keep": 30}'
														
 
															+```
														
 
															+
														
 
															+### 监控功能
														
 
															+
														
 
															+#### 1. 获取系统状态
														
 
															+
														
 
															+```bash
														
 
															+curl -X GET http://localhost:8084/api/v0/data_pipeline/monitor/status
														
 
															+```
														
 
															+
														
 
															+响应包含：
														
 
															+- 系统性能指标（CPU、内存、磁盘使用率）
														
 
															+- 任务统计信息
														
 
															+- 磁盘使用情况
														
 
															+- 异常检测结果
														
 
															+- 系统健康状态
														
 
															+
														
 
															+#### 2. 获取任务详细监控
														
 
															+
														
 
															+```bash
														
 
															+curl -X GET http://localhost:8084/api/v0/data_pipeline/monitor/tasks/task_20250627_143052
														
 
															+```
														
 
															+
														
 
															+#### 3. 获取历史性能数据
														
 
															+
														
 
															+```bash
														
 
															+curl -X GET "http://localhost:8084/api/v0/data_pipeline/monitor/metrics/history?minutes=120"
														
 
															+```
														
 
															+
														
 
															+#### 4. 获取异常记录
														
 
															+
														
 
															+```bash
														
 
															+curl -X GET "http://localhost:8084/api/v0/data_pipeline/monitor/anomalies?hours=24"
														
 
															+```
														
 
															+
														
 
															+### 统计信息
														
 
															+
														
 
															+#### 获取整体统计
														
 
															+
														
 
															+```bash
														
 
															+curl -X GET http://localhost:8084/api/v0/data_pipeline/stats
														
 
															+```
														
 
															+
														
 
															+## 工作流说明
														
 
															+
														
 
															+### 完整工作流步骤
														
 
															+
														
 
															+1. **DDL生成** (`ddl_generation`)
														
 
															+   - 连接数据库分析表结构
														
 
															+   - 生成 `.ddl` 文件和 `_detail.md` 文档
														
 
															+   - 生成 `metadata.txt` 和 `filename_mapping.txt`
														
 
															+
														
 
															+2. **Question-SQL生成** (`qa_generation`)
														
 
															+   - 基于DDL和文档生成问答对
														
 
															+   - 输出 `qs_*_pair.json` 文件
														
 
															+
														
 
															+3. **SQL验证** (`sql_validation`) - 可选
														
 
															+   - 验证生成的SQL语句
														
 
															+   - 修复无效SQL（如果启用LLM修复）
														
 
															+   - 生成验证报告
														
 
															+
														
 
															+4. **训练数据加载** (`training_load`) - 可选
														
 
															+   - 将生成的数据加载到 Vanna.ai 训练数据库
														
 
															+
														
 
															+### 任务状态说明
														
 
															+
														
 
															+- `pending` - 任务已创建，等待执行
														
 
															+- `in_progress` - 任务正在执行中
														
 
															+- `partial_completed` - 部分步骤完成
														
 
															+- `completed` - 任务完全完成
														
 
															+- `failed` - 任务执行失败
														
 
															+
														
 
															+### 步骤状态说明
														
 
															+
														
 
															+- `pending` - 步骤等待执行
														
 
															+- `running` - 步骤正在执行
														
 
															+- `completed` - 步骤执行完成
														
 
															+- `failed` - 步骤执行失败
														
 
															+
														
 
															+## 文件组织结构
														
 
															+
														
 
															+每个任务在 `./data_pipeline/training_data/` 下创建独立目录：
														
 
															+
														
 
															+```
														
 
															+./data_pipeline/training_data/
														
 
															+├── task_20250627_143052/                   # 任务ID作为目录名
														
 
															+│   ├── task_config.json                    # 任务配置参数
														
 
															+│   ├── task_result.json                    # 最终执行结果
														
 
															+│   ├── ddl_generation_result.json          # DDL生成步骤结果
														
 
															+│   ├── qa_generation_result.json           # QA生成步骤结果
														
 
															+│   ├── sql_validation_result.json          # SQL验证步骤结果
														
 
															+│   ├── training_load_result.json           # 训练加载步骤结果
														
 
															+│   ├── bss_*.ddl                          # 生成的DDL文件
														
 
															+│   ├── bss_*_detail.md                    # 生成的MD文档
														
 
															+│   ├── qs_*.json                          # Question-SQL对
														
 
															+│   ├── metadata.txt                        # 元数据文件
														
 
															+│   ├── filename_mapping.txt               # 文件映射
														
 
															+│   ├── sql_validation_*_summary.log       # SQL验证摘要
														
 
															+│   └── sql_validation_*_report.json       # SQL验证详细报告
														
 
															+└── task_20250627_150123/
														
 
															+    └── ...
														
 
															+```
														
 
															+
														
 
															+## 错误处理
														
 
															+
														
 
															+### 常见错误和解决方案
														
 
															+
														
 
															+1. **任务创建失败**
														
 
															+   - 检查数据库连接配置
														
 
															+   - 确认表清单文件存在
														
 
															+   - 验证PostgreSQL连接权限
														
 
															+
														
 
															+2. **执行超时**
														
 
															+   - 系统自动检测2小时以上的僵尸任务
														
 
															+   - 可通过监控API查看系统资源使用情况
														
 
															+
														
 
															+3. **文件访问错误**
														
 
															+   - 检查目录权限
														
 
															+   - 确认磁盘空间充足
														
 
															+
														
 
															+4. **依赖检查失败**
														
 
															+   - 按顺序执行步骤：ddl_generation → qa_generation → sql_validation → training_load
														
 
															+   - 或使用 `force_execution: true` 跳过依赖检查
														
 
															+
														
 
															+## 最佳实践
														
 
															+
														
 
															+### 1. 任务管理
														
 
															+- 使用描述性的业务上下文
														
 
															+- 定期清理旧任务文件释放磁盘空间
														
 
															+- 监控长时间运行的任务
														
 
															+
														
 
															+### 2. 性能优化
														
 
															+- 大型数据库建议分批处理表清单
														
 
															+- 监控系统资源使用情况
														
 
															+- 及时处理异常告警
														
 
															+
														
 
															+### 3. 安全考虑
														
 
															+- 不要在日志中记录敏感数据库连接信息
														
 
															+- 定期备份重要的训练数据
														
 
															+- 控制API访问权限
														
 
															+
														
 
															+## 故障排除
														
 
															+
														
 
															+### 查看日志
														
 
															+```bash
														
 
															+# 查看任务错误日志
														
 
															+curl -X GET "http://localhost:8084/api/v0/data_pipeline/tasks/TASK_ID/logs?level=ERROR"
														
 
															+
														
 
															+# 查看系统异常
														
 
															+curl -X GET "http://localhost:8084/api/v0/data_pipeline/monitor/anomalies"
														
 
															+```
														
 
															+
														
 
															+### 检查系统状态
														
 
															+```bash
														
 
															+# 获取完整系统状态
														
 
															+curl -X GET http://localhost:8084/api/v0/data_pipeline/monitor/status
														
 
															+```
														
 
															+
														
 
															+### 手动清理
														
 
															+```bash
														
 
															+# 清理僵尸任务（通过数据库管理器）
														
 
															+# 清理旧文件
														
 
															+curl -X POST http://localhost:8084/api/v0/data_pipeline/files/cleanup \\
														
 
															+  -H "Content-Type: application/json" \\
														
 
															+  -d '{"days_to_keep": 7}'
														
 
															+```
														
 
															+
														
 
															+## 扩展功能
														
 
															+
														
 
															+### 自定义告警
														
 
															+系统支持异常检测和告警，可以通过修改 `TaskAnomalyDetector` 类添加自定义告警逻辑。
														
 
															+
														
 
															+### 性能监控
														
 
															+系统自动收集性能指标，支持查看历史数据和趋势分析。
														
 
															+
														
 
															+### 文件管理
														
 
															+支持文件完整性验证、压缩包创建、批量下载等功能。
														
 
															+
														
 
															+## 完整 API 接口说明
														
 
															+
														
 
															+### 1. 任务管理接口
														
 
															+
														
 
															+#### 创建任务
														
 
															+```bash
														
 
															+POST /api/v0/data_pipeline/tasks
														
 
															+Content-Type: application/json
														
 
															+
														
 
															+{
														
 
															+  "table_list_file": "tables.txt",
														
 
															+  "business_context": "业务描述",
														
 
															+  "db_name": "highway_db",
														
 
															+  "enable_sql_validation": true,
														
 
															+  "enable_llm_repair": true,
														
 
															+  "modify_original_file": true,
														
 
															+  "enable_training_data_load": true
														
 
															+}
														
 
															+```
														
 
															+
														
 
															+**参数说明：**
														
 
															+- `table_list_file` (必填): 表清单文件路径
														
 
															+- `business_context` (必填): 业务上下文描述
														
 
															+- `db_name` (可选): 指定业务数据库名称，如不提供则使用app_config中的默认配置
														
 
															+- 其他参数为可选的功能开关
														
 
															+
														
 
															+**注意：** 数据库连接信息自动从 `app_config.py` 的 `APP_DB_CONFIG` 获取，无需在API请求中提供
														
 
															+
														
 
															+**预期返回：**
														
 
															+```json
														
 
															+{
														
 
															+  "success": true,
														
 
															+  "code": 201,
														
 
															+  "message": "任务创建成功",
														
 
															+  "data": {
														
 
															+    "task_id": "task_20250701_143052",
														
 
															+    "status": "pending",
														
 
															+    "created_at": "2025-07-01T14:30:52"
														
 
															+  }
														
 
															+}
														
 
															+```
														
 
															+
														
 
															+#### 执行任务
														
 
															+```bash
														
 
															+POST /api/v0/data_pipeline/tasks/{task_id}/execute
														
 
															+Content-Type: application/json
														
 
															+
														
 
															+# 完整工作流
														
 
															+{"execution_mode": "complete"}
														
 
															+
														
 
															+# 单步执行
														
 
															+{"execution_mode": "step", "step_name": "ddl_generation"}
														
 
															+```
														
 
															+
														
 
															+**预期返回：**
														
 
															+```json
														
 
															+{
														
 
															+  "success": true,
														
 
															+  "code": 202,
														
 
															+  "message": "任务执行已启动",
														
 
															+  "data": {
														
 
															+    "task_id": "task_20250701_143052",
														
 
															+    "execution_mode": "complete",
														
 
															+    "status": "running"
														
 
															+  }
														
 
															+}
														
 
															+```
														
 
															+
														
 
															+#### 查询任务状态
														
 
															+```bash
														
 
															+GET /api/v0/data_pipeline/tasks/{task_id}
														
 
															+```
														
 
															+
														
 
															+**预期返回：**
														
 
															+```json
														
 
															+{
														
 
															+  "success": true,
														
 
															+  "data": {
														
 
															+    "task_id": "task_20250701_143052",
														
 
															+    "status": "in_progress",
														
 
															+    "step_status": {
														
 
															+      "ddl_generation": "completed",
														
 
															+      "qa_generation": "running",
														
 
															+      "sql_validation": "pending",
														
 
															+      "training_load": "pending"
														
 
															+    },
														
 
															+    "created_at": "2025-07-01T14:30:52",
														
 
															+    "started_at": "2025-07-01T14:30:53"
														
 
															+  }
														
 
															+}
														
 
															+```
														
 
															+
														
 
															+#### 获取任务列表
														
 
															+```bash
														
 
															+GET /api/v0/data_pipeline/tasks?limit=10&status=completed
														
 
															+```
														
 
															+
														
 
															+**预期返回：**
														
 
															+```json
														
 
															+{
														
 
															+  "success": true,
														
 
															+  "data": {
														
 
															+    "tasks": [
														
 
															+      {
														
 
															+        "task_id": "task_20250701_143052",
														
 
															+        "status": "completed",
														
 
															+        "created_at": "2025-07-01T14:30:52"
														
 
															+      }
														
 
															+    ]
														
 
															+  }
														
 
															+}
														
 
															+```
														
 
															+
														
 
															+### 2. 日志接口
														
 
															+
														
 
															+#### 获取任务日志
														
 
															+```bash
														
 
															+GET /api/v0/data_pipeline/tasks/{task_id}/logs?limit=50&level=ERROR
														
 
															+```
														
 
															+
														
 
															+**预期返回：**
														
 
															+```json
														
 
															+{
														
 
															+  "success": true,
														
 
															+  "data": {
														
 
															+    "logs": [
														
 
															+      {
														
 
															+        "id": 123,
														
 
															+        "timestamp": "2025-07-01T14:30:54",
														
 
															+        "level": "INFO",
														
 
															+        "message": "开始执行步骤: ddl_generation",
														
 
															+        "step_name": "ddl_generation"
														
 
															+      }
														
 
															+    ]
														
 
															+  }
														
 
															+}
														
 
															+```
														
 
															+
														
 
															+### 3. 文件管理接口
														
 
															+
														
 
															+#### 获取文件列表
														
 
															+```bash
														
 
															+GET /api/v0/data_pipeline/tasks/{task_id}/files
														
 
															+```
														
 
															+
														
 
															+**预期返回：**
														
 
															+```json
														
 
															+{
														
 
															+  "success": true,
														
 
															+  "data": {
														
 
															+    "files": [
														
 
															+      {
														
 
															+        "file_name": "data_pipeline.log",
														
 
															+        "file_type": "log",
														
 
															+        "file_size": 1024,
														
 
															+        "download_url": "/api/v0/data_pipeline/tasks/{task_id}/files/download/data_pipeline.log"
														
 
															+      },
														
 
															+      {
														
 
															+        "file_name": "qs_highway_db_20250701_143052_pair.json",
														
 
															+        "file_type": "json",
														
 
															+        "file_size": 10240,
														
 
															+        "download_url": "/api/v0/data_pipeline/tasks/{task_id}/files/download/qs_highway_db_20250701_143052_pair.json"
														
 
															+      }
														
 
															+    ]
														
 
															+  }
														
 
															+}
														
 
															+```
														
 
															+
														
 
															+#### 下载文件
														
 
															+```bash
														
 
															+GET /api/v0/data_pipeline/tasks/{task_id}/files/download/{filename}
														
 
															+```
														
 
															+
														
 
															+**预期返回：** 文件二进制内容，Content-Type 根据文件类型设置
														
 
															+
														
 
															+### 4. 执行记录接口
														
 
															+
														
 
															+#### 获取任务执行记录
														
 
															+```bash
														
 
															+GET /api/v0/data_pipeline/tasks/{task_id}/executions
														
 
															+```
														
 
															+
														
 
															+**预期返回：**
														
 
															+```json
														
 
															+{
														
 
															+  "success": true,
														
 
															+  "data": {
														
 
															+    "executions": [
														
 
															+      {
														
 
															+        "execution_id": "task_20250701_143052_step_ddl_generation_exec_20250701143053",
														
 
															+        "execution_step": "ddl_generation",
														
 
															+        "status": "completed",
														
 
															+        "started_at": "2025-07-01T14:30:53",
														
 
															+        "completed_at": "2025-07-01T14:35:20"
														
 
															+      }
														
 
															+    ]
														
 
															+  }
														
 
															+}
														
 
															+```
														
 
															+
														
 
															+### 5. 错误响应格式
														
 
															+
														
 
															+所有接口在出错时都返回统一的错误格式：
														
 
															+
														
 
															+```json
														
 
															+{
														
 
															+  "success": false,
														
 
															+  "code": 400,
														
 
															+  "message": "错误描述",
														
 
															+  "error_type": "validation_error",
														
 
															+  "details": {}
														
 
															+}
														
 
															+```
														
 
															+
														
 
															+**常见错误码：**
														
 
															+- `400` - 请求参数错误
														
 
															+- `404` - 任务不存在
														
 
															+- `409` - 任务冲突（已有任务在执行）
														
 
															+- `500` - 服务器内部错误
														
 
															+- `503` - 服务暂时不可用
														
 
															+
														
 
															+## 技术支持
														
 
															+
														
 
															+如有问题，请检查：
														
 
															+1. 系统日志和错误信息
														
 
															+2. 数据库连接状态
														
 
															+3. 文件系统权限
														
 
															+4. 系统资源使用情况
														
 
															+5. 任务目录详细日志文件 `./data_pipeline/training_data/{task_id}/data_pipeline.log`
														
 
															+
														
 
															+通过监控API可以获取详细的系统状态和错误信息，有助于快速定位和解决问题。
														
--- a/test_api_changes.py
+++ b/test_api_changes.py
@@ -0,0 +1,106 @@
 
															+#!/usr/bin/env python3
														
 
															+"""
														
 
															+测试Data Pipeline API的修改
														
 
															+验证去除db_connection必填参数后的功能
														
 
															+"""
														
 
															+
														
 
															+import requests
														
 
															+import json
														
 
															+
														
 
															+def test_create_task():
														
 
															+    """测试创建任务（不需要db_connection参数）"""
														
 
															+    url = "http://localhost:8084/api/v0/data_pipeline/tasks"
														
 
															+    
														
 
															+    # 新的请求格式 - 不需要db_connection
														
 
															+    data = {
														
 
															+        "table_list_file": "data_pipeline/tables.txt",
														
 
															+        "business_context": "高速公路服务区管理系统测试",
														
 
															+        "db_name": "highway_db",  # 可选参数
														
 
															+        "enable_sql_validation": True,
														
 
															+        "enable_llm_repair": True,
														
 
															+        "modify_original_file": True,
														
 
															+        "enable_training_data_load": True
														
 
															+    }
														
 
															+    
														
 
															+    print("测试创建任务（使用app_config配置的数据库连接）...")
														
 
															+    print(f"请求数据: {json.dumps(data, ensure_ascii=False, indent=2)}")
														
 
															+    
														
 
															+    try:
														
 
															+        response = requests.post(url, json=data, timeout=10)
														
 
															+        print(f"响应状态码: {response.status_code}")
														
 
															+        print(f"响应内容: {json.dumps(response.json(), ensure_ascii=False, indent=2)}")
														
 
															+        
														
 
															+        if response.status_code == 201:
														
 
															+            return response.json().get('data', {}).get('task_id')
														
 
															+        else:
														
 
															+            print("任务创建失败")
														
 
															+            return None
														
 
															+            
														
 
															+    except Exception as e:
														
 
															+        print(f"请求失败: {e}")
														
 
															+        return None
														
 
															+
														
 
															+def test_old_format():
														
 
															+    """测试旧格式是否还能工作（应该报错）"""
														
 
															+    url = "http://localhost:8084/api/v0/data_pipeline/tasks"
														
 
															+    
														
 
															+    # 旧的请求格式 - 包含db_connection
														
 
															+    data = {
														
 
															+        "db_connection": "postgresql://user:pass@host:5432/dbname",
														
 
															+        "table_list_file": "data_pipeline/tables.txt",
														
 
															+        "business_context": "测试旧格式"
														
 
															+    }
														
 
															+    
														
 
															+    print("\n测试旧格式（包含db_connection，应该被忽略）...")
														
 
															+    print(f"请求数据: {json.dumps(data, ensure_ascii=False, indent=2)}")
														
 
															+    
														
 
															+    try:
														
 
															+        response = requests.post(url, json=data, timeout=10)
														
 
															+        print(f"响应状态码: {response.status_code}")
														
 
															+        print(f"响应内容: {json.dumps(response.json(), ensure_ascii=False, indent=2)}")
														
 
															+        
														
 
															+    except Exception as e:
														
 
															+        print(f"请求失败: {e}")
														
 
															+
														
 
															+def test_missing_params():
														
 
															+    """测试缺少必需参数的情况"""
														
 
															+    url = "http://localhost:8084/api/v0/data_pipeline/tasks"
														
 
															+    
														
 
															+    # 缺少必需参数
														
 
															+    data = {
														
 
															+        "business_context": "只有业务上下文"
														
 
															+    }
														
 
															+    
														
 
															+    print("\n测试缺少必需参数（应该返回400错误）...")
														
 
															+    print(f"请求数据: {json.dumps(data, ensure_ascii=False, indent=2)}")
														
 
															+    
														
 
															+    try:
														
 
															+        response = requests.post(url, json=data, timeout=10)
														
 
															+        print(f"响应状态码: {response.status_code}")
														
 
															+        print(f"响应内容: {json.dumps(response.json(), ensure_ascii=False, indent=2)}")
														
 
															+        
														
 
															+    except Exception as e:
														
 
															+        print(f"请求失败: {e}")
														
 
															+
														
 
															+if __name__ == "__main__":
														
 
															+    print("=" * 60)
														
 
															+    print("Data Pipeline API 修改测试")
														
 
															+    print("=" * 60)
														
 
															+    
														
 
															+    # 测试新格式
														
 
															+    task_id = test_create_task()
														
 
															+    
														
 
															+    # 测试旧格式
														
 
															+    test_old_format()
														
 
															+    
														
 
															+    # 测试缺少参数
														
 
															+    test_missing_params()
														
 
															+    
														
 
															+    print("\n" + "=" * 60)
														
 
															+    print("测试完成")
														
 
															+    print("=" * 60)
														
 
															+    
														
 
															+    if task_id:
														
 
															+        print(f"成功创建的任务ID: {task_id}")
														
 
															+        print(f"可以通过以下命令查看任务状态:")
														
 
															+        print(f"curl http://localhost:8084/api/v0/data_pipeline/tasks/{task_id}")