5 months ago · c26e9ffb72
--- a/citu_app.py
+++ b/citu_app.py
@@ -11,6 +11,7 @@ import re
 
				 import chainlit as cl
			
 
				 import json
			
 
				 from flask import session  # 添加session导入
			
 
				+import sqlparse  # 用于SQL语法检查
			
 
				 from common.redis_conversation_manager import RedisConversationManager  # 添加Redis对话管理器导入
			
 
				 
			
 
				 from common.qa_feedback_manager import QAFeedbackManager
			
@@ -2198,6 +2199,437 @@ def qa_cache_cleanup():
 
				         )), 500
			
 
				 
			
 
				 
			
 
				+# ==================== 训练数据管理接口 ====================
			
 
				+
			
 
				+def validate_sql_syntax(sql: str) -> tuple[bool, str]:
			
 
				+    """SQL语法检查（仅对sql类型）"""
			
 
				+    try:
			
 
				+        parsed = sqlparse.parse(sql.strip())
			
 
				+        
			
 
				+        if not parsed or not parsed[0].tokens:
			
 
				+            return False, "SQL语法错误：空语句"
			
 
				+        
			
 
				+        # 基本语法检查
			
 
				+        sql_upper = sql.strip().upper()
			
 
				+        if not any(sql_upper.startswith(keyword) for keyword in 
			
 
				+                  ['SELECT', 'INSERT', 'UPDATE', 'DELETE', 'CREATE', 'ALTER', 'DROP']):
			
 
				+            return False, "SQL语法错误：不是有效的SQL语句"
			
 
				+        
			
 
				+        # 安全检查：禁止危险的SQL操作
			
 
				+        dangerous_operations = ['UPDATE', 'DELETE', 'ALERT', 'DROP']
			
 
				+        for operation in dangerous_operations:
			
 
				+            if sql_upper.startswith(operation):
			
 
				+                return False, f'在训练集中禁止使用"{",".join(dangerous_operations)}"'
			
 
				+        
			
 
				+        return True, ""
			
 
				+    except Exception as e:
			
 
				+        return False, f"SQL语法错误：{str(e)}"
			
 
				+
			
 
				+def paginate_data(data_list: list, page: int, page_size: int):
			
 
				+    """分页处理算法"""
			
 
				+    total = len(data_list)
			
 
				+    start_idx = (page - 1) * page_size
			
 
				+    end_idx = start_idx + page_size
			
 
				+    page_data = data_list[start_idx:end_idx]
			
 
				+    
			
 
				+    return {
			
 
				+        "data": page_data,
			
 
				+        "pagination": {
			
 
				+            "page": page,
			
 
				+            "page_size": page_size,
			
 
				+            "total": total,
			
 
				+            "total_pages": (total + page_size - 1) // page_size,
			
 
				+            "has_next": end_idx < total,
			
 
				+            "has_prev": page > 1
			
 
				+        }
			
 
				+    }
			
 
				+
			
 
				+def filter_by_type(data_list: list, training_data_type: str):
			
 
				+    """按类型筛选算法"""
			
 
				+    if not training_data_type:
			
 
				+        return data_list
			
 
				+    
			
 
				+    return [
			
 
				+        record for record in data_list 
			
 
				+        if record.get('training_data_type') == training_data_type
			
 
				+    ]
			
 
				+
			
 
				+def search_in_data(data_list: list, search_keyword: str):
			
 
				+    """在数据中搜索关键词"""
			
 
				+    if not search_keyword:
			
 
				+        return data_list
			
 
				+    
			
 
				+    keyword_lower = search_keyword.lower()
			
 
				+    return [
			
 
				+        record for record in data_list
			
 
				+        if (record.get('question') and keyword_lower in record['question'].lower()) or
			
 
				+           (record.get('content') and keyword_lower in record['content'].lower())
			
 
				+    ]
			
 
				+
			
 
				+def process_single_training_item(item: dict, index: int) -> dict:
			
 
				+    """处理单个训练数据项"""
			
 
				+    training_type = item.get('training_data_type')
			
 
				+    
			
 
				+    if training_type == 'sql':
			
 
				+        sql = item.get('sql')
			
 
				+        if not sql:
			
 
				+            raise ValueError("SQL字段是必需的")
			
 
				+        
			
 
				+        # SQL语法检查
			
 
				+        is_valid, error_msg = validate_sql_syntax(sql)
			
 
				+        if not is_valid:
			
 
				+            raise ValueError(error_msg)
			
 
				+        
			
 
				+        question = item.get('question')
			
 
				+        if question:
			
 
				+            training_id = vn.train(question=question, sql=sql)
			
 
				+        else:
			
 
				+            training_id = vn.train(sql=sql)
			
 
				+            
			
 
				+    elif training_type == 'error_sql':
			
 
				+        # error_sql不需要语法检查
			
 
				+        question = item.get('question')
			
 
				+        sql = item.get('sql')
			
 
				+        if not question or not sql:
			
 
				+            raise ValueError("question和sql字段都是必需的")
			
 
				+        training_id = vn.train_error_sql(question=question, sql=sql)
			
 
				+        
			
 
				+    elif training_type == 'documentation':
			
 
				+        content = item.get('content')
			
 
				+        if not content:
			
 
				+            raise ValueError("content字段是必需的")
			
 
				+        training_id = vn.train(documentation=content)
			
 
				+        
			
 
				+    elif training_type == 'ddl':
			
 
				+        ddl = item.get('ddl')
			
 
				+        if not ddl:
			
 
				+            raise ValueError("ddl字段是必需的")
			
 
				+        training_id = vn.train(ddl=ddl)
			
 
				+        
			
 
				+    else:
			
 
				+        raise ValueError(f"不支持的训练数据类型: {training_type}")
			
 
				+    
			
 
				+    return {
			
 
				+        "index": index,
			
 
				+        "success": True,
			
 
				+        "training_id": training_id,
			
 
				+        "type": training_type,
			
 
				+        "message": f"{training_type}训练数据创建成功"
			
 
				+    }
			
 
				+
			
 
				+def get_total_training_count():
			
 
				+    """获取当前训练数据总数"""
			
 
				+    try:
			
 
				+        training_data = vn.get_training_data()
			
 
				+        if training_data is not None and not training_data.empty:
			
 
				+            return len(training_data)
			
 
				+        return 0
			
 
				+    except Exception as e:
			
 
				+        print(f"[WARNING] 获取训练数据总数失败: {e}")
			
 
				+        return 0
			
 
				+
			
 
				+@app.flask_app.route('/api/v0/training_data/query', methods=['POST'])
			
 
				+def training_data_query():
			
 
				+    """
			
 
				+    分页查询训练数据API
			
 
				+    支持类型筛选、搜索和排序功能
			
 
				+    """
			
 
				+    try:
			
 
				+        req = request.get_json(force=True)
			
 
				+        
			
 
				+        # 解析参数，设置默认值
			
 
				+        page = req.get('page', 1)
			
 
				+        page_size = req.get('page_size', 20)
			
 
				+        training_data_type = req.get('training_data_type')
			
 
				+        sort_by = req.get('sort_by', 'id')
			
 
				+        sort_order = req.get('sort_order', 'desc')
			
 
				+        search_keyword = req.get('search_keyword')
			
 
				+        
			
 
				+        # 参数验证
			
 
				+        if page < 1:
			
 
				+            return jsonify(bad_request_response(
			
 
				+                response_text="页码必须大于0",
			
 
				+                missing_params=["page"]
			
 
				+            )), 400
			
 
				+        
			
 
				+        if page_size < 1 or page_size > 100:
			
 
				+            return jsonify(bad_request_response(
			
 
				+                response_text="每页大小必须在1-100之间",
			
 
				+                missing_params=["page_size"]
			
 
				+            )), 400
			
 
				+        
			
 
				+        if search_keyword and len(search_keyword) > 100:
			
 
				+            return jsonify(bad_request_response(
			
 
				+                response_text="搜索关键词最大长度为100字符",
			
 
				+                missing_params=["search_keyword"]
			
 
				+            )), 400
			
 
				+        
			
 
				+        # 获取训练数据
			
 
				+        training_data = vn.get_training_data()
			
 
				+        
			
 
				+        if training_data is None or training_data.empty:
			
 
				+            return jsonify(success_response(
			
 
				+                response_text="查询成功，暂无训练数据",
			
 
				+                data={
			
 
				+                    "records": [],
			
 
				+                    "pagination": {
			
 
				+                        "page": page,
			
 
				+                        "page_size": page_size,
			
 
				+                        "total": 0,
			
 
				+                        "total_pages": 0,
			
 
				+                        "has_next": False,
			
 
				+                        "has_prev": False
			
 
				+                    },
			
 
				+                    "filters_applied": {
			
 
				+                        "training_data_type": training_data_type,
			
 
				+                        "search_keyword": search_keyword
			
 
				+                    }
			
 
				+                }
			
 
				+            ))
			
 
				+        
			
 
				+        # 转换为列表格式
			
 
				+        records = training_data.to_dict(orient="records")
			
 
				+        
			
 
				+        # 应用筛选条件
			
 
				+        if training_data_type:
			
 
				+            records = filter_by_type(records, training_data_type)
			
 
				+        
			
 
				+        if search_keyword:
			
 
				+            records = search_in_data(records, search_keyword)
			
 
				+        
			
 
				+        # 排序
			
 
				+        if sort_by in ['id', 'training_data_type']:
			
 
				+            reverse = (sort_order.lower() == 'desc')
			
 
				+            records.sort(key=lambda x: x.get(sort_by, ''), reverse=reverse)
			
 
				+        
			
 
				+        # 分页
			
 
				+        paginated_result = paginate_data(records, page, page_size)
			
 
				+        
			
 
				+        return jsonify(success_response(
			
 
				+            response_text=f"查询成功，共找到 {paginated_result['pagination']['total']} 条记录",
			
 
				+            data={
			
 
				+                "records": paginated_result["data"],
			
 
				+                "pagination": paginated_result["pagination"],
			
 
				+                "filters_applied": {
			
 
				+                    "training_data_type": training_data_type,
			
 
				+                    "search_keyword": search_keyword
			
 
				+                }
			
 
				+            }
			
 
				+        ))
			
 
				+        
			
 
				+    except Exception as e:
			
 
				+        print(f"[ERROR] training_data_query执行失败: {str(e)}")
			
 
				+        return jsonify(internal_error_response(
			
 
				+            response_text="查询训练数据失败，请稍后重试"
			
 
				+        )), 500
			
 
				+
			
 
				+@app.flask_app.route('/api/v0/training_data/create', methods=['POST'])
			
 
				+def training_data_create():
			
 
				+    """
			
 
				+    创建训练数据API
			
 
				+    支持单条和批量创建，支持四种数据类型
			
 
				+    """
			
 
				+    try:
			
 
				+        req = request.get_json(force=True)
			
 
				+        data = req.get('data')
			
 
				+        
			
 
				+        if not data:
			
 
				+            return jsonify(bad_request_response(
			
 
				+                response_text="缺少必需参数：data",
			
 
				+                missing_params=["data"]
			
 
				+            )), 400
			
 
				+        
			
 
				+        # 统一处理为列表格式
			
 
				+        if isinstance(data, dict):
			
 
				+            data_list = [data]
			
 
				+        elif isinstance(data, list):
			
 
				+            data_list = data
			
 
				+        else:
			
 
				+            return jsonify(bad_request_response(
			
 
				+                response_text="data字段格式错误，应为对象或数组"
			
 
				+            )), 400
			
 
				+        
			
 
				+        # 批量操作限制
			
 
				+        if len(data_list) > 50:
			
 
				+            return jsonify(bad_request_response(
			
 
				+                response_text="批量操作最大支持50条记录"
			
 
				+            )), 400
			
 
				+        
			
 
				+        results = []
			
 
				+        successful_count = 0
			
 
				+        type_summary = {"sql": 0, "documentation": 0, "ddl": 0, "error_sql": 0}
			
 
				+        
			
 
				+        for index, item in enumerate(data_list):
			
 
				+            try:
			
 
				+                result = process_single_training_item(item, index)
			
 
				+                results.append(result)
			
 
				+                if result['success']:
			
 
				+                    successful_count += 1
			
 
				+                    type_summary[result['type']] += 1
			
 
				+            except Exception as e:
			
 
				+                results.append({
			
 
				+                    "index": index,
			
 
				+                    "success": False,
			
 
				+                    "type": item.get('training_data_type', 'unknown'),
			
 
				+                    "error": str(e),
			
 
				+                    "message": "创建失败"
			
 
				+                })
			
 
				+        
			
 
				+        # 获取创建后的总记录数
			
 
				+        current_total = get_total_training_count()
			
 
				+        
			
 
				+        return jsonify(success_response(
			
 
				+            response_text="训练数据创建完成",
			
 
				+            data={
			
 
				+                "total_requested": len(data_list),
			
 
				+                "successfully_created": successful_count,
			
 
				+                "failed_count": len(data_list) - successful_count,
			
 
				+                "results": results,
			
 
				+                "summary": type_summary,
			
 
				+                "current_total_count": current_total
			
 
				+            }
			
 
				+        ))
			
 
				+        
			
 
				+    except Exception as e:
			
 
				+        print(f"[ERROR] training_data_create执行失败: {str(e)}")
			
 
				+        return jsonify(internal_error_response(
			
 
				+            response_text="创建训练数据失败，请稍后重试"
			
 
				+        )), 500
			
 
				+
			
 
				+@app.flask_app.route('/api/v0/training_data/delete', methods=['POST'])
			
 
				+def training_data_delete():
			
 
				+    """
			
 
				+    删除训练数据API
			
 
				+    支持批量删除
			
 
				+    """
			
 
				+    try:
			
 
				+        req = request.get_json(force=True)
			
 
				+        ids = req.get('ids', [])
			
 
				+        confirm = req.get('confirm', False)
			
 
				+        
			
 
				+        if not ids or not isinstance(ids, list):
			
 
				+            return jsonify(bad_request_response(
			
 
				+                response_text="缺少有效的ID列表",
			
 
				+                missing_params=["ids"]
			
 
				+            )), 400
			
 
				+        
			
 
				+        if not confirm:
			
 
				+            return jsonify(bad_request_response(
			
 
				+                response_text="删除操作需要确认，请设置confirm为true"
			
 
				+            )), 400
			
 
				+        
			
 
				+        # 批量操作限制
			
 
				+        if len(ids) > 50:
			
 
				+            return jsonify(bad_request_response(
			
 
				+                response_text="批量删除最大支持50条记录"
			
 
				+            )), 400
			
 
				+        
			
 
				+        deleted_ids = []
			
 
				+        failed_ids = []
			
 
				+        failed_details = []
			
 
				+        
			
 
				+        for training_id in ids:
			
 
				+            try:
			
 
				+                success = vn.remove_training_data(training_id)
			
 
				+                if success:
			
 
				+                    deleted_ids.append(training_id)
			
 
				+                else:
			
 
				+                    failed_ids.append(training_id)
			
 
				+                    failed_details.append({
			
 
				+                        "id": training_id,
			
 
				+                        "error": "记录不存在或删除失败"
			
 
				+                    })
			
 
				+            except Exception as e:
			
 
				+                failed_ids.append(training_id)
			
 
				+                failed_details.append({
			
 
				+                    "id": training_id,
			
 
				+                    "error": str(e)
			
 
				+                })
			
 
				+        
			
 
				+        # 获取删除后的总记录数
			
 
				+        current_total = get_total_training_count()
			
 
				+        
			
 
				+        return jsonify(success_response(
			
 
				+            response_text="训练数据删除完成",
			
 
				+            data={
			
 
				+                "total_requested": len(ids),
			
 
				+                "successfully_deleted": len(deleted_ids),
			
 
				+                "failed_count": len(failed_ids),
			
 
				+                "deleted_ids": deleted_ids,
			
 
				+                "failed_ids": failed_ids,
			
 
				+                "failed_details": failed_details,
			
 
				+                "current_total_count": current_total
			
 
				+            }
			
 
				+        ))
			
 
				+        
			
 
				+    except Exception as e:
			
 
				+        print(f"[ERROR] training_data_delete执行失败: {str(e)}")
			
 
				+        return jsonify(internal_error_response(
			
 
				+            response_text="删除训练数据失败，请稍后重试"
			
 
				+        )), 500
			
 
				+
			
 
				+@app.flask_app.route('/api/v0/training_data/stats', methods=['GET'])
			
 
				+def training_data_stats():
			
 
				+    """
			
 
				+    获取训练数据统计信息API
			
 
				+    """
			
 
				+    try:
			
 
				+        training_data = vn.get_training_data()
			
 
				+        
			
 
				+        if training_data is None or training_data.empty:
			
 
				+            return jsonify(success_response(
			
 
				+                response_text="统计信息获取成功",
			
 
				+                data={
			
 
				+                    "total_count": 0,
			
 
				+                    "type_breakdown": {
			
 
				+                        "sql": 0,
			
 
				+                        "documentation": 0,
			
 
				+                        "ddl": 0,
			
 
				+                        "error_sql": 0
			
 
				+                    },
			
 
				+                    "type_percentages": {
			
 
				+                        "sql": 0.0,
			
 
				+                        "documentation": 0.0,
			
 
				+                        "ddl": 0.0,
			
 
				+                        "error_sql": 0.0
			
 
				+                    },
			
 
				+                    "last_updated": datetime.now().isoformat()
			
 
				+                }
			
 
				+            ))
			
 
				+        
			
 
				+        total_count = len(training_data)
			
 
				+        
			
 
				+        # 统计各类型数量
			
 
				+        type_breakdown = {"sql": 0, "documentation": 0, "ddl": 0, "error_sql": 0}
			
 
				+        
			
 
				+        if 'training_data_type' in training_data.columns:
			
 
				+            type_counts = training_data['training_data_type'].value_counts()
			
 
				+            for data_type, count in type_counts.items():
			
 
				+                if data_type in type_breakdown:
			
 
				+                    type_breakdown[data_type] = int(count)
			
 
				+        
			
 
				+        # 计算百分比
			
 
				+        type_percentages = {}
			
 
				+        for data_type, count in type_breakdown.items():
			
 
				+            type_percentages[data_type] = round(count / max(total_count, 1) * 100, 2)
			
 
				+        
			
 
				+        return jsonify(success_response(
			
 
				+            response_text="统计信息获取成功",
			
 
				+            data={
			
 
				+                "total_count": total_count,
			
 
				+                "type_breakdown": type_breakdown,
			
 
				+                "type_percentages": type_percentages,
			
 
				+                "last_updated": datetime.now().isoformat()
			
 
				+            }
			
 
				+        ))
			
 
				+        
			
 
				+    except Exception as e:
			
 
				+        print(f"[ERROR] training_data_stats执行失败: {str(e)}")
			
 
				+        return jsonify(internal_error_response(
			
 
				+            response_text="获取统计信息失败，请稍后重试"
			
 
				+        )), 500
			
 
				+
			
 
				+
			
 
				 @app.flask_app.route('/api/v0/cache_overview_full', methods=['GET'])
			
 
				 def cache_overview_full():
			
 
				     """获取所有缓存系统的综合概览"""
			
--- a/Agent节点重构概要设计.md
+++ b/Agent节点重构概要设计.md
@@ -0,0 +1,559 @@
 
				+# Database节点重构概要设计文档
			
 
				+
			
 
				+## 🎯 重构目标
			
 
				+
			
 
				+将当前的 `_agent_database_node` 拆分为两个独立节点，实现SQL生成验证与执行的分离，提供中间路由能力，提升系统的智能性和用户体验。
			
 
				+
			
 
				+## 📋 整体架构变更
			
 
				+
			
 
				+### **重构前架构**
			
 
				+```
			
 
				+classify_question → agent_database → format_response → END
			
 
				+                    (generate_sql + execute_sql + summary)
			
 
				+```
			
 
				+
			
 
				+### **重构后架构**
			
 
				+```
			
 
				+classify_question → agent_sql_generation_node → agent_sql_execution_node → format_response → END
			
 
				+                    (generate_sql + validation)    (execute_sql + summary)
			
 
				+                           ↓ (失败路由)
			
 
				+                    format_response → END
			
 
				+```
			
 
				+
			
 
				+## 🔧 节点详细设计
			
 
				+
			
 
				+### **1. _agent_sql_generation_node (SQL生成验证节点)**
			
 
				+
			
 
				+#### **功能职责**
			
 
				+- 调用 `generate_sql()` 工具生成SQL
			
 
				+- 使用复用schema_tools的验证逻辑进行SQL验证
			
 
				+- 根据验证结果决定路由方向
			
 
				+
			
 
				+#### **核心逻辑**
			
 
				+```python
			
 
				+def _agent_sql_generation_node(self, state: AgentState) -> AgentState:
			
 
				+    """SQL生成验证节点"""
			
 
				+    try:
			
 
				+        question = state["question"]
			
 
				+        
			
 
				+        # 步骤1: SQL生成
			
 
				+        sql_result = generate_sql(question, allow_llm_to_see_data=True)
			
 
				+        
			
 
				+        if not sql_result.get("success"):
			
 
				+            # SQL生成失败处理
			
 
				+            return self._handle_sql_generation_failure(state, sql_result)
			
 
				+        
			
 
				+        sql = sql_result.get("sql")
			
 
				+        state["sql"] = sql
			
 
				+        
			
 
				+        # 步骤2: SQL验证 (如果启用)
			
 
				+        if self._is_sql_validation_enabled():
			
 
				+            validation_result = await self._validate_sql_with_schema_tools(sql)
			
 
				+            
			
 
				+            if not validation_result.get("valid"):
			
 
				+                # 验证失败，尝试修复
			
 
				+                return await self._handle_sql_validation_failure(state, sql, validation_result)
			
 
				+        
			
 
				+        # 生成和验证都成功
			
 
				+        state["sql_generation_success"] = True
			
 
				+        state["execution_path"].append("agent_sql_generation")
			
 
				+        return state
			
 
				+        
			
 
				+    except Exception as e:
			
 
				+        state["error"] = f"SQL生成节点异常: {str(e)}"
			
 
				+        return state
			
 
				+```
			
 
				+
			
 
				+#### **SQL验证集成 (复用schema_tools)**
			
 
				+```python
			
 
				+async def _validate_sql_with_schema_tools(self, sql: str) -> Dict[str, Any]:
			
 
				+    """复用schema_tools的SQL验证逻辑"""
			
 
				+    try:
			
 
				+        # 1. 语法验证 (EXPLAIN SQL)
			
 
				+        syntax_valid = await self._validate_sql_syntax(sql)
			
 
				+        if not syntax_valid.get("valid"):
			
 
				+            return {
			
 
				+                "valid": False,
			
 
				+                "error_type": "syntax_error",
			
 
				+                "error_message": syntax_valid.get("error"),
			
 
				+                "can_repair": True
			
 
				+            }
			
 
				+        
			
 
				+        # 2. 禁止词检查
			
 
				+        forbidden_check = self._check_forbidden_keywords(sql)
			
 
				+        if not forbidden_check.get("valid"):
			
 
				+            return {
			
 
				+                "valid": False,
			
 
				+                "error_type": "forbidden_keywords",
			
 
				+                "error_message": forbidden_check.get("error"),
			
 
				+                "can_repair": False
			
 
				+            }
			
 
				+        
			
 
				+        return {"valid": True}
			
 
				+        
			
 
				+    except Exception as e:
			
 
				+        return {
			
 
				+            "valid": False,
			
 
				+            "error_type": "validation_exception",
			
 
				+            "error_message": str(e),
			
 
				+            "can_repair": False
			
 
				+        }
			
 
				+
			
 
				+def _check_forbidden_keywords(self, sql: str) -> Dict[str, Any]:
			
 
				+    """检查禁止的SQL关键词"""
			
 
				+    forbidden_keywords = ['UPDATE', 'DELETE', 'DROP', 'ALTER', 'INSERT']
			
 
				+    sql_upper = sql.upper()
			
 
				+    
			
 
				+    for keyword in forbidden_keywords:
			
 
				+        if keyword in sql_upper:
			
 
				+            return {
			
 
				+                "valid": False,
			
 
				+                "error": f"不允许的操作: {keyword}。本系统只支持查询操作(SELECT)。"
			
 
				+            }
			
 
				+    
			
 
				+    return {"valid": True}
			
 
				+
			
 
				+async def _validate_sql_syntax(self, sql: str) -> Dict[str, Any]:
			
 
				+    """语法验证 - 复用schema_tools逻辑"""
			
 
				+    try:
			
 
				+        # 获取数据库连接 (复用现有连接逻辑)
			
 
				+        from common.vanna_instance import get_vanna_instance
			
 
				+        vn = get_vanna_instance()
			
 
				+        
			
 
				+        # 执行EXPLAIN验证
			
 
				+        explain_sql = f"EXPLAIN {sql}"
			
 
				+        # 注意: 这里需要适配到实际的数据库连接方式
			
 
				+        result = await vn.run_sql(explain_sql)
			
 
				+        
			
 
				+        return {"valid": True}
			
 
				+        
			
 
				+    except Exception as e:
			
 
				+        return {
			
 
				+            "valid": False,
			
 
				+            "error": str(e)
			
 
				+        }
			
 
				+```
			
 
				+
			
 
				+#### **SQL修复逻辑 (复用schema_tools)**
			
 
				+```python
			
 
				+async def _handle_sql_validation_failure(self, state: AgentState, sql: str, validation_result: Dict) -> AgentState:
			
 
				+    """处理SQL验证失败"""
			
 
				+    error_type = validation_result.get("error_type")
			
 
				+    
			
 
				+    # 禁止词错误，直接失败
			
 
				+    if error_type == "forbidden_keywords":
			
 
				+        state["sql_generation_success"] = False
			
 
				+        state["user_prompt"] = validation_result.get("error_message")
			
 
				+        return state
			
 
				+    
			
 
				+    # 语法错误，尝试LLM修复 (只修复一次)
			
 
				+    if error_type == "syntax_error" and self._is_auto_repair_enabled():
			
 
				+        repaired_sql = await self._repair_sql_with_llm(sql, validation_result.get("error_message"))
			
 
				+        
			
 
				+        if repaired_sql:
			
 
				+            # 再次验证修复后的SQL
			
 
				+            revalidation = await self._validate_sql_with_schema_tools(repaired_sql)
			
 
				+            
			
 
				+            if revalidation.get("valid"):
			
 
				+                state["sql"] = repaired_sql
			
 
				+                state["sql_generation_success"] = True
			
 
				+                state["sql_repair_applied"] = True
			
 
				+                return state
			
 
				+    
			
 
				+    # 修复失败或不支持修复
			
 
				+    state["sql_generation_success"] = False
			
 
				+    state["user_prompt"] = f"SQL生成遇到问题: {validation_result.get('error_message')}"
			
 
				+    return state
			
 
				+
			
 
				+```python
			
 
				+async def _repair_sql_with_llm(self, sql: str, error_message: str) -> Optional[str]:
			
 
				+    """使用LLM修复SQL - 只尝试一次"""
			
 
				+    try:
			
 
				+        from common.vanna_instance import get_vanna_instance
			
 
				+        vn = get_vanna_instance()
			
 
				+        
			
 
				+        # 构建修复提示词
			
 
				+        repair_prompt = f"""你是一个PostgreSQL SQL专家，请修复以下SQL语句的语法错误。
			
 
				+
			
 
				+当前数据库类型: PostgreSQL
			
 
				+错误信息: {error_message}
			
 
				+
			
 
				+需要修复的SQL:
			
 
				+{sql}
			
 
				+
			
 
				+修复要求:
			
 
				+1. 只修复语法错误和表结构错误
			
 
				+2. 保持SQL的原始业务逻辑不变  
			
 
				+3. 使用PostgreSQL标准语法
			
 
				+4. 确保修复后的SQL语法正确
			
 
				+
			
 
				+请直接输出修复后的SQL语句，不要添加其他说明文字。"""
			
 
				+
			
 
				+        # 调用LLM修复 - 复用schema_tools的异步调用方式
			
 
				+        response = await asyncio.to_thread(
			
 
				+            vn.chat_with_llm,
			
 
				+            question=repair_prompt,
			
 
				+            system_prompt="你是一个专业的PostgreSQL SQL专家，专门负责修复SQL语句中的语法错误。"
			
 
				+        )
			
 
				+        
			
 
				+        if response and response.strip():
			
 
				+            return response.strip()
			
 
				+        
			
 
				+        return None
			
 
				+        
			
 
				+    except Exception as e:
			
 
				+        print(f"[ERROR] SQL修复失败: {str(e)}")
			
 
				+        return None
			
 
				+
			
 
				+async def _handle_sql_validation_failure(self, state: AgentState, sql: str, validation_result: Dict) -> AgentState:
			
 
				+    """处理SQL验证失败 - 重要约束：只修复一次"""
			
 
				+    error_type = validation_result.get("error_type")
			
 
				+    
			
 
				+    # 禁止词错误，直接失败，不尝试修复
			
 
				+    if error_type == "forbidden_keywords":
			
 
				+        state["sql_generation_success"] = False
			
 
				+        state["user_prompt"] = validation_result.get("error_message")
			
 
				+        state["execution_path"].append("forbidden_keywords_failed")
			
 
				+        return state
			
 
				+    
			
 
				+    # 语法错误，仅尝试修复一次
			
 
				+    if error_type == "syntax_error" and self._is_auto_repair_enabled():
			
 
				+        print(f"[SQL_REPAIR] 尝试修复SQL语法错误(仅一次): {validation_result.get('error_message')}")
			
 
				+        
			
 
				+        repaired_sql = await self._repair_sql_with_llm(sql, validation_result.get("error_message"))
			
 
				+        
			
 
				+        if repaired_sql:
			
 
				+            # 对修复后的SQL进行验证 - 不管结果如何，不再重试
			
 
				+            revalidation = await self._validate_sql_with_schema_tools(repaired_sql)
			
 
				+            
			
 
				+            if revalidation.get("valid"):
			
 
				+                # 修复成功
			
 
				+                state["sql"] = repaired_sql
			
 
				+                state["sql_generation_success"] = True
			
 
				+                state["sql_repair_applied"] = True
			
 
				+                state["execution_path"].append("sql_repair_success")
			
 
				+                print(f"[SQL_REPAIR] SQL修复成功")
			
 
				+                return state
			
 
				+            else:
			
 
				+                # 修复后仍然失败，直接结束
			
 
				+                print(f"[SQL_REPAIR] 修复后验证仍然失败: {revalidation.get('error_message')}")
			
 
				+                state["sql_generation_success"] = False
			
 
				+                state["user_prompt"] = f"SQL修复尝试失败: {revalidation.get('error_message')}"
			
 
				+                state["execution_path"].append("sql_repair_failed")
			
 
				+                return state
			
 
				+        else:
			
 
				+            # LLM修复失败
			
 
				+            print(f"[SQL_REPAIR] LLM修复调用失败")
			
 
				+            state["sql_generation_success"] = False
			
 
				+            state["user_prompt"] = f"SQL语法修复失败: {validation_result.get('error_message')}"
			
 
				+            state["execution_path"].append("sql_repair_failed")
			
 
				+            return state
			
 
				+    
			
 
				+    # 不启用修复或其他错误类型，直接失败
			
 
				+    state["sql_generation_success"] = False
			
 
				+    state["user_prompt"] = f"SQL验证失败: {validation_result.get('error_message')}"
			
 
				+    state["execution_path"].append("sql_validation_failed")
			
 
				+    return state
			
 
				+```
			
 
				+
			
 
				+### **2. _agent_sql_execution_node (SQL执行节点)**
			
 
				+
			
 
				+#### **功能职责**
			
 
				+- 执行已验证的SQL语句
			
 
				+- 根据配置决定是否生成摘要
			
 
				+- 保持原有的执行逻辑
			
 
				+
			
 
				+#### **核心逻辑**
			
 
				+```python
			
 
				+def _agent_sql_execution_node(self, state: AgentState) -> AgentState:
			
 
				+    """SQL执行节点 - 保持原有逻辑"""
			
 
				+    try:
			
 
				+        sql = state.get("sql")
			
 
				+        question = state["question"]
			
 
				+        
			
 
				+        # 步骤1: 执行SQL (复用原有逻辑)
			
 
				+        execute_result = execute_sql.invoke({"sql": sql})
			
 
				+        
			
 
				+        if not execute_result.get("success"):
			
 
				+            state["error"] = execute_result.get("error", "SQL执行失败")
			
 
				+            return state
			
 
				+        
			
 
				+        query_result = execute_result.get("data_result")
			
 
				+        state["query_result"] = query_result
			
 
				+        
			
 
				+        # 步骤2: 生成摘要 (根据配置)
			
 
				+        if self._should_generate_summary(query_result):
			
 
				+            original_question = self._extract_original_question(question)
			
 
				+            
			
 
				+            summary_result = generate_summary.invoke({
			
 
				+                "question": original_question,
			
 
				+                "query_result": query_result,
			
 
				+                "sql": sql
			
 
				+            })
			
 
				+            
			
 
				+            if summary_result.get("success"):
			
 
				+                state["summary"] = summary_result.get("summary")
			
 
				+            else:
			
 
				+                # 摘要生成失败不是致命错误
			
 
				+                state["summary"] = f"查询执行完成，共返回 {query_result.get('row_count', 0)} 条记录。"
			
 
				+        
			
 
				+        state["execution_path"].append("agent_sql_execution")
			
 
				+        return state
			
 
				+        
			
 
				+    except Exception as e:
			
 
				+        state["error"] = f"SQL执行节点异常: {str(e)}"
			
 
				+        return state
			
 
				+
			
 
				+def _should_generate_summary(self, query_result: Dict) -> bool:
			
 
				+    """判断是否应该生成摘要"""
			
 
				+    from app_config import ENABLE_RESULT_SUMMARY
			
 
				+    return ENABLE_RESULT_SUMMARY and query_result.get('row_count', 0) > 0
			
 
				+```
			
 
				+
			
 
				+## 🔀 条件路由设计
			
 
				+
			
 
				+### **SQL生成节点的条件路由**
			
 
				+```python
			
 
				+def _route_after_sql_generation(self, state: AgentState) -> Literal["continue_execution", "return_to_user"]:
			
 
				+    """SQL生成后的路由决策"""
			
 
				+    
			
 
				+    if state.get("sql_generation_success"):
			
 
				+        return "continue_execution"  # 路由到SQL执行节点
			
 
				+    else:
			
 
				+        return "return_to_user"      # 路由到format_response，结束流程
			
 
				+```
			
 
				+
			
 
				+### **工作流配置更新**
			
 
				+```python
			
 
				+def _create_workflow(self, routing_mode: str = None) -> StateGraph:
			
 
				+    """更新工作流创建逻辑"""
			
 
				+    workflow = StateGraph(AgentState)
			
 
				+    
			
 
				+    # 添加新的节点
			
 
				+    workflow.add_node("classify_question", self._classify_question_node)
			
 
				+    workflow.add_node("agent_sql_generation", self._agent_sql_generation_node)
			
 
				+    workflow.add_node("agent_sql_execution", self._agent_sql_execution_node)
			
 
				+    workflow.add_node("agent_chat", self._agent_chat_node)
			
 
				+    workflow.add_node("format_response", self._format_response_node)
			
 
				+    
			
 
				+    # 设置条件路由
			
 
				+    workflow.add_conditional_edges(
			
 
				+        "classify_question",
			
 
				+        self._route_after_classification,
			
 
				+        {
			
 
				+            "DATABASE": "agent_sql_generation",
			
 
				+            "CHAT": "agent_chat"
			
 
				+        }
			
 
				+    )
			
 
				+    
			
 
				+    # SQL生成后的条件路由
			
 
				+    workflow.add_conditional_edges(
			
 
				+        "agent_sql_generation",
			
 
				+        self._route_after_sql_generation,
			
 
				+        {
			
 
				+            "continue_execution": "agent_sql_execution",
			
 
				+            "return_to_user": "format_response"
			
 
				+        }
			
 
				+    )
			
 
				+    
			
 
				+    # 普通边缘
			
 
				+    workflow.add_edge("agent_sql_execution", "format_response")
			
 
				+    workflow.add_edge("agent_chat", "format_response")
			
 
				+    workflow.add_edge("format_response", END)
			
 
				+    
			
 
				+    return workflow.compile()
			
 
				+```
			
 
				+
			
 
				+## ⚙️ 配置参数设计
			
 
				+
			
 
				+### **新增配置参数 - 精简版**
			
 
				+```python
			
 
				+# 在app_config.py中添加
			
 
				+SQL_VALIDATION_CONFIG = {
			
 
				+    "enable_syntax_validation": True,      # 是否启用语法验证(EXPLAIN SQL)
			
 
				+    "enable_forbidden_check": True,       # 是否启用禁止词检查  
			
 
				+    "enable_auto_repair": True,           # 是否启用自动修复(只尝试一次)
			
 
				+}
			
 
				+
			
 
				+# 现有配置保持不变
			
 
				+ENABLE_RESULT_SUMMARY = True  # 控制摘要生成
			
 
				+```
			
 
				+
			
 
				+### **配置使用逻辑 - 明确约束**
			
 
				+```python
			
 
				+def _is_sql_validation_enabled(self) -> bool:
			
 
				+    """检查是否启用SQL验证"""
			
 
				+    # 注意：任一验证功能启用都算启用验证
			
 
				+    return (SQL_VALIDATION_CONFIG.get("enable_syntax_validation", False) or 
			
 
				+            SQL_VALIDATION_CONFIG.get("enable_forbidden_check", False))
			
 
				+
			
 
				+def _is_auto_repair_enabled(self) -> bool:
			
 
				+    """检查是否启用自动修复"""
			
 
				+    # 只有在语法验证启用的情况下，自动修复才有意义
			
 
				+    return (SQL_VALIDATION_CONFIG.get("enable_auto_repair", False) and 
			
 
				+            SQL_VALIDATION_CONFIG.get("enable_syntax_validation", False))
			
 
				+
			
 
				+def _should_skip_validation(self) -> bool:
			
 
				+    """判断是否跳过所有验证"""
			
 
				+    # 当所有验证功能都禁用时，跳过验证步骤
			
 
				+    return not self._is_sql_validation_enabled()
			
 
				+```
			
 
				+
			
 
				+### **验证策略的完整逻辑**
			
 
				+```python
			
 
				+# 验证流程的完整决策树
			
 
				+if not self._is_sql_validation_enabled():
			
 
				+    # 跳过所有验证，直接使用生成的SQL
			
 
				+    pass
			
 
				+else:
			
 
				+    # 按优先级执行验证
			
 
				+    if SQL_VALIDATION_CONFIG.get("enable_syntax_validation"):
			
 
				+        # 1. 语法验证 (EXPLAIN SQL)
			
 
				+        syntax_result = await self._validate_sql_syntax(sql)
			
 
				+        if not syntax_result.valid and self._is_auto_repair_enabled():
			
 
				+            # 尝试修复 (只一次)
			
 
				+            repaired_sql = await self._repair_sql_with_llm(sql, syntax_result.error)
			
 
				+            # 修复后不管成功失败，都不再重试
			
 
				+    
			
 
				+    if SQL_VALIDATION_CONFIG.get("enable_forbidden_check"):
			
 
				+        # 2. 禁止词检查 (不可修复)
			
 
				+        forbidden_result = self._check_forbidden_keywords(sql)
			
 
				+        if not forbidden_result.valid:
			
 
				+            # 直接失败，不尝试修复
			
 
				+            return self._handle_forbidden_keywords_error(state, forbidden_result)
			
 
				+```
			
 
				+
			
 
				+## 📊 状态字段更新
			
 
				+
			
 
				+### **AgentState新增字段**
			
 
				+```python
			
 
				+class AgentState(TypedDict):
			
 
				+    # 现有字段保持不变...
			
 
				+    
			
 
				+    # 新增字段
			
 
				+    sql_generation_success: bool           # SQL生成是否成功
			
 
				+    sql_repair_applied: bool              # 是否应用了SQL修复
			
 
				+    user_prompt: Optional[str]            # 给用户的提示信息
			
 
				+```
			
 
				+
			
 
				+## 🔄 错误处理和用户提示
			
 
				+
			
 
				+### **SQL生成失败的情况处理**
			
 
				+```python
			
 
				+```python
			
 
				+def _handle_sql_generation_failure(self, state: AgentState, sql_result: Dict) -> AgentState:
			
 
				+    """处理SQL生成失败 - 统一处理三种情况"""
			
 
				+    error_message = sql_result.get("error", "")
			
 
				+    error_type = sql_result.get("error_type", "")
			
 
				+    
			
 
				+    # 重要设计决策：不进行二次分类判断，统一按数据库问题处理
			
 
				+    # 原因：第一次LLM分类已经判断为DATABASE，第二次大概率仍是DATABASE
			
 
				+    
			
 
				+    # 根据错误类型和内容生成统一的用户提示
			
 
				+    if "no relevant tables" in error_message.lower() or "table not found" in error_message.lower():
			
 
				+        # 情况1：数据库缺少表/字段
			
 
				+        user_prompt = "数据库中没有相关的表或字段信息，请您提供更多具体信息或修改问题。"
			
 
				+        failure_reason = "missing_database_info"
			
 
				+    elif "ambiguous" in error_message.lower() or "more information" in error_message.lower():
			
 
				+        # 情况2：问题太模糊  
			
 
				+        user_prompt = "您的问题需要更多信息才能准确查询，请提供更详细的描述。"
			
 
				+        failure_reason = "ambiguous_question"
			
 
				+    elif error_type == "llm_explanation":
			
 
				+        # 情况3：LLM返回解释性文本而非SQL
			
 
				+        user_prompt = error_message + " 请尝试重新描述您的问题或询问其他内容。"
			
 
				+        failure_reason = "llm_explanation"
			
 
				+    else:
			
 
				+        # 其他未分类的失败情况
			
 
				+        user_prompt = "无法生成有效的SQL查询，请尝试重新描述您的问题。"
			
 
				+        failure_reason = "unknown_generation_failure"
			
 
				+    
			
 
				+    # 关键决策：所有失败都返回用户提示，不路由到CHAT
			
 
				+    state["sql_generation_success"] = False
			
 
				+    state["user_prompt"] = user_prompt
			
 
				+    state["sql_generation_failure_reason"] = failure_reason
			
 
				+    state["execution_path"].append("sql_generation_failed")
			
 
				+    
			
 
				+    print(f"[SQL_GENERATION] 生成失败: {failure_reason} - {user_prompt}")
			
 
				+    return state
			
 
				+```
			
 
				+
			
 
				+### **format_response节点的适配**
			
 
				+```python
			
 
				+def _format_response_node(self, state: AgentState) -> AgentState:
			
 
				+    """格式化响应节点 - 适配新的失败处理"""
			
 
				+    
			
 
				+    # 处理SQL生成失败的情况
			
 
				+    if not state.get("sql_generation_success", True) and state.get("user_prompt"):
			
 
				+        state["final_response"] = {
			
 
				+            "success": False,
			
 
				+            "response": state["user_prompt"],
			
 
				+            "type": "DATABASE",
			
 
				+            "sql_generation_failed": True,
			
 
				+            "execution_path": state["execution_path"],
			
 
				+            "classification_info": {
			
 
				+                "confidence": state.get("classification_confidence", 0),
			
 
				+                "reason": state.get("classification_reason", ""),
			
 
				+                "method": state.get("classification_method", "")
			
 
				+            }
			
 
				+        }
			
 
				+        return state
			
 
				+    
			
 
				+    # 其他情况保持原有逻辑
			
 
				+    # ... (原有的format_response逻辑)
			
 
				+```
			
 
				+
			
 
				+## 🚀 实施计划
			
 
				+
			
 
				+### **阶段1: 基础重构**
			
 
				+1. 创建 `_agent_sql_generation_node` 节点
			
 
				+2. 创建 `_agent_sql_execution_node` 节点  
			
 
				+3. 更新工作流配置和条件路由
			
 
				+4. 基础功能测试
			
 
				+
			
 
				+### **阶段2: 验证集成**
			
 
				+1. 集成schema_tools的SQL验证逻辑
			
 
				+2. 实现SQL修复功能
			
 
				+3. 添加配置参数控制
			
 
				+4. 验证功能测试
			
 
				+
			
 
				+### **阶段3: 错误处理优化**
			
 
				+1. 完善错误分类和用户提示
			
 
				+2. 优化format_response节点适配
			
 
				+3. 用户体验测试和优化
			
 
				+
			
 
				+### **阶段4: 全面测试**
			
 
				+1. 各种路由模式兼容性测试
			
 
				+2. 边界情况和异常处理测试
			
 
				+3. 性能和稳定性测试
			
 
				+
			
 
				+## 🔍 重要设计细节和约束
			
 
				+
			
 
				+### **SQL修复的执行限制**
			
 
				+- **修复次数限制**：SQL语法修复只执行一次，不进行多次重试
			
 
				+- **修复范围限制**：只修复语法错误和表结构错误，不修改业务逻辑
			
 
				+- **修复失败处理**：如果修复后仍无法通过验证，直接返回错误给用户
			
 
				+
			
 
				+### **验证流程的优先级**
			
 
				+1. **语法验证优先**：先进行EXPLAIN SQL验证
			
 
				+2. **禁止词检查**：通过语法验证后检查禁止的操作词
			
 
				+3. **修复策略**：只对语法错误尝试修复，禁止词错误直接失败
			
 
				+
			
 
				+### **错误处理的统一策略**
			
 
				+- **三种失败情况合并处理**：数据库缺少表/字段、问题模糊、无法判定都统一返回用户提示
			
 
				+- **不进行二次分类**：坚持第一次分类结果，不因SQL生成失败而重新路由到CHAT
			
 
				+- **提示信息明确**：根据具体错误原因给出针对性的用户指导
			
 
				+
			
 
				+### **配置参数的作用范围**
			
 
				+- **验证开关独立**：语法验证和禁止词检查可独立控制
			
 
				+- **修复功能可选**：可以只验证不修复，由配置决定
			
 
				+- **全局生效**：所有路由模式(包括database_direct)都遵循验证配置
			
 
				+
			
 
				+### **节点内部处理约束**
			
 
				+- **原子性保证**：每个节点的处理对LangGraph来说是原子的
			
 
				+- **状态完整性**：节点间通过状态传递所有必要信息
			
 
				+- **错误不中断流程**：验证或修复失败不抛异常，通过状态标记处理
			
 
				+
			
 
				+### **与现有架构的兼容性**
			
 
				+- **工具函数不变**：继续使用现有的@tool装饰的函数
			
 
				+- **状态结构兼容**：新增字段不影响现有状态处理逻辑
			
 
				+- **路由模式兼容**：database_direct、chat_direct、hybrid模式都支持新流程
			
--- a/docs/训练数据管理API概要设计文档.md
+++ b/docs/训练数据管理API概要设计文档.md
@@ -0,0 +1,527 @@
 
				+# 训练数据管理API概要设计文档
			
 
				+
			
 
				+## 📋 概述
			
 
				+
			
 
				+本文档描述了训练数据管理系统的API设计方案，提供完整的CRUD操作接口，支持分页查询、类型筛选、批量操作等功能。该系统旨在为AI训练数据提供统一的管理入口。
			
 
				+
			
 
				+### 🎯 设计目标
			
 
				+- **统一管理**：提供训练数据的统一管理接口
			
 
				+- **类型支持**：支持SQL、文档、DDL、错误SQL四种训练数据类型
			
 
				+- **批量操作**：支持批量创建和删除操作
			
 
				+- **性能优化**：支持分页查询和类型筛选
			
 
				+- **数据统计**：提供详细的数据统计信息
			
 
				+
			
 
				+### 🔧 基础信息
			
 
				+- **基础URL**: `http://localhost:5000`
			
 
				+- **API前缀**: `/api/v0/training_data/`
			
 
				+- **数据格式**: JSON
			
 
				+- **字符编码**: UTF-8
			
 
				+- **命名规范**: 统一使用动词命名（query/create/delete/stats）
			
 
				+
			
 
				+---
			
 
				+
			
 
				+## 🚀 API端点一览
			
 
				+
			
 
				+| API端点 | 方法 | 功能描述 |
			
 
				+|---------|------|----------|
			
 
				+| `/api/v0/training_data/query` | POST | 分页查询训练数据（支持类型筛选和搜索） |
			
 
				+| `/api/v0/training_data/create` | POST | 创建训练数据（支持单条和批量） |
			
 
				+| `/api/v0/training_data/delete` | POST | 删除训练数据（支持批量删除） |
			
 
				+| `/api/v0/training_data/stats` | GET | 获取训练数据统计信息 |
			
 
				+
			
 
				+---
			
 
				+
			
 
				+## 📖 详细API设计
			
 
				+
			
 
				+### 1. 分页查询API
			
 
				+
			
 
				+**端点**: `POST /api/v0/training_data/query`
			
 
				+
			
 
				+**功能**: 分页查询训练数据，支持类型筛选、搜索和排序功能。
			
 
				+
			
 
				+#### 📝 请求参数
			
 
				+
			
 
				+| 参数名 | 类型 | 必填 | 默认值 | 说明 |
			
 
				+|--------|------|------|--------|------|
			
 
				+| `page` | int | 否 | 1 | 页码（从1开始） |
			
 
				+| `page_size` | int | 否 | 20 | 每页记录数（范围：1-100） |
			
 
				+| `training_data_type` | string | 否 | null | 筛选类型：sql/documentation/ddl/error_sql |
			
 
				+| `sort_by` | string | 否 | "id" | 排序字段：id/training_data_type |
			
 
				+| `sort_order` | string | 否 | "desc" | 排序方向：asc/desc |
			
 
				+| `search_keyword` | string | 否 | null | 搜索关键词（在question/content中搜索） |
			
 
				+
			
 
				+#### 🌰 请求示例
			
 
				+
			
 
				+**基础查询**：
			
 
				+```json
			
 
				+{
			
 
				+  "page": 1,
			
 
				+  "page_size": 20
			
 
				+}
			
 
				+```
			
 
				+
			
 
				+**筛选查询**：
			
 
				+```json
			
 
				+{
			
 
				+  "page": 1,
			
 
				+  "page_size": 20,
			
 
				+  "training_data_type": "sql",
			
 
				+  "search_keyword": "用户",
			
 
				+  "sort_by": "id",
			
 
				+  "sort_order": "desc"
			
 
				+}
			
 
				+```
			
 
				+
			
 
				+#### ✅ 成功响应格式
			
 
				+
			
 
				+```json
			
 
				+{
			
 
				+  "code": 200,
			
 
				+  "success": true,
			
 
				+  "message": "查询成功，共找到 156 条记录",
			
 
				+  "data": {
			
 
				+    "records": [
			
 
				+      {
			
 
				+        "id": "uuid-123-sql",
			
 
				+        "training_data_type": "sql",
			
 
				+        "question": "查询所有用户信息",
			
 
				+        "content": "SELECT * FROM users",
			
 
				+        "created_at": "2024-06-24T10:30:00"
			
 
				+      },
			
 
				+      {
			
 
				+        "id": "uuid-456-doc",
			
 
				+        "training_data_type": "documentation", 
			
 
				+        "question": null,
			
 
				+        "content": "用户表包含用户的基本信息...",
			
 
				+        "created_at": "2024-06-24T11:00:00"
			
 
				+      }
			
 
				+    ],
			
 
				+    "pagination": {
			
 
				+      "page": 1,
			
 
				+      "page_size": 20,
			
 
				+      "total": 156,
			
 
				+      "total_pages": 8,
			
 
				+      "has_next": true,
			
 
				+      "has_prev": false
			
 
				+    },
			
 
				+    "filters_applied": {
			
 
				+      "training_data_type": "sql",
			
 
				+      "search_keyword": "用户"
			
 
				+    }
			
 
				+  }
			
 
				+}
			
 
				+```
			
 
				+
			
 
				+---
			
 
				+
			
 
				+### 2. 创建训练数据API
			
 
				+
			
 
				+**端点**: `POST /api/v0/training_data/create`
			
 
				+
			
 
				+**功能**: 创建训练数据，支持单条和批量创建，支持四种数据类型。
			
 
				+
			
 
				+#### 📝 请求参数
			
 
				+
			
 
				+**单条记录**：
			
 
				+```json
			
 
				+{
			
 
				+  "data": {
			
 
				+    "training_data_type": "sql",
			
 
				+    "question": "查询所有用户信息",
			
 
				+    "sql": "SELECT * FROM users"
			
 
				+  }
			
 
				+}
			
 
				+```
			
 
				+
			
 
				+**批量记录**：
			
 
				+```json
			
 
				+{
			
 
				+  "data": [
			
 
				+    {
			
 
				+      "training_data_type": "sql",
			
 
				+      "question": "查询所有用户信息", 
			
 
				+      "sql": "SELECT * FROM users"
			
 
				+    },
			
 
				+    {
			
 
				+      "training_data_type": "documentation",
			
 
				+      "content": "用户表包含用户的基本信息..."
			
 
				+    },
			
 
				+    {
			
 
				+      "training_data_type": "ddl",
			
 
				+      "ddl": "CREATE TABLE users (id INT PRIMARY KEY, name VARCHAR(100));"
			
 
				+    },
			
 
				+    {
			
 
				+      "training_data_type": "error_sql",
			
 
				+      "question": "查询用户",
			
 
				+      "sql": "SELECT * FROM user"
			
 
				+    }
			
 
				+  ]
			
 
				+}
			
 
				+```
			
 
				+
			
 
				+#### 📋 各类型字段要求
			
 
				+
			
 
				+| 类型 | 必填字段 | 可选字段 | 说明 |
			
 
				+|------|----------|----------|------|
			
 
				+| `sql` | `sql` | `question` | 如果不提供question会自动生成，SQL会进行语法检查 |
			
 
				+| `error_sql` | `question`, `sql` | 无 | 错误的SQL示例，不进行语法检查 |
			
 
				+| `documentation` | `content` | 无 | 文档内容，不进行格式检查 |
			
 
				+| `ddl` | `ddl` | 无 | DDL语句，不进行语法检查 |
			
 
				+
			
 
				+#### ✅ 成功响应格式
			
 
				+
			
 
				+```json
			
 
				+{
			
 
				+  "code": 200,
			
 
				+  "success": true,
			
 
				+  "message": "操作成功",
			
 
				+  "data": {
			
 
				+    "response": "训练数据创建完成",
			
 
				+    "total_requested": 4,
			
 
				+    "successfully_created": 3,
			
 
				+    "failed_count": 1,
			
 
				+    "results": [
			
 
				+      {
			
 
				+        "index": 0,
			
 
				+        "success": true,
			
 
				+        "training_id": "uuid-123-sql",
			
 
				+        "type": "sql",
			
 
				+        "message": "SQL训练数据创建成功"
			
 
				+      },
			
 
				+      {
			
 
				+        "index": 1,
			
 
				+        "success": true,
			
 
				+        "training_id": "uuid-456-doc",
			
 
				+        "type": "documentation", 
			
 
				+        "message": "文档训练数据创建成功"
			
 
				+      },
			
 
				+      {
			
 
				+        "index": 2,
			
 
				+        "success": true,
			
 
				+        "training_id": "uuid-789-ddl",
			
 
				+        "type": "ddl",
			
 
				+        "message": "DDL训练数据创建成功"
			
 
				+      },
			
 
				+      {
			
 
				+        "index": 3,
			
 
				+        "success": false,
			
 
				+        "type": "error_sql",
			
 
				+        "error": "创建失败：缺少必填字段question",
			
 
				+        "message": "创建失败"
			
 
				+      }
			
 
				+    ],
			
 
				+    "summary": {
			
 
				+      "sql": 1,
			
 
				+      "documentation": 1,
			
 
				+      "ddl": 1,
			
 
				+      "error_sql": 0
			
 
				+    },
			
 
				+    "current_total_count": 159
			
 
				+  }
			
 
				+}
			
 
				+```
			
 
				+
			
 
				+---
			
 
				+
			
 
				+### 3. 删除训练数据API
			
 
				+
			
 
				+**端点**: `POST /api/v0/training_data/delete`
			
 
				+
			
 
				+**功能**: 删除指定的训练数据记录，支持批量删除。
			
 
				+
			
 
				+#### 📝 请求参数
			
 
				+
			
 
				+| 参数名 | 类型 | 必填 | 说明 |
			
 
				+|--------|------|------|------|
			
 
				+| `ids` | array[string] | 是 | 要删除的训练数据ID列表 |
			
 
				+| `confirm` | boolean | 是 | 确认删除标志，必须为true |
			
 
				+
			
 
				+#### 🌰 请求示例
			
 
				+
			
 
				+```json
			
 
				+{
			
 
				+  "ids": ["uuid-123-sql", "uuid-456-doc", "uuid-789-ddl"],
			
 
				+  "confirm": true
			
 
				+}
			
 
				+```
			
 
				+
			
 
				+#### ✅ 成功响应格式
			
 
				+
			
 
				+```json
			
 
				+{
			
 
				+  "code": 200,
			
 
				+  "success": true,
			
 
				+  "message": "删除操作完成",
			
 
				+  "data": {
			
 
				+    "response": "训练数据删除完成",
			
 
				+    "total_requested": 3,
			
 
				+    "successfully_deleted": 2,
			
 
				+    "failed_count": 1,
			
 
				+    "deleted_ids": ["uuid-123-sql", "uuid-456-doc"],
			
 
				+    "failed_ids": ["uuid-789-ddl"],
			
 
				+    "failed_details": [
			
 
				+      {
			
 
				+        "id": "uuid-789-ddl",
			
 
				+        "error": "记录不存在"
			
 
				+      }
			
 
				+    ],
			
 
				+    "current_total_count": 157
			
 
				+  }
			
 
				+}
			
 
				+```
			
 
				+
			
 
				+---
			
 
				+
			
 
				+### 4. 统计信息API
			
 
				+
			
 
				+**端点**: `GET /api/v0/training_data/stats`
			
 
				+
			
 
				+**功能**: 获取训练数据的统计信息，用于监控和分析。
			
 
				+
			
 
				+#### 🌰 请求示例
			
 
				+
			
 
				+```
			
 
				+GET /api/v0/training_data/stats
			
 
				+```
			
 
				+
			
 
				+#### ✅ 成功响应格式
			
 
				+
			
 
				+```json
			
 
				+{
			
 
				+  "code": 200,
			
 
				+  "success": true,
			
 
				+  "message": "统计信息获取成功",
			
 
				+  "data": {
			
 
				+    "response": "统计信息获取成功",
			
 
				+    "total_count": 156,
			
 
				+    "type_breakdown": {
			
 
				+      "sql": 45,
			
 
				+      "documentation": 38,
			
 
				+      "ddl": 52,
			
 
				+      "error_sql": 21
			
 
				+    },
			
 
				+    "type_percentages": {
			
 
				+      "sql": 28.85,
			
 
				+      "documentation": 24.36,
			
 
				+      "ddl": 33.33,
			
 
				+      "error_sql": 13.46
			
 
				+    },
			
 
				+    "last_updated": "2024-06-24T15:30:00"
			
 
				+  }
			
 
				+}
			
 
				+```
			
 
				+
			
 
				+---
			
 
				+
			
 
				+## 🔧 技术实现要点
			
 
				+
			
 
				+### 1. 数据源集成
			
 
				+
			
 
				+#### 1.1 查询数据源
			
 
				+- 使用现有的 `vn.get_training_data()` 方法获取训练数据
			
 
				+- 基于返回的DataFrame进行分页和筛选处理
			
 
				+- 根据ID后缀判断训练数据类型：
			
 
				+  - `-sql` → sql类型
			
 
				+  - `-doc` → documentation类型
			
 
				+  - `-ddl` → ddl类型
			
 
				+  - `-error_sql` → error_sql类型
			
 
				+
			
 
				+#### 1.2 创建数据源
			
 
				+- **SQL类型**：调用 `vn.train(question=question, sql=sql)` 或 `vn.train(sql=sql)`
			
 
				+- **错误SQL类型**：调用 `vn.train_error_sql(question=question, sql=sql)`
			
 
				+- **文档类型**：调用 `vn.train(documentation=content)`
			
 
				+- **DDL类型**：调用 `vn.train(ddl=ddl)`
			
 
				+
			
 
				+#### 1.3 删除数据源
			
 
				+- 使用 `custompgvector/pgvector.py` 中的 `remove_training_data(id)` 方法
			
 
				+
			
 
				+### 2. 核心算法设计
			
 
				+
			
 
				+#### 2.1 分页算法
			
 
				+```python
			
 
				+def paginate_data(data_list: list, page: int, page_size: int):
			
 
				+    """分页处理算法"""
			
 
				+    total = len(data_list)
			
 
				+    start_idx = (page - 1) * page_size
			
 
				+    end_idx = start_idx + page_size
			
 
				+    page_data = data_list[start_idx:end_idx]
			
 
				+    
			
 
				+    return {
			
 
				+        "data": page_data,
			
 
				+        "pagination": {
			
 
				+            "page": page,
			
 
				+            "page_size": page_size,
			
 
				+            "total": total,
			
 
				+            "total_pages": (total + page_size - 1) // page_size,
			
 
				+            "has_next": end_idx < total,
			
 
				+            "has_prev": page > 1
			
 
				+        }
			
 
				+    }
			
 
				+```
			
 
				+
			
 
				+#### 2.2 类型筛选算法
			
 
				+```python
			
 
				+def filter_by_type(data_list: list, training_data_type: str):
			
 
				+    """按类型筛选算法"""
			
 
				+    if not training_data_type:
			
 
				+        return data_list
			
 
				+    
			
 
				+    return [
			
 
				+        record for record in data_list 
			
 
				+        if record.get('training_data_type') == training_data_type
			
 
				+    ]
			
 
				+```
			
 
				+
			
 
				+#### 2.3 SQL语法检查算法
			
 
				+```python
			
 
				+def validate_sql_syntax(sql: str) -> tuple[bool, str]:
			
 
				+    """SQL语法检查（仅对sql类型）"""
			
 
				+    try:
			
 
				+        import sqlparse
			
 
				+        parsed = sqlparse.parse(sql.strip())
			
 
				+        
			
 
				+        if not parsed or not parsed[0].tokens:
			
 
				+            return False, "SQL语法错误：空语句"
			
 
				+        
			
 
				+        # 基本语法检查
			
 
				+        sql_upper = sql.strip().upper()
			
 
				+        if not any(sql_upper.startswith(keyword) for keyword in 
			
 
				+                  ['SELECT', 'INSERT', 'UPDATE', 'DELETE', 'CREATE', 'ALTER', 'DROP']):
			
 
				+            return False, "SQL语法错误：不是有效的SQL语句"
			
 
				+        
			
 
				+        return True, ""
			
 
				+    except Exception as e:
			
 
				+        return False, f"SQL语法错误：{str(e)}"
			
 
				+```
			
 
				+
			
 
				+### 3. 性能和安全考虑
			
 
				+
			
 
				+#### 3.1 性能优化
			
 
				+- **分页限制**：最大页面大小限制为100条记录
			
 
				+- **批量限制**：批量操作最大支持50条记录
			
 
				+- **查询缓存**：考虑对频繁查询结果进行缓存
			
 
				+- **异步处理**：大批量操作考虑异步处理
			
 
				+
			
 
				+#### 3.2 安全考虑
			
 
				+- **参数验证**：严格验证所有输入参数
			
 
				+- **SQL注入防护**：对SQL内容进行安全检查
			
 
				+- **删除确认**：删除操作必须提供确认标志
			
 
				+- **权限控制**：预留权限验证接口
			
 
				+
			
 
				+#### 3.3 错误处理
			
 
				+- **统一错误格式**：使用项目标准错误响应格式
			
 
				+- **批量操作错误**：部分成功时提供详细的成功/失败信息
			
 
				+- **数据库异常**：妥善处理数据库连接和操作异常
			
 
				+
			
 
				+---
			
 
				+
			
 
				+## 🔄 集成方案
			
 
				+
			
 
				+### 1. 代码集成
			
 
				+- **主要文件**：`citu_app.py` - 添加新的API路由
			
 
				+- **响应格式**：复用 `common/result.py` 中的标准响应格式
			
 
				+- **数据库连接**：复用现有的Vanna实例和数据库连接
			
 
				+- **错误处理**：遵循项目现有的错误处理规范
			
 
				+
			
 
				+### 2. 依赖关系
			
 
				+```
			
 
				+训练数据管理API
			
 
				+├── vn.get_training_data()          # 查询数据源
			
 
				+├── vn.train()                      # 创建训练数据
			
 
				+├── vn.train_error_sql()            # 创建错误SQL
			
 
				+├── vn.remove_training_data()       # 删除数据
			
 
				+└── common/result.py                # 响应格式
			
 
				+```
			
 
				+
			
 
				+### 3. 配置要求
			
 
				+- **数据库连接**：确保PgVector或ChromaDB连接正常
			
 
				+- **Vanna实例**：确保Vanna实例初始化完成
			
 
				+- **依赖库**：sqlparse（用于SQL语法检查）
			
 
				+
			
 
				+---
			
 
				+
			
 
				+## 📊 使用场景示例
			
 
				+
			
 
				+### 1. 典型工作流程
			
 
				+
			
 
				+**步骤1：查看统计信息**
			
 
				+```bash
			
 
				+GET /api/v0/training_data/stats
			
 
				+```
			
 
				+
			
 
				+**步骤2：查询现有数据**
			
 
				+```json
			
 
				+POST /api/v0/training_data/query
			
 
				+{
			
 
				+  "page": 1,
			
 
				+  "page_size": 50,
			
 
				+  "training_data_type": "sql"
			
 
				+}
			
 
				+```
			
 
				+
			
 
				+**步骤3：批量添加训练数据**
			
 
				+```json
			
 
				+POST /api/v0/training_data/create
			
 
				+{
			
 
				+  "data": [
			
 
				+    {
			
 
				+      "training_data_type": "sql",
			
 
				+      "question": "查询活跃用户",
			
 
				+      "sql": "SELECT * FROM users WHERE status = 'active'"
			
 
				+    },
			
 
				+    {
			
 
				+      "training_data_type": "documentation",
			
 
				+      "content": "用户状态字段说明：active表示活跃用户..."
			
 
				+    }
			
 
				+  ]
			
 
				+}
			
 
				+```
			
 
				+
			
 
				+**步骤4：清理无效数据**
			
 
				+```json
			
 
				+POST /api/v0/training_data/delete
			
 
				+{
			
 
				+  "ids": ["uuid-invalid-1", "uuid-invalid-2"],
			
 
				+  "confirm": true
			
 
				+}
			
 
				+```
			
 
				+
			
 
				+### 2. 数据迁移场景
			
 
				+适用于从其他系统批量导入训练数据，支持不同类型的混合导入。
			
 
				+
			
 
				+### 3. 数据清理场景
			
 
				+适用于定期清理低质量或过时的训练数据，维护数据集质量。
			
 
				+
			
 
				+---
			
 
				+
			
 
				+## ⚠️ 注意事项
			
 
				+
			
 
				+### 1. 限制说明
			
 
				+- 分页查询每页最大100条记录
			
 
				+- 批量操作最大50条记录
			
 
				+- 搜索关键词最大长度100字符
			
 
				+- SQL语法检查仅适用于sql类型
			
 
				+
			
 
				+### 2. 兼容性
			
 
				+- 需要确保Vanna实例支持所有调用的方法
			
 
				+- 数据库版本兼容性（PgVector扩展）
			
 
				+- Python依赖库版本要求
			
 
				+
			
 
				+### 3. 监控建议
			
 
				+- 记录API调用日志
			
 
				+- 监控批量操作性能
			
 
				+- 跟踪数据质量指标
			
 
				+- 设置异常告警机制
			
 
				+
			
 
				+---
			
 
				+
			
 
				+## 📝 更新记录
			
 
				+
			
 
				+| 版本 | 日期 | 更新内容 | 作者 |
			
 
				+|------|------|----------|------|
			
 
				+| 1.0 | 2024-06-24 | 初始版本设计 | AI Assistant |
			
 
				+
			
 
				+---
			
 
				+
			
 
				+**文档状态**: 概要设计完成  
			
 
				+**下一步**: 详细设计和开发实现 
			
--- a/docs/训练数据管理API调用说明.md
+++ b/docs/训练数据管理API调用说明.md
@@ -0,0 +1,447 @@
 
				+# 训练数据管理API调用说明
			
 
				+
			
 
				+## 概述
			
 
				+
			
 
				+训练数据管理API提供了完整的训练数据CRUD操作，支持SQL、DDL、文档和错误SQL四种数据类型的管理。所有API都采用统一的响应格式，并提供详细的错误信息。
			
 
				+
			
 
				+**基础URL：** `http://localhost:8084/api/v0`
			
 
				+
			
 
				+## API列表
			
 
				+
			
 
				+| API端点 | 方法 | 功能描述 |
			
 
				+|---------|------|----------|
			
 
				+| `/training_data/stats` | GET | 获取训练数据统计信息 |
			
 
				+| `/training_data/query` | POST | 分页查询训练数据，支持筛选和搜索 |
			
 
				+| `/training_data/create` | POST | 创建训练数据，支持单条和批量操作 |
			
 
				+| `/training_data/delete` | POST | 删除训练数据，支持批量操作 |
			
 
				+
			
 
				+---
			
 
				+
			
 
				+## 1. 获取统计信息
			
 
				+
			
 
				+### 请求信息
			
 
				+```http
			
 
				+GET /api/v0/training_data/stats
			
 
				+```
			
 
				+
			
 
				+### 请求参数
			
 
				+无需参数
			
 
				+
			
 
				+### 响应示例
			
 
				+```json
			
 
				+{
			
 
				+  "code": 200,
			
 
				+  "success": true,
			
 
				+  "message": "操作成功",
			
 
				+  "data": {
			
 
				+    "total_count": 228,
			
 
				+    "type_breakdown": {
			
 
				+      "sql": 210,
			
 
				+      "ddl": 9,
			
 
				+      "documentation": 8,
			
 
				+      "error_sql": 1
			
 
				+    },
			
 
				+    "type_percentages": {
			
 
				+      "sql": 92.11,
			
 
				+      "ddl": 3.95,
			
 
				+      "documentation": 3.51,
			
 
				+      "error_sql": 0.44
			
 
				+    },
			
 
				+    "response": "统计信息获取成功",
			
 
				+    "last_updated": "2025-06-24T17:39:36.895114"
			
 
				+  }
			
 
				+}
			
 
				+```
			
 
				+
			
 
				+### 响应字段说明
			
 
				+- `total_count`: 训练数据总数
			
 
				+- `type_breakdown`: 各类型数据的具体数量
			
 
				+- `type_percentages`: 各类型数据的百分比（保留2位小数）
			
 
				+- `last_updated`: 最后更新时间
			
 
				+
			
 
				+---
			
 
				+
			
 
				+## 2. 查询训练数据
			
 
				+
			
 
				+### 请求信息
			
 
				+```http
			
 
				+POST /api/v0/training_data/query
			
 
				+```
			
 
				+
			
 
				+### 请求参数
			
 
				+```json
			
 
				+{
			
 
				+  "page": 1,                    // 页码，必须大于0，默认1
			
 
				+  "page_size": 20,              // 每页大小，1-100之间，默认20
			
 
				+  "training_data_type": "sql",  // 可选，筛选类型："sql"|"ddl"|"documentation"|"error_sql"
			
 
				+  "search_keyword": "用户",     // 可选，搜索关键词，最大100字符
			
 
				+  "sort_by": "id",              // 可选，排序字段："id"|"training_data_type"，默认"id"
			
 
				+  "sort_order": "desc"          // 可选，排序方向："asc"|"desc"，默认"desc"
			
 
				+}
			
 
				+```
			
 
				+
			
 
				+### 响应示例
			
 
				+```json
			
 
				+{
			
 
				+  "code": 200,
			
 
				+  "success": true,
			
 
				+  "message": "操作成功",
			
 
				+  "data": {
			
 
				+    "records": [
			
 
				+      {
			
 
				+        "id": "fb113c5e-6cde-4653-ac5f-7558f6e634db-sql",
			
 
				+        "training_data_type": "sql",
			
 
				+        "question": "查看活跃用户列表",
			
 
				+        "content": "SELECT user_id, user_name, last_login FROM users WHERE last_login >= CURRENT_DATE - INTERVAL '30 days';"
			
 
				+      }
			
 
				+    ],
			
 
				+    "pagination": {
			
 
				+      "page": 1,
			
 
				+      "page_size": 5,
			
 
				+      "total": 2,
			
 
				+      "total_pages": 1,
			
 
				+      "has_next": false,
			
 
				+      "has_prev": false
			
 
				+    },
			
 
				+    "filters_applied": {
			
 
				+      "training_data_type": "sql",
			
 
				+      "search_keyword": "用户"
			
 
				+    },
			
 
				+    "response": "查询成功，共找到 2 条记录"
			
 
				+  }
			
 
				+}
			
 
				+```
			
 
				+
			
 
				+### 错误响应示例
			
 
				+```json
			
 
				+{
			
 
				+  "code": 400,
			
 
				+  "success": false,
			
 
				+  "message": "请求参数错误",
			
 
				+  "data": {
			
 
				+    "error_type": "missing_required_params",
			
 
				+    "missing_params": ["page"],
			
 
				+    "response": "页码必须大于0",
			
 
				+    "timestamp": "2025-06-24T17:41:47.486749"
			
 
				+  }
			
 
				+}
			
 
				+```
			
 
				+
			
 
				+---
			
 
				+
			
 
				+## 3. 创建训练数据
			
 
				+
			
 
				+### 请求信息
			
 
				+```http
			
 
				+POST /api/v0/training_data/create
			
 
				+```
			
 
				+
			
 
				+### 请求参数
			
 
				+
			
 
				+#### 单条创建
			
 
				+```json
			
 
				+{
			
 
				+  "data": {
			
 
				+    "training_data_type": "sql",
			
 
				+    "question": "查询所有用户",
			
 
				+    "sql": "SELECT * FROM users WHERE delete_ts IS NULL"
			
 
				+  }
			
 
				+}
			
 
				+```
			
 
				+
			
 
				+#### 批量创建
			
 
				+```json
			
 
				+{
			
 
				+  "data": [
			
 
				+    {
			
 
				+      "training_data_type": "sql",
			
 
				+      "question": "查询活跃用户",
			
 
				+      "sql": "SELECT * FROM users WHERE status = 'active'"
			
 
				+    },
			
 
				+    {
			
 
				+      "training_data_type": "documentation",
			
 
				+      "content": "用户表用于存储系统用户的基本信息和状态。"
			
 
				+    },
			
 
				+    {
			
 
				+      "training_data_type": "ddl",
			
 
				+      "ddl": "CREATE TABLE users (id INT PRIMARY KEY, name VARCHAR(100));"
			
 
				+    },
			
 
				+    {
			
 
				+      "training_data_type": "error_sql",
			
 
				+      "question": "错误的查询示例",
			
 
				+      "sql": "SELCT * FROM users"
			
 
				+    }
			
 
				+  ]
			
 
				+}
			
 
				+```
			
 
				+
			
 
				+### 数据类型字段要求
			
 
				+
			
 
				+| 类型 | 必需字段 | 可选字段 | 说明 |
			
 
				+|------|----------|----------|------|
			
 
				+| `sql` | `training_data_type`, `question`, `sql` | - | SQL查询训练数据 |
			
 
				+| `documentation` | `training_data_type`, `content` | - | 文档说明训练数据 |
			
 
				+| `ddl` | `training_data_type`, `ddl` | - | DDL语句训练数据 |
			
 
				+| `error_sql` | `training_data_type`, `question`, `sql` | - | 错误SQL示例数据 |
			
 
				+
			
 
				+### 响应示例
			
 
				+```json
			
 
				+{
			
 
				+  "code": 200,
			
 
				+  "success": true,
			
 
				+  "message": "操作成功",
			
 
				+  "data": {
			
 
				+    "total_requested": 1,
			
 
				+    "successfully_created": 1,
			
 
				+    "failed_count": 0,
			
 
				+    "results": [
			
 
				+      {
			
 
				+        "index": 0,
			
 
				+        "success": true,
			
 
				+        "type": "sql",
			
 
				+        "training_id": "e1afe1c2-6956-4133-9cb6-0f83c5e1b12d-sql",
			
 
				+        "message": "sql训练数据创建成功"
			
 
				+      }
			
 
				+    ],
			
 
				+    "summary": {
			
 
				+      "sql": 1,
			
 
				+      "ddl": 0,
			
 
				+      "documentation": 0,
			
 
				+      "error_sql": 0
			
 
				+    },
			
 
				+    "current_total_count": 229,
			
 
				+    "response": "训练数据创建完成"
			
 
				+  }
			
 
				+}
			
 
				+```
			
 
				+
			
 
				+### SQL安全检查
			
 
				+
			
 
				+系统会自动检查SQL语句，禁止以下危险操作：
			
 
				+- `UPDATE`：数据更新操作
			
 
				+- `DELETE`：数据删除操作
			
 
				+- `DROP`：表删除操作
			
 
				+- `ALERT`：表结构修改操作
			
 
				+
			
 
				+如果检测到危险操作，会返回错误：
			
 
				+```json
			
 
				+{
			
 
				+  "code": 200,
			
 
				+  "success": true,
			
 
				+  "message": "操作成功",
			
 
				+  "data": {
			
 
				+    "total_requested": 1,
			
 
				+    "successfully_created": 0,
			
 
				+    "failed_count": 1,
			
 
				+    "results": [
			
 
				+      {
			
 
				+        "index": 0,
			
 
				+        "success": false,
			
 
				+        "type": "sql",
			
 
				+        "error": "在训练集中禁止使用\"UPDATE,DELETE,ALERT,DROP\"",
			
 
				+        "message": "创建失败"
			
 
				+      }
			
 
				+    ]
			
 
				+  }
			
 
				+}
			
 
				+```
			
 
				+
			
 
				+### 批量操作限制
			
 
				+- 单次批量操作最多支持50条记录
			
 
				+- 超出限制会返回400错误
			
 
				+
			
 
				+---
			
 
				+
			
 
				+## 4. 删除训练数据
			
 
				+
			
 
				+### 请求信息
			
 
				+```http
			
 
				+POST /api/v0/training_data/delete
			
 
				+```
			
 
				+
			
 
				+### 请求参数
			
 
				+```json
			
 
				+{
			
 
				+  "ids": [
			
 
				+    "e1afe1c2-6956-4133-9cb6-0f83c5e1b12d-sql",
			
 
				+    "0db3b76a-6fa5-4c8e-9115-3ec7cc6159fe-doc"
			
 
				+  ],
			
 
				+  "confirm": true  // 必须为true，安全确认机制
			
 
				+}
			
 
				+```
			
 
				+
			
 
				+### 参数说明
			
 
				+- `ids`: 要删除的训练数据ID数组，必需
			
 
				+- `confirm`: 删除确认，必须为`true`，否则返回400错误
			
 
				+
			
 
				+### 响应示例
			
 
				+```json
			
 
				+{
			
 
				+  "code": 200,
			
 
				+  "success": true,
			
 
				+  "message": "操作成功",
			
 
				+  "data": {
			
 
				+    "total_requested": 2,
			
 
				+    "successfully_deleted": 1,
			
 
				+    "failed_count": 1,
			
 
				+    "deleted_ids": [
			
 
				+      "e1afe1c2-6956-4133-9cb6-0f83c5e1b12d-sql"
			
 
				+    ],
			
 
				+    "failed_ids": [
			
 
				+      "0db3b76a-6fa5-4c8e-9115-3ec7cc6159fe-doc"
			
 
				+    ],
			
 
				+    "failed_details": [
			
 
				+      {
			
 
				+        "id": "0db3b76a-6fa5-4c8e-9115-3ec7cc6159fe-doc",
			
 
				+        "error": "记录不存在或删除失败"
			
 
				+      }
			
 
				+    ],
			
 
				+    "current_total_count": 228,
			
 
				+    "response": "训练数据删除完成"
			
 
				+  }
			
 
				+}
			
 
				+```
			
 
				+
			
 
				+### 确认机制错误
			
 
				+```json
			
 
				+{
			
 
				+  "code": 400,
			
 
				+  "success": false,
			
 
				+  "message": "请求参数错误",
			
 
				+  "data": {
			
 
				+    "error_type": "missing_required_params",
			
 
				+    "response": "删除操作需要确认，请设置confirm为true",
			
 
				+    "timestamp": "2025-06-24T17:39:58.501962"
			
 
				+  }
			
 
				+}
			
 
				+```
			
 
				+
			
 
				+### 批量操作限制
			
 
				+- 单次批量删除最多支持50条记录
			
 
				+- 超出限制会返回400错误
			
 
				+
			
 
				+---
			
 
				+
			
 
				+## 通用响应格式
			
 
				+
			
 
				+### 成功响应
			
 
				+```json
			
 
				+{
			
 
				+  "code": 200,
			
 
				+  "success": true,
			
 
				+  "message": "操作成功",
			
 
				+  "data": {
			
 
				+    // 具体的响应数据
			
 
				+  }
			
 
				+}
			
 
				+```
			
 
				+
			
 
				+### 错误响应
			
 
				+```json
			
 
				+{
			
 
				+  "code": 400|500|503,
			
 
				+  "success": false,
			
 
				+  "message": "错误类型描述",
			
 
				+  "data": {
			
 
				+    "error_type": "错误类型标识",
			
 
				+    "response": "用户友好的错误信息",
			
 
				+    "timestamp": "错误发生时间",
			
 
				+    // 其他错误相关字段
			
 
				+  }
			
 
				+}
			
 
				+```
			
 
				+
			
 
				+## 错误码说明
			
 
				+
			
 
				+| 状态码 | 含义 | 常见场景 |
			
 
				+|--------|------|----------|
			
 
				+| 200 | 成功 | 请求正常处理 |
			
 
				+| 400 | 请求参数错误 | 参数验证失败、缺少必需参数 |
			
 
				+| 500 | 系统内部错误 | 数据库错误、系统异常 |
			
 
				+| 503 | 服务不可用 | 系统维护、组件异常 |
			
 
				+
			
 
				+## 使用示例
			
 
				+
			
 
				+### Python调用示例
			
 
				+```python
			
 
				+import requests
			
 
				+import json
			
 
				+
			
 
				+BASE_URL = "http://localhost:8084/api/v0"
			
 
				+
			
 
				+# 1. 获取统计信息
			
 
				+def get_stats():
			
 
				+    response = requests.get(f"{BASE_URL}/training_data/stats")
			
 
				+    return response.json()
			
 
				+
			
 
				+# 2. 查询数据
			
 
				+def query_data(page=1, page_size=20, keyword=None, data_type=None):
			
 
				+    data = {"page": page, "page_size": page_size}
			
 
				+    if keyword:
			
 
				+        data["search_keyword"] = keyword
			
 
				+    if data_type:
			
 
				+        data["training_data_type"] = data_type
			
 
				+    
			
 
				+    response = requests.post(f"{BASE_URL}/training_data/query", json=data)
			
 
				+    return response.json()
			
 
				+
			
 
				+# 3. 创建数据
			
 
				+def create_data(training_data):
			
 
				+    response = requests.post(f"{BASE_URL}/training_data/create", 
			
 
				+                           json={"data": training_data})
			
 
				+    return response.json()
			
 
				+
			
 
				+# 4. 删除数据
			
 
				+def delete_data(ids):
			
 
				+    response = requests.post(f"{BASE_URL}/training_data/delete",
			
 
				+                           json={"ids": ids, "confirm": True})
			
 
				+    return response.json()
			
 
				+
			
 
				+# 使用示例
			
 
				+if __name__ == "__main__":
			
 
				+    # 获取统计
			
 
				+    stats = get_stats()
			
 
				+    print(f"总数据量: {stats['data']['total_count']}")
			
 
				+    
			
 
				+    # 查询SQL类型数据
			
 
				+    results = query_data(data_type="sql", keyword="用户")
			
 
				+    print(f"找到 {results['data']['pagination']['total']} 条记录")
			
 
				+    
			
 
				+    # 创建新数据
			
 
				+    new_data = {
			
 
				+        "training_data_type": "sql",
			
 
				+        "question": "查询测试用户",
			
 
				+        "sql": "SELECT * FROM users WHERE status = 'test'"
			
 
				+    }
			
 
				+    create_result = create_data(new_data)
			
 
				+    if create_result['data']['successfully_created'] > 0:
			
 
				+        created_id = create_result['data']['results'][0]['training_id']
			
 
				+        print(f"创建成功，ID: {created_id}")
			
 
				+        
			
 
				+        # 删除刚创建的数据
			
 
				+        delete_result = delete_data([created_id])
			
 
				+        print(f"删除成功: {delete_result['data']['successfully_deleted']} 条")
			
 
				+```
			
 
				+
			
 
				+## 注意事项
			
 
				+
			
 
				+1. **安全性**：
			
 
				+   - SQL类型数据会进行语法检查和安全检查
			
 
				+   - 禁止UPDATE、DELETE、DROP、ALERT等危险操作
			
 
				+   - 删除操作需要明确确认（confirm=true）
			
 
				+
			
 
				+2. **性能考虑**：
			
 
				+   - 查询API支持分页，建议合理设置page_size
			
 
				+   - 批量操作限制在50条以内
			
 
				+   - 搜索关键词限制100字符以内
			
 
				+
			
 
				+3. **数据类型**：
			
 
				+   - 确保为不同类型的训练数据提供正确的字段
			
 
				+   - SQL和error_sql类型需要question和sql字段
			
 
				+   - documentation类型需要content字段
			
 
				+   - ddl类型需要ddl字段
			
 
				+
			
 
				+4. **错误处理**：
			
 
				+   - 始终检查响应的success字段
			
 
				+   - 批量操作可能部分成功，需要检查具体结果
			
 
				+   - 关注failed_count和failed_details获取失败详情 
			
--- a/requirements.txt
+++ b/requirements.txt
@@ -5,4 +5,5 @@ langchain-core==0.3.64
 
				 langchain-postgres==0.0.14
			
 
				 langgraph==0.4.8
			
 
				 langchain==0.3.23
			
 
				-redis==5.0.1
			
 
				+redis==5.0.1
			
 
				+sqlparse==0.4.4
			
--- a/test_training_data_apis.py
+++ b/test_training_data_apis.py
@@ -0,0 +1,180 @@
 
				+#!/usr/bin/env python3
			
 
				+# -*- coding: utf-8 -*-
			
 
				+"""
			
 
				+训练数据管理API测试脚本
			
 
				+用于测试新增的训练数据管理接口
			
 
				+"""
			
 
				+
			
 
				+import requests
			
 
				+import json
			
 
				+import sys
			
 
				+
			
 
				+# API基础URL
			
 
				+BASE_URL = "http://localhost:8084"
			
 
				+API_PREFIX = "/api/v0/training_data"
			
 
				+
			
 
				+def test_api(method: str, endpoint: str, data=None, expected_status=200):
			
 
				+    """测试API的通用函数"""
			
 
				+    url = f"{BASE_URL}{API_PREFIX}{endpoint}"
			
 
				+    
			
 
				+    try:
			
 
				+        if method == "GET":
			
 
				+            response = requests.get(url)
			
 
				+        elif method == "POST":
			
 
				+            response = requests.post(url, json=data, headers={'Content-Type': 'application/json'})
			
 
				+        elif method == "DELETE":
			
 
				+            response = requests.delete(url, json=data, headers={'Content-Type': 'application/json'})
			
 
				+        else:
			
 
				+            print(f"❌ 不支持的HTTP方法: {method}")
			
 
				+            return False
			
 
				+        
			
 
				+        print(f"📤 {method} {endpoint}")
			
 
				+        if data:
			
 
				+            print(f"📋 请求数据: {json.dumps(data, ensure_ascii=False, indent=2)}")
			
 
				+        
			
 
				+        print(f"📥 状态码: {response.status_code}")
			
 
				+        
			
 
				+        if response.status_code == expected_status:
			
 
				+            print("✅ 状态码正确")
			
 
				+        else:
			
 
				+            print(f"⚠️ 期望状态码: {expected_status}, 实际状态码: {response.status_code}")
			
 
				+        
			
 
				+        try:
			
 
				+            response_json = response.json()
			
 
				+            print(f"📄 响应: {json.dumps(response_json, ensure_ascii=False, indent=2)}")
			
 
				+            return True
			
 
				+        except:
			
 
				+            print(f"📄 响应: {response.text}")
			
 
				+            return False
			
 
				+            
			
 
				+    except requests.ConnectionError:
			
 
				+        print(f"❌ 连接失败: 请确保服务器运行在 {BASE_URL}")
			
 
				+        return False
			
 
				+    except Exception as e:
			
 
				+        print(f"❌ 请求失败: {str(e)}")
			
 
				+        return False
			
 
				+
			
 
				+def main():
			
 
				+    """主测试函数"""
			
 
				+    print("🚀 开始测试训练数据管理API...")
			
 
				+    print(f"🔗 服务器地址: {BASE_URL}")
			
 
				+    print("="*60)
			
 
				+    
			
 
				+    # 1. 测试统计API (GET)
			
 
				+    print("\n📊 测试统计API")
			
 
				+    test_api("GET", "/stats")
			
 
				+    
			
 
				+    # 2. 测试查询API (POST) - 基础查询
			
 
				+    print("\n🔍 测试查询API - 基础查询")
			
 
				+    test_api("POST", "/query", {
			
 
				+        "page": 1,
			
 
				+        "page_size": 10
			
 
				+    })
			
 
				+    
			
 
				+    # 3. 测试查询API (POST) - 带筛选
			
 
				+    print("\n🔍 测试查询API - 带筛选")
			
 
				+    test_api("POST", "/query", {
			
 
				+        "page": 1,
			
 
				+        "page_size": 5,
			
 
				+        "training_data_type": "sql",
			
 
				+        "search_keyword": "用户"
			
 
				+    })
			
 
				+    
			
 
				+    # 4. 测试创建API (POST) - 单条SQL记录
			
 
				+    print("\n➕ 测试创建API - 单条SQL记录")
			
 
				+    test_api("POST", "/create", {
			
 
				+        "data": {
			
 
				+            "training_data_type": "sql",
			
 
				+            "question": "查询所有测试用户",
			
 
				+            "sql": "SELECT * FROM users WHERE status = 'test'"
			
 
				+        }
			
 
				+    })
			
 
				+    
			
 
				+    # 5. 测试创建API (POST) - 批量记录
			
 
				+    print("\n➕ 测试创建API - 批量记录")
			
 
				+    test_api("POST", "/create", {
			
 
				+        "data": [
			
 
				+            {
			
 
				+                "training_data_type": "documentation",
			
 
				+                "content": "这是一个测试文档，用于说明用户表的结构和用途。"
			
 
				+            },
			
 
				+            {
			
 
				+                "training_data_type": "ddl",
			
 
				+                "ddl": "CREATE TABLE test_table (id INT PRIMARY KEY, name VARCHAR(100));"
			
 
				+            }
			
 
				+        ]
			
 
				+    })
			
 
				+    
			
 
				+    # 6. 测试创建API (POST) - SQL语法错误
			
 
				+    print("\n➕ 测试创建API - SQL语法错误")
			
 
				+    test_api("POST", "/create", {
			
 
				+        "data": {
			
 
				+            "training_data_type": "sql",
			
 
				+            "question": "测试错误SQL",
			
 
				+            "sql": "INVALID SQL SYNTAX"
			
 
				+        }
			
 
				+    }, expected_status=200)  # 批量操作中的错误仍返回200，但results中会有错误信息
			
 
				+    
			
 
				+    # 6.1. 测试创建API (POST) - 危险SQL操作检查
			
 
				+    print("\n➕ 测试创建API - 危险SQL操作检查")
			
 
				+    test_api("POST", "/create", {
			
 
				+        "data": [
			
 
				+            {
			
 
				+                "training_data_type": "sql",
			
 
				+                "question": "测试UPDATE操作",
			
 
				+                "sql": "UPDATE users SET status = 'inactive' WHERE id = 1"
			
 
				+            },
			
 
				+            {
			
 
				+                "training_data_type": "sql",
			
 
				+                "question": "测试DELETE操作",
			
 
				+                "sql": "DELETE FROM users WHERE id = 1"
			
 
				+            },
			
 
				+            {
			
 
				+                "training_data_type": "sql",
			
 
				+                "question": "测试DROP操作",
			
 
				+                "sql": "DROP TABLE test_table"
			
 
				+            }
			
 
				+        ]
			
 
				+    }, expected_status=200)  # 批量操作返回200，但会有错误信息
			
 
				+    
			
 
				+    # 7. 测试删除API (POST) - 不存在的ID
			
 
				+    print("\n🗑️ 测试删除API - 不存在的ID")
			
 
				+    test_api("POST", "/delete", {
			
 
				+        "ids": ["non-existent-id-1", "non-existent-id-2"],
			
 
				+        "confirm": True
			
 
				+    })
			
 
				+    
			
 
				+    # 8. 测试删除API (POST) - 缺少确认
			
 
				+    print("\n🗑️ 测试删除API - 缺少确认")
			
 
				+    test_api("POST", "/delete", {
			
 
				+        "ids": ["test-id"],
			
 
				+        "confirm": False
			
 
				+    }, expected_status=400)
			
 
				+    
			
 
				+    # 9. 测试参数验证 - 页码错误
			
 
				+    print("\n⚠️ 测试参数验证 - 页码错误")
			
 
				+    test_api("POST", "/query", {
			
 
				+        "page": 0,
			
 
				+        "page_size": 10
			
 
				+    }, expected_status=400)
			
 
				+    
			
 
				+    # 10. 测试参数验证 - 页面大小错误
			
 
				+    print("\n⚠️ 测试参数验证 - 页面大小错误")
			
 
				+    test_api("POST", "/query", {
			
 
				+        "page": 1,
			
 
				+        "page_size": 150
			
 
				+    }, expected_status=400)
			
 
				+    
			
 
				+    print(f"\n{'='*60}")
			
 
				+    print("🎯 测试完成！")
			
 
				+    print("\n📝 说明：")
			
 
				+    print("- ✅ 表示API响应正常")
			
 
				+    print("- ⚠️ 表示状态码不符合预期")
			
 
				+    print("- ❌ 表示连接或请求失败")
			
 
				+    print("\n💡 提示：")
			
 
				+    print("- 首次运行时可能没有训练数据，这是正常的")
			
 
				+    print("- 创建操作成功后，再次查询可以看到新增的数据")
			
 
				+    print("- 删除不存在的ID会返回成功，但failed_count会显示失败数量")
			
 
				+
			
 
				+if __name__ == "__main__":
			
 
				+    main()