6 месяцев назад · 0266aae652
--- a/agent/citu_agent.py
+++ b/agent/citu_agent.py
@@ -84,19 +84,19 @@ class CituLangGraphAgent:
 
															     def _classify_question_node(self, state: AgentState) -> AgentState:
														
 
															-        """问题分类节点 - 支持渐进式分类策略"""
														
 
															+        """问题分类节点 - 使用混合分类策略（规则+LLM）"""
														
 
															         try:
														
 
															             # 从state中获取路由模式，而不是从配置文件读取
														
 
															             routing_mode = state.get("routing_mode", "hybrid")
														
 
															             self.logger.info(f"开始分类问题: {state['question']}")
														
 
															-            # 获取上下文类型（如果有的话）
														
 
															+            # 获取上下文类型（保留兼容性，但不在分类中使用）
														
 
															             context_type = state.get("context_type")
														
 
															             if context_type:
														
 
															                 self.logger.info(f"检测到上下文类型: {context_type}")
														
 
															-            # 使用渐进式分类策略，传递路由模式
														
 
															+            # 使用混合分类策略（规则+LLM），传递路由模式
														
 
															             classification_result = self.classifier.classify(state["question"], context_type, routing_mode)
														
 
															             # 更新状态
														
@@ -733,7 +733,7 @@ class CituLangGraphAgent:
 
															         Args:
														
 
															             question: 用户问题
														
 
															             conversation_id: 对话ID
														
 
															-            context_type: 上下文类型 ("DATABASE" 或 "CHAT")，用于渐进式分类
														
 
															+            context_type: 上下文类型（保留兼容性参数，当前未使用）
														
 
															             routing_mode: 路由模式，可选，用于覆盖配置文件设置
														
 
															         Returns:
														
@@ -778,7 +778,7 @@ class CituLangGraphAgent:
 
															             }
														
 
															     def _create_initial_state(self, question: str, conversation_id: str = None, context_type: str = None, routing_mode: str = None) -> AgentState:
														
 
															-        """创建初始状态 - 支持渐进式分类"""
														
 
															+        """创建初始状态 - 支持兼容性参数"""
														
 
															         # 确定使用的路由模式
														
 
															         if routing_mode:
														
 
															             effective_routing_mode = routing_mode
														
--- a/agent/classifier.py
+++ b/agent/classifier.py
@@ -44,122 +44,59 @@ class QuestionClassifier:
 
															             self.medium_confidence_threshold = 0.6
														
 
															             self.logger.warning("配置文件不可用，使用默认分类器参数")
														
 
															-        # 基于高速公路服务区业务的精准关键词
														
 
															-        self.strong_business_keywords = {
														
 
															-            "核心业务实体": [
														
 
															-                "服务区", "档口", "商铺", "收费站", "高速公路",
														
 
															-                "驿美", "驿购",  # 业务系统名称
														
 
															-                "北区", "南区", "西区", "东区", "两区",  # 物理分区
														
 
															-                "停车区", "公司", "管理公司", "运营公司", "驿美运营公司"  # 公司相关
														
 
															-            ],
														
 
															-            "支付业务": [
														
 
															-                "微信支付", "支付宝支付", "现金支付", "行吧支付", "金豆支付",
														
 
															-                "支付金额", "订单数量", "营业额", "收入", "营业收入",
														
 
															-                "微信", "支付宝", "现金", "行吧", "金豆",  # 简化形式
														
 
															-                "wx", "zfb", "rmb", "xs", "jd"  # 系统字段名
														
 
															-            ],
														
 
															-            "经营品类": [
														
 
															-                "餐饮", "小吃", "便利店", "整体租赁",
														
 
															-                "驿美餐饮", "品牌", "经营品类", "商业品类"
														
 
															-            ],
														
 
															-            "车流业务": [
														
 
															-                "车流量", "车辆数量", "客车", "货车", 
														
 
															-                "过境", "危化品", "城际", "车辆统计",
														
 
															-                "流量统计", "车型分布"
														
 
															-            ],
														
 
															-            "地理路线": [
														
 
															-                "大广", "昌金", "昌栗", "线路", "路段", "路线",
														
 
															-                "高速线路", "公路线路"
														
 
															-            ],
														
 
															-            "系统查询指示词": [
														
 
															-                "当前系统", "当前数据库", "当前数据", "数据库"
														
 
															-                "本系统", "系统", "数据库中", "数据中",
														
 
															-                "现有数据", "已有数据", "存储的数据",
														
 
															-                "平台数据", "我们的数据库", "这个系统"
														
 
															-            ]
														
 
															-        }
														
 
															-        
														
 
															-        # 查询意图词（辅助判断）
														
 
															-        self.query_intent_keywords = [
														
 
															-            "统计", "查询", "分析", "排行", "排名",
														
 
															-            "报表", "报告", "汇总", "计算", "对比",
														
 
															-            "趋势", "占比", "百分比", "比例",
														
 
															-            "最大", "最小", "最高", "最低", "平均",
														
 
															-            "总计", "合计", "累计", "求和", "求平均",
														
 
															-            "生成", "导出", "显示", "列出", "共有"
														
 
															-        ]
														
 
															-        
														
 
															-        # 非业务实体词（包含则倾向CHAT）
														
 
															-        self.non_business_keywords = [
														
 
															-            # 农产品/食物
														
 
															-            "荔枝", "苹果", "西瓜", "水果", "蔬菜", "大米", "小麦",
														
 
															-            "橙子", "香蕉", "葡萄", "草莓", "樱桃", "桃子", "梨",
														
 
															+        # 加载词典配置（新增逻辑）
														
 
															+        self._load_dict_config()
														
 
															+
														
 
															+    def _load_dict_config(self):
														
 
															+        """加载分类器词典配置"""
														
 
															+        try:
														
 
															+            from agent.config import get_classifier_dict_config
														
 
															+            dict_config = get_classifier_dict_config()
														
 
															-            # 技术概念  
														
 
															-            "人工智能", "机器学习", "编程", "算法", "深度学习",
														
 
															-            "AI", "神经网络", "模型训练", "数据挖掘",
														
 
															+            # 加载关键词列表
														
 
															+            self.strong_business_keywords = dict_config.strong_business_keywords
														
 
															+            self.query_intent_keywords = dict_config.query_intent_keywords
														
 
															+            self.non_business_keywords = dict_config.non_business_keywords
														
 
															+            self.sql_patterns = dict_config.sql_patterns
														
 
															+            self.chat_keywords = dict_config.chat_keywords
														
 
															-            # 身份询问
														
 
															-            "你是谁", "你是什么", "你叫什么", "你的名字", "你是什么AI",
														
 
															-            "什么模型", "大模型", "AI助手", "助手", "机器人",
														
 
															+            # 加载权重配置
														
 
															+            self.weights = dict_config.weights
														
 
															-            # 天气相关
														
 
															-            "天气", "气温", "下雨", "晴天", "阴天", "温度",
														
 
															-            "天气预报", "气候", "降雨", "雪天",
														
 
															+            # 加载其他配置
														
 
															+            self.metadata = dict_config.metadata
														
 
															-            # 其他生活常识
														
 
															-            "怎么做饭", "如何减肥", "健康", "医疗", "病症",
														
 
															-            "历史", "地理", "文学", "电影", "音乐", "体育",
														
 
															-            "娱乐", "游戏", "小说", "新闻", "政治", "战争",
														
 
															-            "足球", "NBA", "篮球", "乒乓球", "冠军", "夺冠",
														
 
															-            "高考",
														
 
															+            total_keywords = (
														
 
															+                sum(len(keywords) for keywords in self.strong_business_keywords.values()) +
														
 
															+                len(self.query_intent_keywords) +
														
 
															+                len(self.non_business_keywords) +
														
 
															+                len(self.sql_patterns) +
														
 
															+                len(self.chat_keywords)
														
 
															+            )
														
 
															+            
														
 
															+            self.logger.info(f"从YAML配置文件加载词典完成，共加载 {total_keywords} 个关键词")
														
 
															+            
														
 
															+        except Exception as e:
														
 
															+            self.logger.warning(f"加载YAML词典配置失败: {str(e)}，使用代码中的备用配置")
														
 
															+            self._load_default_dict()
														
 
															-            # 旅游出行
														
 
															-            "旅游","景点","门票","酒店","机票","航班","高铁","的士",
														
 
															-            #情绪
														
 
															-            "伤心","开心","无聊","生气","孤独","累了","烦恼","心情","难过","抑郁",
														
 
															-            #商业
														
 
															-            "股票","基金","理财","投资","经济","通货膨胀","上市",
														
 
															-            #哲学
														
 
															-            "人生意义","价值观","道德","信仰","宗教","爱情",
														
 
															-            #地理
														
 
															-            "全球","全国","亚洲","发展中","欧洲","美洲","东亚","东南亚","南美","非洲","大洋"
														
 
															-        ]
														
 
															+    def _load_default_dict(self):
														
 
															+        """YAML配置加载失败时的处理"""
														
 
															+        error_msg = "YAML词典配置文件加载失败，无法初始化分类器"
														
 
															+        self.logger.error(error_msg)
														
 
															-        # SQL关键词（技术层面的数据库操作）
														
 
															-        # business_score +3
														
 
															-        self.sql_patterns = [
														
 
															-            r"\b(select|from|where|group by|order by|having|join|update)\b",
														
 
															-            r"\b(数据库|表名|表|字段名|SQL|sql|database|table)\b"
														
 
															-        ]
														
 
															+        # 初始化空的weights字典，使用代码中的默认值
														
 
															+        self.weights = {}
														
 
															-        # 聊天关键词（平台功能和帮助）
														
 
															-        self.chat_keywords = [
														
 
															-            "你好啊", "谢谢", "再见", "怎么样", "如何", "为什么", "什么是",
														
 
															-            "介绍", "解释", "说明", "帮助", "操作", "使用方法", "功能",
														
 
															-            "教程", "指南", "手册","讲解"
														
 
															-        ]
														
 
															-        
														
 
															-        # 追问关键词（用于检测追问型问题）
														
 
															-        self.follow_up_keywords = [
														
 
															-            "还有", "详细", "具体", "更多", "继续", "再", "也",
														
 
															-            "那么", "另外", "其他", "以及", "还", "进一步",
														
 
															-            "深入", "补充", "额外", "此外", "同时", "并且"
														
 
															-        ]
														
 
															-        
														
 
															-        # 话题切换关键词（明显的话题转换）
														
 
															-        self.topic_switch_keywords = [
														
 
															-            "你好", "你是", "介绍", "功能", "帮助", "使用方法",
														
 
															-            "平台", "系统", "AI", "助手", "谢谢", "再见"
														
 
															-        ]
														
 
															+        raise RuntimeError(error_msg)
														
 
															     def classify(self, question: str, context_type: Optional[str] = None, routing_mode: Optional[str] = None) -> ClassificationResult:
														
 
															         """
														
 
															-        主分类方法：支持渐进式分类策略
														
 
															+        主分类方法：简化为混合分类策略
														
 
															         Args:
														
 
															             question: 当前问题
														
 
															-            context_type: 上下文类型 ("DATABASE" 或 "CHAT")，可选
														
 
															+            context_type: 上下文类型（保留参数兼容性，但不使用）
														
 
															             routing_mode: 路由模式，可选，用于覆盖配置文件设置
														
 
															         """
														
 
															         # 确定使用的路由模式
														
@@ -192,93 +129,8 @@ class QuestionClassifier:
 
															         elif QUESTION_ROUTING_MODE == "llm_only":
														
 
															             return self._enhanced_llm_classify(question)
														
 
															         else:
														
 
															-            # hybrid模式：使用渐进式分类策略
														
 
															-            return self._progressive_classify(question, context_type)
														
 
															-
														
 
															-    def _progressive_classify(self, question: str, context_type: Optional[str] = None) -> ClassificationResult:
														
 
															-        """
														
 
															-        渐进式分类策略：
														
 
															-        1. 首先只基于问题本身分类
														
 
															-        2. 如果置信度不够且有上下文，考虑上下文辅助
														
 
															-        3. 检测话题切换，避免错误继承
														
 
															-        """
														
 
															-        self.logger.info(f"渐进式分类 - 问题: {question}")
														
 
															-        if context_type:
														
 
															-            self.logger.info(f"上下文类型: {context_type}")
														
 
															-        
														
 
															-        # 第一步：只基于问题本身分类
														
 
															-        primary_result = self._hybrid_classify(question)
														
 
															-        self.logger.info(f"主分类结果: {primary_result.question_type}, 置信度: {primary_result.confidence}")
														
 
															-        
														
 
															-        # 如果没有上下文，直接返回主分类结果
														
 
															-        if not context_type:
														
 
															-            self.logger.debug("无上下文，使用主分类结果")
														
 
															-            return primary_result
														
 
															-        
														
 
															-        # 如果置信度足够高，直接使用主分类结果
														
 
															-        if primary_result.confidence >= self.high_confidence_threshold:
														
 
															-            self.logger.info(f"高置信度({primary_result.confidence}≥{self.high_confidence_threshold})，使用主分类结果")
														
 
															-            return primary_result
														
 
															-        
														
 
															-        # 检测明显的话题切换
														
 
															-        if self._is_topic_switch(question):
														
 
															-            self.logger.info("检测到话题切换，忽略上下文")
														
 
															-            return primary_result
														
 
															-        
														
 
															-        # 如果置信度较低，考虑上下文辅助
														
 
															-        if primary_result.confidence < self.medium_confidence_threshold:
														
 
															-            self.logger.info(f"低置信度({primary_result.confidence}<{self.medium_confidence_threshold})，考虑上下文辅助")
														
 
															-            
														
 
															-            # 检测是否为追问型问题
														
 
															-            if self._is_follow_up_question(question):
														
 
															-                self.logger.info(f"检测到追问型问题，继承上下文类型: {context_type}")
														
 
															-                return ClassificationResult(
														
 
															-                    question_type=context_type,
														
 
															-                    confidence=0.75,  # 给予中等置信度
														
 
															-                    reason=f"追问型问题，继承上下文类型。原分类: {primary_result.reason}",
														
 
															-                    method="progressive_context_inherit"
														
 
															-                )
														
 
															-        
														
 
															-        # 中等置信度或其他情况，保持主分类结果
														
 
															-        self.logger.debug("保持主分类结果")
														
 
															-        return primary_result
														
 
															-
														
 
															-    def _is_follow_up_question(self, question: str) -> bool:
														
 
															-        """检测是否为追问型问题"""
														
 
															-        question_lower = question.lower()
														
 
															-        
														
 
															-        # 检查追问关键词
														
 
															-        for keyword in self.follow_up_keywords:
														
 
															-            if keyword in question_lower:
														
 
															-                return True
														
 
															-        
														
 
															-        # 检查问号开头的短问题（通常是追问）
														
 
															-        if question.strip().startswith(('还', '再', '那', '这', '有')) and len(question.strip()) < 15:
														
 
															-            return True
														
 
															-        
														
 
															-        return False
														
 
															-
														
 
															-    def _is_topic_switch(self, question: str) -> bool:
														
 
															-        """检测是否为明显的话题切换"""
														
 
															-        question_lower = question.lower()
														
 
															-        
														
 
															-        # 检查话题切换关键词
														
 
															-        for keyword in self.topic_switch_keywords:
														
 
															-            if keyword in question_lower:
														
 
															-                return True
														
 
															-        
														
 
															-        # 检查问候语模式
														
 
															-        greeting_patterns = [
														
 
															-            r"^(你好|您好|hi|hello)",
														
 
															-            r"(你是|您是).*(什么|谁|哪)",
														
 
															-            r"(介绍|说明).*(功能|平台|系统)"
														
 
															-        ]
														
 
															-        
														
 
															-        for pattern in greeting_patterns:
														
 
															-            if re.search(pattern, question_lower):
														
 
															-                return True
														
 
															-        
														
 
															-        return False
														
 
															+            # hybrid模式：直接使用混合分类策略（规则+LLM）
														
 
															+            return self._hybrid_classify(question)
														
 
															     def _hybrid_classify(self, question: str) -> ClassificationResult:
														
 
															         """
														
@@ -292,7 +144,7 @@ class QuestionClassifier:
 
															         if rule_result.confidence >= self.high_confidence_threshold:
														
 
															             return rule_result
														
 
															-        # 第二步：使用增强的LLM分类
														
 
															+        # 否则：使用增强的LLM分类
														
 
															         llm_result = self._enhanced_llm_classify(question)
														
 
															         # 选择置信度更高的结果
														
@@ -327,12 +179,13 @@ class QuestionClassifier:
 
															                 current_start = question.find("\n[CURRENT]\n")
														
 
															                 if current_start != -1:
														
 
															                     current_question = question[current_start + len("\n[CURRENT]\n"):].strip()
														
 
															-                    self.logger.debug(f"规则分类提取到当前问题: {current_question}")
														
 
															+                    self.logger.info(f"规则分类从[CURRENT]标签提取到问题: {current_question}")
														
 
															                     return current_question
														
 
															             # 如果不是enhanced_question格式，直接返回原问题
														
 
															-            self.logger.debug("未检测到[CURRENT]标签，使用完整问题进行规则分类")
														
 
															-            return question.strip()
														
 
															+            stripped_question = question.strip()
														
 
															+            self.logger.info(f"规则分类未找到[CURRENT]标签，使用完整问题: {stripped_question}")
														
 
															+            return stripped_question
														
 
															         except Exception as e:
														
 
															             self.logger.warning(f"提取当前问题失败: {str(e)}，返回空字符串")
														
@@ -344,8 +197,6 @@ class QuestionClassifier:
 
															         current_question = self._extract_current_question_for_rule_classification(question)
														
 
															         question_lower = current_question.lower()
														
 
															-        self.logger.debug(f"规则分类使用问题: {current_question}")
														
 
															-        
														
 
															         # 检查非业务实体词
														
 
															         non_business_matched = []
														
 
															         for keyword in self.non_business_keywords:
														
@@ -356,7 +207,7 @@ class QuestionClassifier:
 
															         if non_business_matched:
														
 
															             return ClassificationResult(
														
 
															                 question_type="CHAT",
														
 
															-                confidence=0.85,
														
 
															+                confidence=self.weights.get('non_business_confidence', 0.85),  # 使用YAML配置的置信度
														
 
															                 reason=f"包含非业务实体词: {non_business_matched}",
														
 
															                 method="rule_based_non_business"
														
 
															             )
														
@@ -370,7 +221,7 @@ class QuestionClassifier:
 
															                 continue
														
 
															             for keyword in keywords:
														
 
															                 if keyword in question_lower:
														
 
															-                    business_score += 2  # 业务实体词权重更高
														
 
															+                    business_score += self.weights.get('business_entity', 2)  # 使用YAML配置的权重
														
 
															                     business_matched.append(f"{category}:{keyword}")
														
 
															         # 检查系统查询指示词
														
@@ -378,7 +229,7 @@ class QuestionClassifier:
 
															         system_matched = []
														
 
															         for keyword in self.strong_business_keywords.get("系统查询指示词", []):
														
 
															             if keyword in question_lower:
														
 
															-                system_indicator_score += 1
														
 
															+                system_indicator_score += self.weights.get('system_indicator', 1)  # 使用YAML配置的权重
														
 
															                 system_matched.append(f"系统查询指示词:{keyword}")
														
 
															         # 检查查询意图词
														
@@ -386,14 +237,14 @@ class QuestionClassifier:
 
															         intent_matched = []
														
 
															         for keyword in self.query_intent_keywords:
														
 
															             if keyword in question_lower:
														
 
															-                intent_score += 1
														
 
															+                intent_score += self.weights.get('query_intent', 1)  # 使用YAML配置的权重
														
 
															                 intent_matched.append(keyword)
														
 
															         # 检查SQL模式
														
 
															         sql_patterns_matched = []
														
 
															         for pattern in self.sql_patterns:
														
 
															             if re.search(pattern, question_lower, re.IGNORECASE):
														
 
															-                business_score += 3  # SQL模式权重最高
														
 
															+                business_score += self.weights.get('sql_pattern', 3)  # 使用YAML配置的权重
														
 
															                 sql_patterns_matched.append(pattern)
														
 
															         # 检查聊天关键词
														
@@ -401,25 +252,29 @@ class QuestionClassifier:
 
															         chat_matched = []
														
 
															         for keyword in self.chat_keywords:
														
 
															             if keyword in question_lower:
														
 
															-                chat_score += 1
														
 
															+                chat_score += self.weights.get('chat_keyword', 1)  # 使用YAML配置的权重
														
 
															                 chat_matched.append(keyword)
														
 
															         # 系统指示词组合评分逻辑
														
 
															         if system_indicator_score > 0 and business_score > 0:
														
 
															             # 系统指示词 + 业务实体 = 强组合效应
														
 
															-            business_score += 3  # 组合加分
														
 
															+            business_score += self.weights.get('combination_bonus', 3)  # 使用YAML配置的组合加分权重
														
 
															             business_matched.extend(system_matched)
														
 
															         elif system_indicator_score > 0:
														
 
															             # 仅有系统指示词 = 中等业务倾向
														
 
															-            business_score += 1
														
 
															+            business_score += self.weights.get('system_indicator', 1)  # 使用YAML配置的权重
														
 
															             business_matched.extend(system_matched)
														
 
															         # 分类决策逻辑
														
 
															         total_business_score = business_score + intent_score
														
 
															         # 强业务特征：包含业务实体 + 查询意图
														
 
															-        if business_score >= 2 and intent_score >= 1:
														
 
															-            confidence = min(self.max_confidence, 0.8 + (total_business_score * 0.05))
														
 
															+        min_business_score = self.weights.get('strong_business_min_score', 2)
														
 
															+        min_intent_score = self.weights.get('strong_business_min_intent', 1)
														
 
															+        if business_score >= min_business_score and intent_score >= min_intent_score:
														
 
															+            base_conf = self.weights.get('strong_business_base', 0.8)
														
 
															+            increment = self.weights.get('strong_business_increment', 0.05)
														
 
															+            confidence = min(self.max_confidence, base_conf + (total_business_score * increment))
														
 
															             return ClassificationResult(
														
 
															                 question_type="DATABASE",
														
 
															                 confidence=confidence,
														
@@ -428,8 +283,10 @@ class QuestionClassifier:
 
															             )
														
 
															         # 中等业务特征：包含多个业务实体词
														
 
															-        elif business_score >= 4:
														
 
															-            confidence = min(self.max_confidence, 0.7 + (business_score * 0.03))
														
 
															+        elif business_score >= self.weights.get('medium_business_min_score', 4):
														
 
															+            base_conf = self.weights.get('medium_business_base', 0.7)
														
 
															+            increment = self.weights.get('medium_business_increment', 0.03)
														
 
															+            confidence = min(self.max_confidence, base_conf + (business_score * increment))
														
 
															             return ClassificationResult(
														
 
															                 question_type="DATABASE", 
														
 
															                 confidence=confidence,
														
@@ -438,8 +295,10 @@ class QuestionClassifier:
 
															             )
														
 
															         # 聊天特征
														
 
															-        elif chat_score >= 1 and business_score == 0:
														
 
															-            confidence = min(self.max_confidence, self.base_confidence + (chat_score * self.confidence_increment))
														
 
															+        elif chat_score >= self.weights.get('chat_min_score', 1) and business_score == 0:
														
 
															+            base_conf = self.weights.get('chat_base_confidence', 0.4)
														
 
															+            increment = self.weights.get('chat_confidence_increment', 0.08)
														
 
															+            confidence = min(self.max_confidence, base_conf + (chat_score * increment))
														
 
															             return ClassificationResult(
														
 
															                 question_type="CHAT",
														
 
															                 confidence=confidence,
														
@@ -556,7 +415,7 @@ class QuestionClassifier:
 
															             self.logger.error(f"LLM分类失败，业务上下文不可用: {str(e)}")
														
 
															             return ClassificationResult(
														
 
															                 question_type="CHAT",  # 失败时默认为CHAT，更安全
														
 
															-                confidence=0.1,  # 很低的置信度表示分类不可靠
														
 
															+                confidence=self.weights.get('llm_error_confidence', 0.1),  # 使用YAML配置的低置信度
														
 
															                 reason=f"业务上下文加载失败，无法进行准确分类: {str(e)}",
														
 
															                 method="llm_context_error"
														
 
															             )
														
--- a/agent/classifier_dict.yaml
+++ b/agent/classifier_dict.yaml
@@ -0,0 +1,422 @@
 
															+# agent/classifier_dict.yaml
														
 
															+# 问题分类器词典配置文件
														
 
															+# 版本: v1.0
														
 
															+# 最后更新: 2024-12-21
														
 
															+
														
 
															+# ===========================================
														
 
															+# 配置元信息
														
 
															+# ===========================================
														
 
															+metadata:
														
 
															+  version: "1.0"
														
 
															+  description: "Citu智能数据问答平台问题分类器关键词配置"
														
 
															+  last_updated: "2024-12-21"
														
 
															+  author: "系统管理员"
														
 
															+
														
 
															+# ===========================================
														
 
															+# 权重配置
														
 
															+# ===========================================
														
 
															+weights:
														
 
															+  # ===========================================
														
 
															+  # 关键词权重配置
														
 
															+  # ===========================================
														
 
															+  
														
 
															+  # 业务实体词权重（强业务关键词中除系统指示词外的部分）
														
 
															+  business_entity: 2
														
 
															+  
														
 
															+  # 系统指示词权重（强业务关键词中的系统查询指示词）
														
 
															+  system_indicator: 1
														
 
															+  
														
 
															+  # 查询意图词权重
														
 
															+  query_intent: 1
														
 
															+  
														
 
															+  # SQL模式权重（最高权重）
														
 
															+  sql_pattern: 3
														
 
															+  
														
 
															+  # 聊天关键词权重
														
 
															+  chat_keyword: 1
														
 
															+  
														
 
															+  # 组合加分权重（系统指示词+业务实体词）
														
 
															+  combination_bonus: 3
														
 
															+
														
 
															+  # ===========================================
														
 
															+  # 置信度计算配置
														
 
															+  # ===========================================
														
 
															+  
														
 
															+  # 非业务词固定置信度（匹配非业务关键词时直接返回此置信度）
														
 
															+  non_business_confidence: 0.85
														
 
															+  
														
 
															+  # 强业务特征置信度配置（业务实体≥2分 且 查询意图≥1分）
														
 
															+  strong_business_base: 0.8        # 强业务特征基础置信度
														
 
															+  strong_business_increment: 0.05  # 每增加1分总分的置信度增量
														
 
															+  
														
 
															+  # 中等业务特征置信度配置（业务实体≥4分）
														
 
															+  medium_business_base: 0.7        # 中等业务特征基础置信度
														
 
															+  medium_business_increment: 0.03  # 每增加1分业务分的置信度增量
														
 
															+  
														
 
															+  # 聊天特征置信度配置（聊天分≥1 且 业务分=0）
														
 
															+  chat_base_confidence: 0.4        # 聊天特征基础置信度（对应base_confidence）
														
 
															+  chat_confidence_increment: 0.08  # 每增加1分聊天分的置信度增量
														
 
															+  
														
 
															+  # 分类阈值配置
														
 
															+  strong_business_min_score: 2     # 强业务特征最低业务分要求
														
 
															+  strong_business_min_intent: 1    # 强业务特征最低意图分要求
														
 
															+  medium_business_min_score: 4     # 中等业务特征最低业务分要求
														
 
															+  chat_min_score: 1               # 聊天特征最低聊天分要求
														
 
															+
														
 
															+# ===========================================
														
 
															+# 强业务关键词（字典结构，保持原有层次）
														
 
															+# ===========================================
														
 
															+strong_business_keywords:
														
 
															+  核心业务实体:
														
 
															+    description: "高速公路服务区基础设施和业务系统"
														
 
															+    keywords:
														
 
															+      - 服务区
														
 
															+      - 档口
														
 
															+      - 商铺
														
 
															+      - 收费站
														
 
															+      - 高速公路
														
 
															+      - 驿美          # 业务系统名称
														
 
															+      - 驿购          # 业务系统名称
														
 
															+      - 北区          # 物理分区
														
 
															+      - 南区
														
 
															+      - 西区
														
 
															+      - 东区
														
 
															+      - 两区
														
 
															+      - 停车区
														
 
															+      - 公司
														
 
															+      - 管理公司
														
 
															+      - 运营公司
														
 
															+    
														
 
															+  支付业务:
														
 
															+    description: "支付方式、金额、订单等支付相关业务"
														
 
															+    keywords:
														
 
															+      # 支付方式全称
														
 
															+      - 微信支付
														
 
															+      - 支付宝支付
														
 
															+      - 现金支付
														
 
															+      - 行吧支付
														
 
															+      - 金豆支付
														
 
															+      
														
 
															+      # 业务指标
														
 
															+      - 支付金额
														
 
															+      - 订单数量
														
 
															+      - 营业额
														
 
															+      - 收入
														
 
															+      - 营业收入
														
 
															+      
														
 
															+      # 简化形式
														
 
															+      - 微信
														
 
															+      - 支付宝
														
 
															+      - 现金
														
 
															+      - 行吧
														
 
															+      - 金豆
														
 
															+      
														
 
															+      # 系统字段名
														
 
															+      - wx
														
 
															+      - zfb
														
 
															+      - rmb
														
 
															+      - xs
														
 
															+      - jd
														
 
															+    
														
 
															+  经营品类:
														
 
															+    description: "经营类型、品牌、商业品类"
														
 
															+    keywords:
														
 
															+      - 餐饮
														
 
															+      - 小吃
														
 
															+      - 便利店
														
 
															+      - 整体租赁
														
 
															+      - 驿美餐饮
														
 
															+      - 品牌
														
 
															+      - 经营品类
														
 
															+      - 商业品类
														
 
															+    
														
 
															+  车流业务:
														
 
															+    description: "车辆流量、车型统计等车流相关业务"
														
 
															+    keywords:
														
 
															+      # 流量概念
														
 
															+      - 车流量
														
 
															+      - 车辆数量
														
 
															+      - 客车
														
 
															+      - 货车
														
 
															+      - 过境
														
 
															+      - 危化品
														
 
															+      - 城际
														
 
															+      - 车辆统计
														
 
															+      - 流量统计
														
 
															+      - 车型分布
														
 
															+    
														
 
															+  地理路线:
														
 
															+    description: "高速线路、路段等地理位置信息"
														
 
															+    keywords:
														
 
															+      # 具体线路
														
 
															+      - 大广
														
 
															+      - 昌金
														
 
															+      - 昌栗
														
 
															+      
														
 
															+      # 概念词
														
 
															+      - 线路
														
 
															+      - 路段
														
 
															+      - 路线
														
 
															+      - 高速线路
														
 
															+      - 公路线路
														
 
															+    
														
 
															+  系统查询指示词:
														
 
															+    description: "系统、数据库等查询指示词（特殊权重处理）"
														
 
															+    weight: 1  # 特殊标记：权重低于其他业务实体词
														
 
															+    keywords:
														
 
															+      # 系统指示
														
 
															+      - 当前系统
														
 
															+      - 当前数据库
														
 
															+      - 当前数据
														
 
															+      - 数据库
														
 
															+      - 本系统
														
 
															+      - 系统
														
 
															+      
														
 
															+      # 数据指示
														
 
															+      - 数据库中
														
 
															+      - 数据中
														
 
															+      - 现有数据
														
 
															+      - 已有数据
														
 
															+      - 存储的数据
														
 
															+      
														
 
															+      # 平台指示
														
 
															+      - 平台数据
														
 
															+      - 我们的数据库
														
 
															+      - 这个系统
														
 
															+
														
 
															+# ===========================================
														
 
															+# 查询意图关键词
														
 
															+# ===========================================
														
 
															+query_intent_keywords:
														
 
															+  description: "用于识别数据查询意图的关键词"
														
 
															+  keywords:
														
 
															+    # 统计分析
														
 
															+    - 统计
														
 
															+    - 查询
														
 
															+    - 分析
														
 
															+    - 排行
														
 
															+    - 排名
														
 
															+    - 报表
														
 
															+    - 报告
														
 
															+    - 汇总
														
 
															+    - 计算
														
 
															+    - 对比
														
 
															+    - 趋势
														
 
															+    - 占比
														
 
															+    - 百分比
														
 
															+    - 比例
														
 
															+    
														
 
															+    # 聚合函数
														
 
															+    - 最大
														
 
															+    - 最小
														
 
															+    - 最高
														
 
															+    - 最低
														
 
															+    - 平均
														
 
															+    - 总计
														
 
															+    - 合计
														
 
															+    - 累计
														
 
															+    - 求和
														
 
															+    - 求平均
														
 
															+    
														
 
															+    # 输出动作
														
 
															+    - 生成
														
 
															+    - 导出
														
 
															+    - 显示
														
 
															+    - 列出
														
 
															+    - 共有
														
 
															+
														
 
															+# ===========================================
														
 
															+# 非业务实体词（一旦匹配立即分类为CHAT）
														
 
															+# ===========================================
														
 
															+non_business_keywords:
														
 
															+  description: "明确的非业务领域问题，最高优先级直接分类"
														
 
															+  
														
 
															+  农产品食物:
														
 
															+    - 荔枝
														
 
															+    - 苹果
														
 
															+    - 西瓜
														
 
															+    - 水果
														
 
															+    - 蔬菜
														
 
															+    - 大米
														
 
															+    - 小麦
														
 
															+    - 橙子
														
 
															+    - 香蕉
														
 
															+    - 葡萄
														
 
															+    - 草莓
														
 
															+    - 樱桃
														
 
															+    - 桃子
														
 
															+    - 梨
														
 
															+    
														
 
															+  技术概念:
														
 
															+    - 人工智能
														
 
															+    - 机器学习
														
 
															+    - 编程
														
 
															+    - 算法
														
 
															+    - 深度学习
														
 
															+    - AI
														
 
															+    - 神经网络
														
 
															+    - 模型训练
														
 
															+    - 数据挖掘
														
 
															+    
														
 
															+  身份询问:
														
 
															+    - 你是谁
														
 
															+    - 你是什么
														
 
															+    - 你叫什么
														
 
															+    - 你的名字
														
 
															+    - 你是什么AI
														
 
															+    - 什么模型
														
 
															+    - 大模型
														
 
															+    - AI助手
														
 
															+    - 助手
														
 
															+    - 机器人
														
 
															+    
														
 
															+  天气相关:
														
 
															+    - 天气
														
 
															+    - 气温
														
 
															+    - 下雨
														
 
															+    - 晴天
														
 
															+    - 阴天
														
 
															+    - 温度
														
 
															+    - 天气预报
														
 
															+    - 气候
														
 
															+    - 降雨
														
 
															+    - 雪天
														
 
															+    
														
 
															+  生活常识:
														
 
															+    - 怎么做饭
														
 
															+    - 如何减肥
														
 
															+    - 健康
														
 
															+    - 医疗
														
 
															+    - 病症
														
 
															+    - 历史
														
 
															+    - 地理
														
 
															+    - 文学
														
 
															+    - 电影
														
 
															+    - 音乐
														
 
															+    - 体育
														
 
															+    - 娱乐
														
 
															+    - 游戏
														
 
															+    - 小说
														
 
															+    - 新闻
														
 
															+    - 政治
														
 
															+    - 战争
														
 
															+    - 足球
														
 
															+    - NBA
														
 
															+    - 篮球
														
 
															+    - 乒乓球
														
 
															+    - 冠军
														
 
															+    - 夺冠
														
 
															+    - 高考
														
 
															+    
														
 
															+  旅游出行:
														
 
															+    - 旅游
														
 
															+    - 景点
														
 
															+    - 门票
														
 
															+    - 酒店
														
 
															+    - 机票
														
 
															+    - 航班
														
 
															+    - 高铁
														
 
															+    - 的士
														
 
															+    
														
 
															+  情绪表达:
														
 
															+    - 伤心
														
 
															+    - 开心
														
 
															+    - 无聊
														
 
															+    - 生气
														
 
															+    - 孤独
														
 
															+    - 累了
														
 
															+    - 烦恼
														
 
															+    - 心情
														
 
															+    - 难过
														
 
															+    - 抑郁
														
 
															+    
														
 
															+  商业金融:
														
 
															+    - 股票
														
 
															+    - 基金
														
 
															+    - 理财
														
 
															+    - 投资
														
 
															+    - 经济
														
 
															+    - 通货膨胀
														
 
															+    - 上市
														
 
															+    
														
 
															+  哲学思考:
														
 
															+    - 人生意义
														
 
															+    - 价值观
														
 
															+    - 道德
														
 
															+    - 信仰
														
 
															+    - 宗教
														
 
															+    - 爱情
														
 
															+    
														
 
															+  地理范围:
														
 
															+    - 全球
														
 
															+    - 全国
														
 
															+    - 亚洲
														
 
															+    - 发展中
														
 
															+    - 欧洲
														
 
															+    - 美洲
														
 
															+    - 东亚
														
 
															+    - 东南亚
														
 
															+    - 南美
														
 
															+    - 非洲
														
 
															+    - 大洋
														
 
															+
														
 
															+# ===========================================
														
 
															+# SQL模式（正则表达式）
														
 
															+# ===========================================
														
 
															+sql_patterns:
														
 
															+  description: "用于识别SQL语句特征的正则表达式"
														
 
															+  patterns:
														
 
															+    - pattern: "\\b(select|from|where|group by|order by|having|join|update)\\b"
														
 
															+      description: "SQL关键字匹配"
														
 
															+      case_sensitive: false
														
 
															+      
														
 
															+    - pattern: "\\b(数据库|表名|表|字段名|SQL|sql|database|table)\\b"
														
 
															+      description: "数据库概念词匹配"
														
 
															+      case_sensitive: false
														
 
															+
														
 
															+# ===========================================
														
 
															+# 聊天关键词
														
 
															+# ===========================================
														
 
															+chat_keywords:
														
 
															+  description: "倾向于聊天分类的关键词"
														
 
															+  keywords:
														
 
															+    # 问候语
														
 
															+    - 你好啊
														
 
															+    - 谢谢
														
 
															+    - 再见
														
 
															+    
														
 
															+    # 疑问词
														
 
															+    - 怎么样
														
 
															+    - 如何
														
 
															+    - 为什么
														
 
															+    - 什么是
														
 
															+    
														
 
															+    # 帮助请求
														
 
															+    - 介绍
														
 
															+    - 解释
														
 
															+    - 说明
														
 
															+    - 帮助
														
 
															+    - 操作
														
 
															+    - 使用方法
														
 
															+    - 功能
														
 
															+    - 教程
														
 
															+    - 指南
														
 
															+    - 手册
														
 
															+    - 讲解
														
 
															+
														
 
															+# ===========================================
														
 
															+# 配置验证规则
														
 
															+# ===========================================
														
 
															+validation:
														
 
															+  required_sections:
														
 
															+    - strong_business_keywords
														
 
															+    - query_intent_keywords
														
 
															+    - non_business_keywords
														
 
															+    - sql_patterns
														
 
															+    - chat_keywords
														
 
															+  
														
 
															+  min_keywords_count:
														
 
															+    strong_business_keywords: 50
														
 
															+    query_intent_keywords: 20
														
 
															+    non_business_keywords: 70
														
 
															+    chat_keywords: 15 
														
--- a/agent/config.py
+++ b/agent/config.py
@@ -160,4 +160,42 @@ def get_current_config() -> dict:
 
															         此函数返回的是配置的引用，修改返回值会影响全局配置
														
 
															         如需修改配置，建议创建副本后再修改
														
 
															     """
														
 
															-    return AGENT_CONFIG 
														
 
															+    return AGENT_CONFIG
														
 
															+
														
 
															+# ==================== 分类器词典配置加载 ====================
														
 
															+
														
 
															+try:
														
 
															+    from .dict_loader import load_classifier_dict_config, get_dict_loader
														
 
															+    
														
 
															+    def get_classifier_dict_config(force_reload: bool = False):
														
 
															+        """
														
 
															+        获取分类器词典配置
														
 
															+        
														
 
															+        Args:
														
 
															+            force_reload: 是否强制重新加载
														
 
															+            
														
 
															+        Returns:
														
 
															+            ClassifierDictConfig: 词典配置对象
														
 
															+        """
														
 
															+        return load_classifier_dict_config(force_reload)
														
 
															+    
														
 
															+    def reload_classifier_dict_config():
														
 
															+        """重新加载分类器词典配置"""
														
 
															+        return load_classifier_dict_config(force_reload=True)
														
 
															+    
														
 
															+    # 导出词典配置函数
														
 
															+    __all__ = [
														
 
															+        'get_current_config', 
														
 
															+        'get_nested_config', 
														
 
															+        'AGENT_CONFIG',
														
 
															+        'get_classifier_dict_config',
														
 
															+        'reload_classifier_dict_config'
														
 
															+    ]
														
 
															+    
														
 
															+except ImportError as e:
														
 
															+    # 如果dict_loader模块不存在，提供空实现
														
 
															+    def get_classifier_dict_config(force_reload: bool = False):
														
 
															+        raise ImportError("词典加载器模块不可用，请检查dict_loader.py是否存在")
														
 
															+    
														
 
															+    def reload_classifier_dict_config():
														
 
															+        raise ImportError("词典加载器模块不可用，请检查dict_loader.py是否存在") 
														
--- a/agent/dict_loader.py
+++ b/agent/dict_loader.py
@@ -0,0 +1,216 @@
 
															+# agent/dict_loader.py
														
 
															+"""
														
 
															+分类器词典配置加载器
														
 
															+负责从YAML文件加载分类器词典配置，并提供数据转换和验证功能
														
 
															+"""
														
 
															+
														
 
															+import yaml
														
 
															+import os
														
 
															+import re
														
 
															+from typing import Dict, Any, List, Optional
														
 
															+from dataclasses import dataclass
														
 
															+from core.logging import get_agent_logger
														
 
															+
														
 
															+# 初始化日志 [[memory:3840221]]
														
 
															+logger = get_agent_logger("DictLoader")
														
 
															+
														
 
															+@dataclass
														
 
															+class ClassifierDictConfig:
														
 
															+    """分类器词典配置数据类"""
														
 
															+    strong_business_keywords: Dict[str, List[str]]
														
 
															+    query_intent_keywords: List[str]
														
 
															+    non_business_keywords: List[str]
														
 
															+    sql_patterns: List[str]
														
 
															+    chat_keywords: List[str]
														
 
															+    weights: Dict[str, float]
														
 
															+    metadata: Dict[str, Any]
														
 
															+
														
 
															+class DictLoader:
														
 
															+    """分类器词典配置加载器"""
														
 
															+    
														
 
															+    def __init__(self, dict_file: str = None):
														
 
															+        """
														
 
															+        初始化加载器
														
 
															+        
														
 
															+        Args:
														
 
															+            dict_file: 词典配置文件路径，默认为agent/classifier_dict.yaml
														
 
															+        """
														
 
															+        if dict_file is None:
														
 
															+            current_dir = os.path.dirname(os.path.abspath(__file__))
														
 
															+            dict_file = os.path.join(current_dir, "classifier_dict.yaml")
														
 
															+        
														
 
															+        self.dict_file = dict_file
														
 
															+        self.config_cache = None
														
 
															+    
														
 
															+    def load_config(self, force_reload: bool = False) -> ClassifierDictConfig:
														
 
															+        """
														
 
															+        加载词典配置
														
 
															+        
														
 
															+        Args:
														
 
															+            force_reload: 是否强制重新加载，默认使用缓存
														
 
															+            
														
 
															+        Returns:
														
 
															+            ClassifierDictConfig: 词典配置对象
														
 
															+            
														
 
															+        Raises:
														
 
															+            FileNotFoundError: 配置文件不存在
														
 
															+            ValueError: 配置文件格式错误
														
 
															+        """
														
 
															+        if self.config_cache is not None and not force_reload:
														
 
															+            return self.config_cache
														
 
															+        
														
 
															+        try:
														
 
															+            logger.info(f"加载词典配置文件: {self.dict_file}")
														
 
															+            
														
 
															+            with open(self.dict_file, 'r', encoding='utf-8') as f:
														
 
															+                yaml_data = yaml.safe_load(f)
														
 
															+            
														
 
															+            # 验证配置文件
														
 
															+            self._validate_config(yaml_data)
														
 
															+            
														
 
															+            # 转换数据格式
														
 
															+            config = self._convert_config(yaml_data)
														
 
															+            
														
 
															+            # 缓存配置
														
 
															+            self.config_cache = config
														
 
															+            
														
 
															+            logger.info("词典配置加载成功")
														
 
															+            return config
														
 
															+            
														
 
															+        except FileNotFoundError:
														
 
															+            error_msg = f"词典配置文件不存在: {self.dict_file}"
														
 
															+            logger.error(error_msg)
														
 
															+            raise FileNotFoundError(error_msg)
														
 
															+        except yaml.YAMLError as e:
														
 
															+            error_msg = f"词典配置文件YAML格式错误: {str(e)}"
														
 
															+            logger.error(error_msg)
														
 
															+            raise ValueError(error_msg)
														
 
															+        except Exception as e:
														
 
															+            error_msg = f"词典配置加载失败: {str(e)}"
														
 
															+            logger.error(error_msg)
														
 
															+            raise ValueError(error_msg)
														
 
															+    
														
 
															+    def _validate_config(self, yaml_data: Dict[str, Any]) -> None:
														
 
															+        """验证配置文件格式和必要字段"""
														
 
															+        required_sections = [
														
 
															+            'strong_business_keywords',
														
 
															+            'query_intent_keywords', 
														
 
															+            'non_business_keywords',
														
 
															+            'sql_patterns',
														
 
															+            'chat_keywords',
														
 
															+            'weights'
														
 
															+        ]
														
 
															+        
														
 
															+        for section in required_sections:
														
 
															+            if section not in yaml_data:
														
 
															+                raise ValueError(f"配置文件缺少必要部分: {section}")
														
 
															+        
														
 
															+        # 验证权重配置
														
 
															+        required_weights = [
														
 
															+            'business_entity',
														
 
															+            'system_indicator', 
														
 
															+            'query_intent',
														
 
															+            'sql_pattern',
														
 
															+            'chat_keyword',
														
 
															+            'non_business_confidence'
														
 
															+        ]
														
 
															+        
														
 
															+        for weight in required_weights:
														
 
															+            if weight not in yaml_data['weights']:
														
 
															+                raise ValueError(f"权重配置缺少: {weight}")
														
 
															+        
														
 
															+        logger.debug("配置文件验证通过")
														
 
															+    
														
 
															+    def _convert_config(self, yaml_data: Dict[str, Any]) -> ClassifierDictConfig:
														
 
															+        """将YAML数据转换为ClassifierDictConfig对象"""
														
 
															+        
														
 
															+        # 转换强业务关键词（保持字典结构）
														
 
															+        strong_business_keywords = {}
														
 
															+        for category, data in yaml_data['strong_business_keywords'].items():
														
 
															+            if isinstance(data, dict) and 'keywords' in data:
														
 
															+                strong_business_keywords[category] = data['keywords']
														
 
															+            else:
														
 
															+                # 兼容简单格式
														
 
															+                strong_business_keywords[category] = data
														
 
															+        
														
 
															+        # 转换查询意图关键词
														
 
															+        query_intent_data = yaml_data['query_intent_keywords']
														
 
															+        if isinstance(query_intent_data, dict) and 'keywords' in query_intent_data:
														
 
															+            query_intent_keywords = query_intent_data['keywords']
														
 
															+        else:
														
 
															+            query_intent_keywords = query_intent_data
														
 
															+        
														
 
															+        # 转换非业务实体词（展平为列表）
														
 
															+        non_business_keywords = self._flatten_non_business_keywords(
														
 
															+            yaml_data['non_business_keywords']
														
 
															+        )
														
 
															+        
														
 
															+        # 转换SQL模式
														
 
															+        sql_patterns = []
														
 
															+        patterns_data = yaml_data['sql_patterns']
														
 
															+        if isinstance(patterns_data, dict) and 'patterns' in patterns_data:
														
 
															+            for pattern_info in patterns_data['patterns']:
														
 
															+                if isinstance(pattern_info, dict):
														
 
															+                    sql_patterns.append(pattern_info['pattern'])
														
 
															+                else:
														
 
															+                    sql_patterns.append(pattern_info)
														
 
															+        else:
														
 
															+            sql_patterns = patterns_data
														
 
															+        
														
 
															+        # 转换其他关键词列表
														
 
															+        chat_keywords = self._extract_keywords_list(yaml_data['chat_keywords'])
														
 
															+        
														
 
															+        return ClassifierDictConfig(
														
 
															+            strong_business_keywords=strong_business_keywords,
														
 
															+            query_intent_keywords=query_intent_keywords,
														
 
															+            non_business_keywords=non_business_keywords,
														
 
															+            sql_patterns=sql_patterns,
														
 
															+            chat_keywords=chat_keywords,
														
 
															+            weights=yaml_data['weights'],
														
 
															+            metadata=yaml_data.get('metadata', {})
														
 
															+        )
														
 
															+    
														
 
															+    def _flatten_non_business_keywords(self, non_business_data: Dict[str, Any]) -> List[str]:
														
 
															+        """将分类的非业务词展平为列表"""
														
 
															+        flattened = []
														
 
															+        
														
 
															+        # 跳过description字段
														
 
															+        for category, keywords in non_business_data.items():
														
 
															+            if category == 'description':
														
 
															+                continue
														
 
															+            if isinstance(keywords, list):
														
 
															+                flattened.extend(keywords)
														
 
															+        
														
 
															+        return flattened
														
 
															+    
														
 
															+    def _extract_keywords_list(self, data: Any) -> List[str]:
														
 
															+        """从可能包含description的数据中提取关键词列表"""
														
 
															+        if isinstance(data, dict) and 'keywords' in data:
														
 
															+            return data['keywords']
														
 
															+        elif isinstance(data, list):
														
 
															+            return data
														
 
															+        else:
														
 
															+            return []
														
 
															+
														
 
															+# 全局加载器实例
														
 
															+_dict_loader = None
														
 
															+
														
 
															+def get_dict_loader() -> DictLoader:
														
 
															+    """获取全局词典加载器实例"""
														
 
															+    global _dict_loader
														
 
															+    if _dict_loader is None:
														
 
															+        _dict_loader = DictLoader()
														
 
															+    return _dict_loader
														
 
															+
														
 
															+def load_classifier_dict_config(force_reload: bool = False) -> ClassifierDictConfig:
														
 
															+    """
														
 
															+    加载分类器词典配置（便捷函数）
														
 
															+    
														
 
															+    Args:
														
 
															+        force_reload: 是否强制重新加载
														
 
															+        
														
 
															+    Returns:
														
 
															+        ClassifierDictConfig: 词典配置对象
														
 
															+    """
														
 
															+    loader = get_dict_loader()
														
 
															+    return loader.load_config(force_reload) 
														
--- a/agent/state.py
+++ b/agent/state.py
@@ -10,7 +10,7 @@ class AgentState(TypedDict):
 
															     conversation_id: Optional[str]
														
 
															     # 上下文信息
														
 
															-    context_type: Optional[str]  # 上下文类型 ("DATABASE" 或 "CHAT")
														
 
															+    context_type: Optional[str]  # 上下文类型（保留兼容性字段，当前未使用）
														
 
															     # 分类结果
														
 
															     question_type: Literal["DATABASE", "CHAT", "UNCERTAIN"]
														
--- a/app_config.py
+++ b/app_config.py
@@ -37,13 +37,13 @@ API_DEEPSEEK_CONFIG = {
 
															 API_QIANWEN_CONFIG = {
														
 
															     "api_key": os.getenv("QWEN_API_KEY"),  # 从环境变量读取API密钥
														
 
															     "base_url": "https://dashscope.aliyuncs.com/compatible-mode/v1",  # 千问API地址
														
 
															-    "model": "qwen-plus-latest",
														
 
															+    "model": "qwen3-235b-a22b",
														
 
															     "allow_llm_to_see_data": True,
														
 
															     "temperature": 0.6,
														
 
															     "n_results": 6,
														
 
															     "language": "Chinese",
														
 
															-    "stream": False,  # 是否使用流式模式
														
 
															-    "enable_thinking": False  # 是否启用思考功能（要求stream=True）
														
 
															+    "stream": True,  # 是否使用流式模式
														
 
															+    "enable_thinking": True  # 是否启用思考功能（要求stream=True）
														
 
															 }
														
 
															 #qwen3-30b-a3b
														
 
															 #qwen3-235b-a22b
														
--- a/citu_app.py
+++ b/citu_app.py
@@ -524,7 +524,7 @@ def ask_agent():
 
															         if context:
														
 
															             try:
														
 
															                 # 获取最后一条助手消息的metadata
														
 
															-                messages = redis_conversation_manager.get_messages(conversation_id, limit=10)
														
 
															+                messages = redis_conversation_manager.get_conversation_messages(conversation_id, limit=10)
														
 
															                 for message in reversed(messages):  # 从最新的开始找
														
 
															                     if message.get("role") == "assistant":
														
 
															                         metadata = message.get("metadata", {})
														
@@ -587,11 +587,9 @@ def ask_agent():
 
															                 execution_path=cached_answer.get("execution_path", []),
														
 
															                 classification_info=cached_answer.get("classification_info", {}),
														
 
															                 user_id=user_id,
														
 
															-                is_guest_user=(user_id == DEFAULT_ANONYMOUS_USER),
														
 
															                 context_used=bool(context),
														
 
															                 from_cache=True,
														
 
															                 conversation_status=conversation_status["status"],
														
 
															-                conversation_message=conversation_status["message"],
														
 
															                 requested_conversation_id=conversation_status.get("requested_id")
														
 
															             ))
														
@@ -696,11 +694,9 @@ def ask_agent():
 
															                 execution_path=execution_path,
														
 
															                 classification_info=classification_info,
														
 
															                 user_id=user_id,
														
 
															-                is_guest_user=(user_id == DEFAULT_ANONYMOUS_USER),
														
 
															                 context_used=bool(context),
														
 
															                 from_cache=False,
														
 
															                 conversation_status=conversation_status["status"],
														
 
															-                conversation_message=conversation_status["message"],
														
 
															                 requested_conversation_id=conversation_status.get("requested_id"),
														
 
															                 routing_mode_used=effective_routing_mode,  # 新增：实际使用的路由模式
														
 
															                 routing_mode_source="api" if api_routing_mode else "config"  # 新增：路由模式来源
														
--- a/common/redis_conversation_manager.py
+++ b/common/redis_conversation_manager.py
@@ -81,7 +81,7 @@ class RedisConversationManager:
 
															         Returns:
														
 
															             tuple: (conversation_id, status_info)
														
 
															             status_info包含:
														
 
															-            - status: "existing" | "new" | "invalid_id_new"
														
 
															+            - status: "continue" | "new" | "invalid_id_new"
														
 
															             - message: 状态说明
														
 
															             - requested_id: 原始请求的ID（如果有）
														
 
															         """
														
@@ -91,7 +91,7 @@ class RedisConversationManager:
 
															             if self._is_valid_conversation(conversation_id_input, user_id):
														
 
															                 self.logger.debug(f"使用指定对话: {conversation_id_input}")
														
 
															                 return conversation_id_input, {
														
 
															-                    "status": "existing",
														
 
															+                    "status": "continue",
														
 
															                     "message": "继续已有对话"
														
 
															                 }
														
 
															             else:
														
@@ -109,7 +109,7 @@ class RedisConversationManager:
 
															             if recent_conversation:
														
 
															                 self.logger.debug(f"继续最近对话: {recent_conversation}")
														
 
															                 return recent_conversation, {
														
 
															-                    "status": "existing",
														
 
															+                    "status": "continue",
														
 
															                     "message": "继续最近对话"
														
 
															                 }
														
--- a/customllm/base_llm_chat.py
+++ b/customllm/base_llm_chat.py
@@ -62,18 +62,18 @@ class BaseLLMChat(VannaBase, ABC):
 
															         # 将Vanna的log输出转换为项目的日志格式
														
 
															         if title == "SQL Prompt":
														
 
															             # 对于SQL Prompt，使用debug级别，避免输出过长的内容
														
 
															-            # 将列表格式转换为字符串，只显示前200个字符
														
 
															+            # 将列表格式转换为字符串，只显示前500个字符
														
 
															             if isinstance(message, list):
														
 
															-                message_str = str(message)[:200] + "..." if len(str(message)) > 200 else str(message)
														
 
															+                message_str = str(message)[:500] + "..." if len(str(message)) > 500 else str(message)
														
 
															             else:
														
 
															-                message_str = str(message)[:200] + "..." if len(str(message)) > 200 else str(message)
														
 
															+                message_str = str(message)[:500] + "..." if len(str(message)) > 500 else str(message)
														
 
															             self.logger.debug(f"[Vanna] {title}: {message_str}")
														
 
															         elif title == "LLM Response":
														
 
															             # 对于LLM响应，记录但不显示全部内容
														
 
															             if isinstance(message, str):
														
 
															-                message_str = message[:200] + "..." if len(message) > 200 else message
														
 
															+                message_str = message[:500] + "..." if len(message) > 500 else message
														
 
															             else:
														
 
															-                message_str = str(message)[:200] + "..." if len(str(message)) > 200 else str(message)
														
 
															+                message_str = str(message)[:500] + "..." if len(str(message)) > 500 else str(message)
														
 
															             self.logger.debug(f"[Vanna] {title}: {message_str}")
														
 
															         elif title == "Extracted SQL":
														
 
															             # 对于提取的SQL，使用info级别
														
@@ -162,19 +162,19 @@ class BaseLLMChat(VannaBase, ABC):
 
															         initial_prompt += self.prompt_loader.get_sql_response_guidelines(self.dialect)
														
 
															-        message_log = [self.system_message(initial_prompt)]
														
 
															+        sql_prompt_messages = [self.system_message(initial_prompt)]
														
 
															         for example in question_sql_list:
														
 
															             if example is None:
														
 
															                 self.logger.warning("example is None")
														
 
															             else:
														
 
															                 if example is not None and "question" in example and "sql" in example:
														
 
															-                    message_log.append(self.user_message(example["question"]))
														
 
															-                    message_log.append(self.assistant_message(example["sql"]))
														
 
															+                    sql_prompt_messages.append(self.user_message(example["question"]))
														
 
															+                    sql_prompt_messages.append(self.assistant_message(example["sql"]))
														
 
															-        message_log.append(self.user_message(question))
														
 
															-        
														
 
															-        return message_log
														
 
															+        sql_prompt_messages.append(self.user_message(question))
														
 
															+        # 实际发送给LLM的内容，当前做了格式化处理       
														
 
															+        return sql_prompt_messages
														
 
															     def generate_plotly_code(self, question: str = None, sql: str = None, df_metadata: str = None, **kwargs) -> str:
														
 
															         """
														
@@ -190,13 +190,13 @@ class BaseLLMChat(VannaBase, ABC):
 
															         # 构建用户消息
														
 
															         user_msg = self.prompt_loader.get_chart_user_message()
														
 
															-        message_log = [
														
 
															+        chart_prompt_messages = [
														
 
															             self.system_message(system_msg),
														
 
															             self.user_message(user_msg),
														
 
															         ]
														
 
															         # 调用submit_prompt方法，并清理结果
														
 
															-        plotly_code = self.submit_prompt(message_log, **kwargs)
														
 
															+        plotly_code = self.submit_prompt(chart_prompt_messages, **kwargs)
														
 
															         # 根据 DISPLAY_RESULT_THINKING 参数处理thinking内容
														
 
															         if not DISPLAY_RESULT_THINKING:
														
@@ -485,12 +485,12 @@ class BaseLLMChat(VannaBase, ABC):
 
															             # 构建用户消息，强调中文思考和回答
														
 
															             user_content = self.prompt_loader.get_summary_user_instructions()
														
 
															-            message_log = [
														
 
															+            summary_prompt_messages = [
														
 
															                 self.system_message(system_content),
														
 
															                 self.user_message(user_content)
														
 
															             ]
														
 
															-            summary = self.submit_prompt(message_log, **kwargs)
														
 
															+            summary = self.submit_prompt(summary_prompt_messages, **kwargs)
														
 
															             # 检查是否需要隐藏 thinking 内容
														
 
															             display_thinking = kwargs.get("display_result_thinking", DISPLAY_RESULT_THINKING)
														
--- a/docs/redis_conversation_improvement_example.py
+++ b/docs/redis_conversation_improvement_example.py
@@ -19,7 +19,7 @@ class ImprovedRedisConversationManager:
 
															         Returns:
														
 
															             tuple: (conversation_id, status_info)
														
 
															             status_info包含:
														
 
															-            - status: "existing" | "new" | "invalid_id_new" | "no_permission"
														
 
															+            - status: "continue" | "new" | "invalid_id_new" | "no_permission"
														
 
															             - message: 状态说明
														
 
															             - requested_id: 原始请求的ID（如果有）
														
 
															         """
														
@@ -31,7 +31,7 @@ class ImprovedRedisConversationManager:
 
															             if validation_result["valid"]:
														
 
															                 print(f"[REDIS_CONV] 使用指定对话: {conversation_id_input}")
														
 
															                 return conversation_id_input, {
														
 
															-                    "status": "existing",
														
 
															+                    "status": "continue",
														
 
															                     "message": "继续已有对话"
														
 
															                 }
														
 
															             else:
														
@@ -59,11 +59,11 @@ class ImprovedRedisConversationManager:
 
															         if continue_conversation:
														
 
															             recent_conversation = self._get_recent_conversation(user_id)
														
 
															             if recent_conversation:
														
 
															-                print(f"[REDIS_CONV] 继续最近对话: {recent_conversation}")
														
 
															-                return recent_conversation, {
														
 
															-                    "status": "existing",
														
 
															-                    "message": "继续最近对话"
														
 
															-                }
														
 
															+                        print(f"[REDIS_CONV] 继续最近对话: {recent_conversation}")
														
 
															+        return recent_conversation, {
														
 
															+            "status": "continue",
														
 
															+            "message": "继续最近对话"
														
 
															+        }
														
 
															         # 3. 创建新对话
														
 
															         new_conversation_id = self.create_conversation(user_id)
														
@@ -183,7 +183,6 @@ def enhanced_ask_agent_response(conversation_status: Dict) -> Dict:
 
															     # 添加对话状态信息
														
 
															     response["data"].update({
														
 
															         "conversation_status": conversation_status["status"],
														
 
															-        "conversation_message": conversation_status["message"],
														
 
															         "requested_conversation_id": conversation_status.get("requested_id")
														
 
															     })
														
@@ -199,29 +198,34 @@ def frontend_handling_example():
 
															         {
														
 
															             "data": {
														
 
															                 "conversation_status": "invalid_id_new",
														
 
															-                "conversation_message": "您请求的对话不存在或已过期，已为您创建新对话",
														
 
															                 "requested_conversation_id": "conv_old_123"
														
 
															             }
														
 
															         },
														
 
															         {
														
 
															             "data": {
														
 
															                 "conversation_status": "no_permission",
														
 
															-                "conversation_message": "您没有权限访问该对话，已为您创建新对话",
														
 
															                 "requested_conversation_id": "conv_other_user"
														
 
															             }
														
 
															         },
														
 
															         {
														
 
															             "data": {
														
 
															-                "conversation_status": "existing",
														
 
															-                "conversation_message": "继续已有对话"
														
 
															+                "conversation_status": "continue"
														
 
															             }
														
 
															         }
														
 
															     ]
														
 
															+    # 状态消息映射（支持本地化）
														
 
															+    status_messages = {
														
 
															+        "invalid_id_new": "您请求的对话不存在或已过期，已为您创建新对话",
														
 
															+        "no_permission": "您没有权限访问该对话，已为您创建新对话", 
														
 
															+        "continue": "继续已有对话",
														
 
															+        "new": "创建新对话"
														
 
															+    }
														
 
															+    
														
 
															     # 处理不同状态
														
 
															     for response in api_responses:
														
 
															         status = response["data"]["conversation_status"]
														
 
															-        message = response["data"]["conversation_message"]
														
 
															+        message = status_messages.get(status, "未知状态")
														
 
															         if status == "invalid_id_new":
														
 
															             print(f"⚠️ 警告通知: {message}")
														
@@ -233,7 +237,7 @@ def frontend_handling_example():
 
															             print(f"  原请求ID: {response['data'].get('requested_conversation_id')}")
														
 
															             print("  [清除本地无效的conversation_id]")
														
 
															-        elif status == "existing":
														
 
															+        elif status == "continue":
														
 
															             print(f"✅ 成功: {message}")
														
 
															         print()
														
--- a/docs/问题分类器关键词YAML化改造方案.md
+++ b/docs/问题分类器关键词YAML化改造方案.md
@@ -0,0 +1,1098 @@
 
															+# 问题分类器关键词YAML化改造方案
														
 
															+
														
 
															+## 📋 改造目标
														
 
															+
														
 
															+将问题分类器中硬编码的关键词提取到独立的YAML配置文件中，实现关键词与代码的分离，提高系统的可维护性和灵活性。
														
 
															+
														
 
															+## 🎯 改造背景
														
 
															+
														
 
															+### 当前问题
														
 
															+1. **维护困难**: 关键词硬编码在`agent/classifier.py`中，修改需要改动代码
														
 
															+2. **业务隔离**: 业务人员无法直接维护关键词，需要开发人员参与
														
 
															+3. **版本管理**: 关键词变更难以独立追踪和回滚
														
 
															+4. **环境配置**: 不同环境难以使用不同的关键词配置
														
 
															+
														
 
															+### 改造收益
														
 
															+1. **业务自主**: 业务人员可直接编辑YAML文件维护关键词
														
 
															+2. **热更新**: 支持重启生效的配置热更新
														
 
															+3. **版本控制**: 关键词变更可独立进行Git版本管理
														
 
															+4. **环境隔离**: 支持开发/测试/生产环境的差异化配置
														
 
															+5. **备用机制**: 保留代码备用，确保系统稳定性
														
 
															+
														
 
															+## 📊 关键词类型分析
														
 
															+
														
 
															+根据`agent/classifier.py`代码分析，共有**8种关键词类型**需要迁移：
														
 
															+
														
 
															+| 序号 | 关键词类型 | 当前位置 | 数据结构 | 权重/作用 | 数量 |
														
 
															+|------|------------|----------|----------|-----------|------|
														
 
															+| 1 | 强业务关键词 | `classifier.py:49-79` | 字典(6个子类别) | 混合权重 | 65个 |
														
 
															+| 2 | 查询意图关键词 | `classifier.py:81-87` | 列表 | +1分/词 | 25个 |
														
 
															+| 3 | 非业务实体词 | `classifier.py:91-122` | 列表 | 立即CHAT(0.85) | ~80个 |
														
 
															+| 4 | SQL模式 | `classifier.py:126-129` | 正则表达式列表 | +3分/匹配 | 2个 |
														
 
															+| 5 | 聊天关键词 | `classifier.py:132-136` | 列表 | +1分/词 | 17个 |
														
 
															+| 6 | 追问关键词 | `classifier.py:139-143` | 列表 | 上下文判断 | 16个 |
														
 
															+| 7 | 话题切换关键词 | `classifier.py:146-150` | 列表 | 上下文判断 | 12个 |
														
 
															+| 8 | 业务上下文文件 | `tools/db_query_decision_prompt.txt` | 外部文本 | LLM分类辅助 | 1个文件 |
														
 
															+
														
 
															+## 🏗️ 文件结构设计
														
 
															+
														
 
															+### 推荐方案：独立YAML配置文件
														
 
															+
														
 
															+```
														
 
															+agent/
														
 
															+├── config.py              # 现有配置文件（保持不变）
														
 
															+├── classifier_dict.yaml   # 新增：分类器词典配置文件
														
 
															+├── dict_loader.py         # 新增：词典加载器
														
 
															+├── classifier.py          # 修改：使用YAML配置
														
 
															+└── tools/
														
 
															+    └── db_query_decision_prompt.txt  # 保持不变
														
 
															+```
														
 
															+
														
 
															+### 文件职责分工
														
 
															+
														
 
															+| 文件 | 职责 | 变更类型 |
														
 
															+|------|------|----------|
														
 
															+| `classifier_dict.yaml` | 存储所有分类器词典配置 | 新增 |
														
 
															+| `dict_loader.py` | 词典加载逻辑 | 新增 |
														
 
															+| `config.py` | 导出词典加载函数 | 轻微修改 |
														
 
															+| `classifier.py` | 使用YAML配置初始化关键词 | 中等修改 |
														
 
															+
														
 
															+## 📝 YAML配置文件设计
														
 
															+
														
 
															+### 文件路径
														
 
															+```
														
 
															+agent/classifier_dict.yaml
														
 
															+```
														
 
															+
														
 
															+### 文件结构设计原则
														
 
															+1. **层次化组织**: 保持原有的分类层次结构
														
 
															+2. **权重配置**: 单独配置区域，便于调优
														
 
															+3. **注释完整**: 每个配置项都有详细说明
														
 
															+4. **版本标识**: 包含配置版本信息
														
 
															+
														
 
															+### 完整YAML配置文件
														
 
															+
														
 
															+```yaml
														
 
															+# agent/classifier_dict.yaml
														
 
															+# 问题分类器词典配置文件
														
 
															+# 版本: v1.0
														
 
															+# 最后更新: 2024-12-XX
														
 
															+
														
 
															+# ===========================================
														
 
															+# 配置元信息
														
 
															+# ===========================================
														
 
															+metadata:
														
 
															+  version: "1.0"
														
 
															+  description: "Citu智能数据问答平台问题分类器关键词配置"
														
 
															+  last_updated: "2024-12-XX"
														
 
															+  author: "系统管理员"
														
 
															+
														
 
															+# ===========================================
														
 
															+# 权重配置
														
 
															+# ===========================================
														
 
															+weights:
														
 
															+  # 业务实体词权重（强业务关键词中除系统指示词外的部分）
														
 
															+  business_entity: 2
														
 
															+  
														
 
															+  # 系统指示词权重（强业务关键词中的系统查询指示词）
														
 
															+  system_indicator: 1
														
 
															+  
														
 
															+  # 查询意图词权重
														
 
															+  query_intent: 1
														
 
															+  
														
 
															+  # SQL模式权重（最高权重）
														
 
															+  sql_pattern: 3
														
 
															+  
														
 
															+  # 聊天关键词权重
														
 
															+  chat_keyword: 1
														
 
															+  
														
 
															+  # 非业务词固定置信度
														
 
															+  non_business_confidence: 0.85
														
 
															+  
														
 
															+  # 组合加分权重（系统指示词+业务实体词）
														
 
															+  combination_bonus: 3
														
 
															+
														
 
															+# ===========================================
														
 
															+# 强业务关键词（字典结构，保持原有层次）
														
 
															+# ===========================================
														
 
															+strong_business_keywords:
														
 
															+  核心业务实体:
														
 
															+    description: "高速公路服务区基础设施和业务系统"
														
 
															+    keywords:
														
 
															+      - 服务区
														
 
															+      - 档口
														
 
															+      - 商铺
														
 
															+      - 收费站
														
 
															+      - 高速公路
														
 
															+      - 驿美          # 业务系统名称
														
 
															+      - 驿购          # 业务系统名称
														
 
															+      - 北区          # 物理分区
														
 
															+      - 南区
														
 
															+      - 西区
														
 
															+      - 东区
														
 
															+      - 两区
														
 
															+      - 停车区
														
 
															+      - 公司
														
 
															+      - 管理公司
														
 
															+      - 运营公司
														
 
															+      - 驿美运营公司
														
 
															+    
														
 
															+  支付业务:
														
 
															+    description: "支付方式、金额、订单等支付相关业务"
														
 
															+    keywords:
														
 
															+      # 支付方式全称
														
 
															+      - 微信支付
														
 
															+      - 支付宝支付
														
 
															+      - 现金支付
														
 
															+      - 行吧支付
														
 
															+      - 金豆支付
														
 
															+      
														
 
															+      # 业务指标
														
 
															+      - 支付金额
														
 
															+      - 订单数量
														
 
															+      - 营业额
														
 
															+      - 收入
														
 
															+      - 营业收入
														
 
															+      
														
 
															+      # 简化形式
														
 
															+      - 微信
														
 
															+      - 支付宝
														
 
															+      - 现金
														
 
															+      - 行吧
														
 
															+      - 金豆
														
 
															+      
														
 
															+      # 系统字段名
														
 
															+      - wx
														
 
															+      - zfb
														
 
															+      - rmb
														
 
															+      - xs
														
 
															+      - jd
														
 
															+    
														
 
															+  经营品类:
														
 
															+    description: "经营类型、品牌、商业品类"
														
 
															+    keywords:
														
 
															+      - 餐饮
														
 
															+      - 小吃
														
 
															+      - 便利店
														
 
															+      - 整体租赁
														
 
															+      - 驿美餐饮
														
 
															+      - 品牌
														
 
															+      - 经营品类
														
 
															+      - 商业品类
														
 
															+    
														
 
															+  车流业务:
														
 
															+    description: "车辆流量、车型统计等车流相关业务"
														
 
															+    keywords:
														
 
															+      # 流量概念
														
 
															+      - 车流量
														
 
															+      - 车辆数量
														
 
															+      - 车辆统计
														
 
															+      - 流量统计
														
 
															+      
														
 
															+      # 车型分类
														
 
															+      - 客车
														
 
															+      - 货车
														
 
															+      - 过境
														
 
															+      - 危化品
														
 
															+      - 城际
														
 
															+      
														
 
															+      # 分析概念
														
 
															+      - 车型分布
														
 
															+    
														
 
															+  地理路线:
														
 
															+    description: "高速线路、路段等地理位置信息"
														
 
															+    keywords:
														
 
															+      # 具体线路
														
 
															+      - 大广
														
 
															+      - 昌金
														
 
															+      - 昌栗
														
 
															+      
														
 
															+      # 概念词
														
 
															+      - 线路
														
 
															+      - 路段
														
 
															+      - 路线
														
 
															+      - 高速线路
														
 
															+      - 公路线路
														
 
															+    
														
 
															+  系统查询指示词:
														
 
															+    description: "系统、数据库等查询指示词（特殊权重处理）"
														
 
															+    weight: 1  # 特殊标记：权重低于其他业务实体词
														
 
															+    keywords:
														
 
															+      # 系统指示
														
 
															+      - 当前系统
														
 
															+      - 当前数据库
														
 
															+      - 当前数据
														
 
															+      - 数据库
														
 
															+      - 本系统
														
 
															+      - 系统
														
 
															+      
														
 
															+      # 数据指示
														
 
															+      - 数据库中
														
 
															+      - 数据中
														
 
															+      - 现有数据
														
 
															+      - 已有数据
														
 
															+      - 存储的数据
														
 
															+      
														
 
															+      # 平台指示
														
 
															+      - 平台数据
														
 
															+      - 我们的数据库
														
 
															+      - 这个系统
														
 
															+
														
 
															+# ===========================================
														
 
															+# 查询意图关键词
														
 
															+# ===========================================
														
 
															+query_intent_keywords:
														
 
															+  description: "用于识别数据查询意图的关键词"
														
 
															+  keywords:
														
 
															+    # 统计分析
														
 
															+    - 统计
														
 
															+    - 查询
														
 
															+    - 分析
														
 
															+    - 报表
														
 
															+    - 报告
														
 
															+    - 汇总
														
 
															+    - 计算
														
 
															+    - 对比
														
 
															+    
														
 
															+    # 排序概念
														
 
															+    - 排行
														
 
															+    - 排名
														
 
															+    - 趋势
														
 
															+    - 占比
														
 
															+    - 百分比
														
 
															+    - 比例
														
 
															+    
														
 
															+    # 聚合函数
														
 
															+    - 最大
														
 
															+    - 最小
														
 
															+    - 最高
														
 
															+    - 最低
														
 
															+    - 平均
														
 
															+    - 总计
														
 
															+    - 合计
														
 
															+    - 累计
														
 
															+    - 求和
														
 
															+    - 求平均
														
 
															+    
														
 
															+    # 输出动作
														
 
															+    - 生成
														
 
															+    - 导出
														
 
															+    - 显示
														
 
															+    - 列出
														
 
															+    - 共有
														
 
															+
														
 
															+# ===========================================
														
 
															+# 非业务实体词（一旦匹配立即分类为CHAT）
														
 
															+# ===========================================
														
 
															+non_business_keywords:
														
 
															+  description: "明确的非业务领域问题，最高优先级直接分类"
														
 
															+  
														
 
															+  农产品食物:
														
 
															+    - 荔枝
														
 
															+    - 苹果
														
 
															+    - 西瓜
														
 
															+    - 水果
														
 
															+    - 蔬菜
														
 
															+    - 大米
														
 
															+    - 小麦
														
 
															+    - 橙子
														
 
															+    - 香蕉
														
 
															+    - 葡萄
														
 
															+    - 草莓
														
 
															+    - 樱桃
														
 
															+    - 桃子
														
 
															+    - 梨
														
 
															+    
														
 
															+  技术概念:
														
 
															+    - 人工智能
														
 
															+    - 机器学习
														
 
															+    - 编程
														
 
															+    - 算法
														
 
															+    - 深度学习
														
 
															+    - AI
														
 
															+    - 神经网络
														
 
															+    - 模型训练
														
 
															+    - 数据挖掘
														
 
															+    
														
 
															+  身份询问:
														
 
															+    - 你是谁
														
 
															+    - 你是什么
														
 
															+    - 你叫什么
														
 
															+    - 你的名字
														
 
															+    - 你是什么AI
														
 
															+    - 什么模型
														
 
															+    - 大模型
														
 
															+    - AI助手
														
 
															+    - 助手
														
 
															+    - 机器人
														
 
															+    
														
 
															+  天气相关:
														
 
															+    - 天气
														
 
															+    - 气温
														
 
															+    - 下雨
														
 
															+    - 晴天
														
 
															+    - 阴天
														
 
															+    - 温度
														
 
															+    - 天气预报
														
 
															+    - 气候
														
 
															+    - 降雨
														
 
															+    - 雪天
														
 
															+    
														
 
															+  生活常识:
														
 
															+    - 怎么做饭
														
 
															+    - 如何减肥
														
 
															+    - 健康
														
 
															+    - 医疗
														
 
															+    - 病症
														
 
															+    - 历史
														
 
															+    - 地理
														
 
															+    - 文学
														
 
															+    - 电影
														
 
															+    - 音乐
														
 
															+    - 体育
														
 
															+    - 娱乐
														
 
															+    - 游戏
														
 
															+    - 小说
														
 
															+    - 新闻
														
 
															+    - 政治
														
 
															+    - 战争
														
 
															+    - 足球
														
 
															+    - NBA
														
 
															+    - 篮球
														
 
															+    - 乒乓球
														
 
															+    - 冠军
														
 
															+    - 夺冠
														
 
															+    - 高考
														
 
															+    
														
 
															+  旅游出行:
														
 
															+    - 旅游
														
 
															+    - 景点
														
 
															+    - 门票
														
 
															+    - 酒店
														
 
															+    - 机票
														
 
															+    - 航班
														
 
															+    - 高铁
														
 
															+    - 的士
														
 
															+    
														
 
															+  情绪表达:
														
 
															+    - 伤心
														
 
															+    - 开心
														
 
															+    - 无聊
														
 
															+    - 生气
														
 
															+    - 孤独
														
 
															+    - 累了
														
 
															+    - 烦恼
														
 
															+    - 心情
														
 
															+    - 难过
														
 
															+    - 抑郁
														
 
															+    
														
 
															+  商业金融:
														
 
															+    - 股票
														
 
															+    - 基金
														
 
															+    - 理财
														
 
															+    - 投资
														
 
															+    - 经济
														
 
															+    - 通货膨胀
														
 
															+    - 上市
														
 
															+    
														
 
															+  哲学思考:
														
 
															+    - 人生意义
														
 
															+    - 价值观
														
 
															+    - 道德
														
 
															+    - 信仰
														
 
															+    - 宗教
														
 
															+    - 爱情
														
 
															+    
														
 
															+  地理范围:
														
 
															+    - 全球
														
 
															+    - 全国
														
 
															+    - 亚洲
														
 
															+    - 发展中
														
 
															+    - 欧洲
														
 
															+    - 美洲
														
 
															+    - 东亚
														
 
															+    - 东南亚
														
 
															+    - 南美
														
 
															+    - 非洲
														
 
															+    - 大洋
														
 
															+
														
 
															+# ===========================================
														
 
															+# SQL模式（正则表达式）
														
 
															+# ===========================================
														
 
															+sql_patterns:
														
 
															+  description: "用于识别SQL语句特征的正则表达式"
														
 
															+  patterns:
														
 
															+    - pattern: "\\b(select|from|where|group by|order by|having|join|update)\\b"
														
 
															+      description: "SQL关键字匹配"
														
 
															+      case_sensitive: false
														
 
															+      
														
 
															+    - pattern: "\\b(数据库|表名|表|字段名|SQL|sql|database|table)\\b"
														
 
															+      description: "数据库概念词匹配"
														
 
															+      case_sensitive: false
														
 
															+
														
 
															+# ===========================================
														
 
															+# 聊天关键词
														
 
															+# ===========================================
														
 
															+chat_keywords:
														
 
															+  description: "倾向于聊天分类的关键词"
														
 
															+  keywords:
														
 
															+    # 问候语
														
 
															+    - 你好啊
														
 
															+    - 谢谢
														
 
															+    - 再见
														
 
															+    
														
 
															+    # 疑问词
														
 
															+    - 怎么样
														
 
															+    - 如何
														
 
															+    - 为什么
														
 
															+    - 什么是
														
 
															+    
														
 
															+    # 帮助请求
														
 
															+    - 介绍
														
 
															+    - 解释
														
 
															+    - 说明
														
 
															+    - 帮助
														
 
															+    - 操作
														
 
															+    - 使用方法
														
 
															+    - 功能
														
 
															+    - 教程
														
 
															+    - 指南
														
 
															+    - 手册
														
 
															+    - 讲解
														
 
															+
														
 
															+# ===========================================
														
 
															+# 追问关键词（用于上下文判断）
														
 
															+# ===========================================
														
 
															+follow_up_keywords:
														
 
															+  description: "用于检测追问型问题的关键词"
														
 
															+  keywords:
														
 
															+    # 延续词
														
 
															+    - 还有
														
 
															+    - 详细
														
 
															+    - 具体
														
 
															+    - 更多
														
 
															+    - 继续
														
 
															+    - 再
														
 
															+    - 也
														
 
															+    
														
 
															+    # 连接词
														
 
															+    - 那么
														
 
															+    - 另外
														
 
															+    - 其他
														
 
															+    - 以及
														
 
															+    - 还
														
 
															+    - 进一步
														
 
															+    
														
 
															+    # 补充词
														
 
															+    - 深入
														
 
															+    - 补充
														
 
															+    - 额外
														
 
															+    - 此外
														
 
															+    - 同时
														
 
															+    - 并且
														
 
															+
														
 
															+# ===========================================
														
 
															+# 话题切换关键词（用于上下文判断）
														
 
															+# ===========================================
														
 
															+topic_switch_keywords:
														
 
															+  description: "用于检测明显话题转换的关键词"
														
 
															+  keywords:
														
 
															+    # 问候开场
														
 
															+    - 你好
														
 
															+    - 你是
														
 
															+    - 谢谢
														
 
															+    - 再见
														
 
															+    
														
 
															+    # 功能询问
														
 
															+    - 介绍
														
 
															+    - 功能
														
 
															+    - 帮助
														
 
															+    - 使用方法
														
 
															+    
														
 
															+    # 系统询问
														
 
															+    - 平台
														
 
															+    - 系统
														
 
															+    - AI
														
 
															+    - 助手
														
 
															+
														
 
															+# ===========================================
														
 
															+# 配置验证规则
														
 
															+# ===========================================
														
 
															+validation:
														
 
															+  required_sections:
														
 
															+    - strong_business_keywords
														
 
															+    - query_intent_keywords
														
 
															+    - non_business_keywords
														
 
															+    - sql_patterns
														
 
															+    - chat_keywords
														
 
															+    - follow_up_keywords
														
 
															+    - topic_switch_keywords
														
 
															+  
														
 
															+  min_keywords_count:
														
 
															+    strong_business_keywords: 50
														
 
															+    query_intent_keywords: 20
														
 
															+    non_business_keywords: 70
														
 
															+    chat_keywords: 15
														
 
															+```
														
 
															+
														
 
															+## 🔧 技术实现方案
														
 
															+
														
 
															+### 1. 关键词加载器设计
														
 
															+
														
 
															+创建 `agent/dict_loader.py`：
														
 
															+
														
 
															+```python
														
 
															+# agent/dict_loader.py
														
 
															+"""
														
 
															+分类器词典配置加载器
														
 
															+负责从YAML文件加载分类器词典配置，并提供数据转换和验证功能
														
 
															+"""
														
 
															+
														
 
															+import yaml
														
 
															+import os
														
 
															+import re
														
 
															+from typing import Dict, Any, List, Optional
														
 
															+from dataclasses import dataclass
														
 
															+from core.logging import get_agent_logger
														
 
															+
														
 
															+# 初始化日志
														
 
															+logger = get_agent_logger("KeywordsLoader")
														
 
															+
														
 
															+@dataclass
														
 
															+class ClassifierDictConfig:
														
 
															+    """分类器词典配置数据类"""
														
 
															+    strong_business_keywords: Dict[str, List[str]]
														
 
															+    query_intent_keywords: List[str]
														
 
															+    non_business_keywords: List[str]
														
 
															+    sql_patterns: List[str]
														
 
															+    chat_keywords: List[str]
														
 
															+    follow_up_keywords: List[str]
														
 
															+    topic_switch_keywords: List[str]
														
 
															+    weights: Dict[str, float]
														
 
															+    metadata: Dict[str, Any]
														
 
															+
														
 
															+class DictLoader:
														
 
															+    """分类器词典配置加载器"""
														
 
															+    
														
 
															+    def __init__(self, dict_file: str = None):
														
 
															+        """
														
 
															+        初始化加载器
														
 
															+        
														
 
															+        Args:
														
 
															+            dict_file: 词典配置文件路径，默认为agent/classifier_dict.yaml
														
 
															+        """
														
 
															+        if dict_file is None:
														
 
															+            current_dir = os.path.dirname(os.path.abspath(__file__))
														
 
															+            dict_file = os.path.join(current_dir, "classifier_dict.yaml")
														
 
															+        
														
 
															+        self.dict_file = dict_file
														
 
															+        self.config_cache = None
														
 
															+    
														
 
															+    def load_config(self, force_reload: bool = False) -> ClassifierDictConfig:
														
 
															+        """
														
 
															+        加载词典配置
														
 
															+        
														
 
															+        Args:
														
 
															+            force_reload: 是否强制重新加载，默认使用缓存
														
 
															+            
														
 
															+        Returns:
														
 
															+            ClassifierDictConfig: 词典配置对象
														
 
															+            
														
 
															+        Raises:
														
 
															+            FileNotFoundError: 配置文件不存在
														
 
															+            ValueError: 配置文件格式错误
														
 
															+        """
														
 
															+        if self.config_cache is not None and not force_reload:
														
 
															+            return self.config_cache
														
 
															+        
														
 
															+        try:
														
 
															+            logger.info(f"加载词典配置文件: {self.dict_file}")
														
 
															+            
														
 
															+            with open(self.dict_file, 'r', encoding='utf-8') as f:
														
 
															+                yaml_data = yaml.safe_load(f)
														
 
															+            
														
 
															+            # 验证配置文件
														
 
															+            self._validate_config(yaml_data)
														
 
															+            
														
 
															+            # 转换数据格式
														
 
															+            config = self._convert_config(yaml_data)
														
 
															+            
														
 
															+            # 缓存配置
														
 
															+            self.config_cache = config
														
 
															+            
														
 
															+            logger.info("词典配置加载成功")
														
 
															+            return config
														
 
															+            
														
 
															+        except FileNotFoundError:
														
 
															+            error_msg = f"词典配置文件不存在: {self.dict_file}"
														
 
															+            logger.error(error_msg)
														
 
															+            raise FileNotFoundError(error_msg)
														
 
															+        except yaml.YAMLError as e:
														
 
															+            error_msg = f"词典配置文件YAML格式错误: {str(e)}"
														
 
															+            logger.error(error_msg)
														
 
															+            raise ValueError(error_msg)
														
 
															+        except Exception as e:
														
 
															+            error_msg = f"词典配置加载失败: {str(e)}"
														
 
															+            logger.error(error_msg)
														
 
															+            raise ValueError(error_msg)
														
 
															+    
														
 
															+    def _validate_config(self, yaml_data: Dict[str, Any]) -> None:
														
 
															+        """验证配置文件格式和必要字段"""
														
 
															+        required_sections = [
														
 
															+            'strong_business_keywords',
														
 
															+            'query_intent_keywords', 
														
 
															+            'non_business_keywords',
														
 
															+            'sql_patterns',
														
 
															+            'chat_keywords',
														
 
															+            'follow_up_keywords',
														
 
															+            'topic_switch_keywords',
														
 
															+            'weights'
														
 
															+        ]
														
 
															+        
														
 
															+        for section in required_sections:
														
 
															+            if section not in yaml_data:
														
 
															+                raise ValueError(f"配置文件缺少必要部分: {section}")
														
 
															+        
														
 
															+        # 验证权重配置
														
 
															+        required_weights = [
														
 
															+            'business_entity',
														
 
															+            'system_indicator', 
														
 
															+            'query_intent',
														
 
															+            'sql_pattern',
														
 
															+            'chat_keyword',
														
 
															+            'non_business_confidence'
														
 
															+        ]
														
 
															+        
														
 
															+        for weight in required_weights:
														
 
															+            if weight not in yaml_data['weights']:
														
 
															+                raise ValueError(f"权重配置缺少: {weight}")
														
 
															+        
														
 
															+        logger.debug("配置文件验证通过")
														
 
															+    
														
 
															+    def _convert_config(self, yaml_data: Dict[str, Any]) -> ClassifierDictConfig:
														
 
															+        """将YAML数据转换为ClassifierDictConfig对象"""
														
 
															+        
														
 
															+        # 转换强业务关键词（保持字典结构）
														
 
															+        strong_business_keywords = {}
														
 
															+        for category, data in yaml_data['strong_business_keywords'].items():
														
 
															+            if isinstance(data, dict) and 'keywords' in data:
														
 
															+                strong_business_keywords[category] = data['keywords']
														
 
															+            else:
														
 
															+                # 兼容简单格式
														
 
															+                strong_business_keywords[category] = data
														
 
															+        
														
 
															+        # 转换查询意图关键词
														
 
															+        query_intent_data = yaml_data['query_intent_keywords']
														
 
															+        if isinstance(query_intent_data, dict) and 'keywords' in query_intent_data:
														
 
															+            query_intent_keywords = query_intent_data['keywords']
														
 
															+        else:
														
 
															+            query_intent_keywords = query_intent_data
														
 
															+        
														
 
															+        # 转换非业务实体词（展平为列表）
														
 
															+        non_business_keywords = self._flatten_non_business_keywords(
														
 
															+            yaml_data['non_business_keywords']
														
 
															+        )
														
 
															+        
														
 
															+        # 转换SQL模式
														
 
															+        sql_patterns = []
														
 
															+        patterns_data = yaml_data['sql_patterns']
														
 
															+        if isinstance(patterns_data, dict) and 'patterns' in patterns_data:
														
 
															+            for pattern_info in patterns_data['patterns']:
														
 
															+                if isinstance(pattern_info, dict):
														
 
															+                    sql_patterns.append(pattern_info['pattern'])
														
 
															+                else:
														
 
															+                    sql_patterns.append(pattern_info)
														
 
															+        else:
														
 
															+            sql_patterns = patterns_data
														
 
															+        
														
 
															+        # 转换其他关键词列表
														
 
															+        chat_keywords = self._extract_keywords_list(yaml_data['chat_keywords'])
														
 
															+        follow_up_keywords = self._extract_keywords_list(yaml_data['follow_up_keywords'])
														
 
															+        topic_switch_keywords = self._extract_keywords_list(yaml_data['topic_switch_keywords'])
														
 
															+        
														
 
															+        return ClassifierDictConfig(
														
 
															+            strong_business_keywords=strong_business_keywords,
														
 
															+            query_intent_keywords=query_intent_keywords,
														
 
															+            non_business_keywords=non_business_keywords,
														
 
															+            sql_patterns=sql_patterns,
														
 
															+            chat_keywords=chat_keywords,
														
 
															+            follow_up_keywords=follow_up_keywords,
														
 
															+            topic_switch_keywords=topic_switch_keywords,
														
 
															+            weights=yaml_data['weights'],
														
 
															+            metadata=yaml_data.get('metadata', {})
														
 
															+        )
														
 
															+    
														
 
															+    def _flatten_non_business_keywords(self, non_business_data: Dict[str, Any]) -> List[str]:
														
 
															+        """将分类的非业务词展平为列表"""
														
 
															+        flattened = []
														
 
															+        
														
 
															+        # 跳过description字段
														
 
															+        for category, keywords in non_business_data.items():
														
 
															+            if category == 'description':
														
 
															+                continue
														
 
															+            if isinstance(keywords, list):
														
 
															+                flattened.extend(keywords)
														
 
															+        
														
 
															+        return flattened
														
 
															+    
														
 
															+    def _extract_keywords_list(self, data: Any) -> List[str]:
														
 
															+        """从可能包含description的数据中提取关键词列表"""
														
 
															+        if isinstance(data, dict) and 'keywords' in data:
														
 
															+            return data['keywords']
														
 
															+        elif isinstance(data, list):
														
 
															+            return data
														
 
															+        else:
														
 
															+            return []
														
 
															+
														
 
															+# 全局加载器实例
														
 
															+_dict_loader = None
														
 
															+
														
 
															+def get_dict_loader() -> DictLoader:
														
 
															+    """获取全局词典加载器实例"""
														
 
															+    global _dict_loader
														
 
															+    if _dict_loader is None:
														
 
															+        _dict_loader = DictLoader()
														
 
															+    return _dict_loader
														
 
															+
														
 
															+def load_classifier_dict_config(force_reload: bool = False) -> ClassifierDictConfig:
														
 
															+    """
														
 
															+    加载分类器词典配置（便捷函数）
														
 
															+    
														
 
															+    Args:
														
 
															+        force_reload: 是否强制重新加载
														
 
															+        
														
 
															+    Returns:
														
 
															+        ClassifierDictConfig: 词典配置对象
														
 
															+    """
														
 
															+    loader = get_dict_loader()
														
 
															+    return loader.load_config(force_reload)
														
 
															+```
														
 
															+
														
 
															+### 2. config.py 修改方案
														
 
															+
														
 
															+在 `agent/config.py` 中添加关键词加载函数：
														
 
															+
														
 
															+```python
														
 
															+# 在 agent/config.py 文件末尾添加
														
 
															+
														
 
															+# ==================== 关键词配置加载 ====================
														
 
															+
														
 
															+try:
														
 
															+    from .dict_loader import load_classifier_dict_config, get_dict_loader
														
 
															+    
														
 
															+    def get_classifier_dict_config(force_reload: bool = False):
														
 
															+        """
														
 
															+        获取分类器词典配置
														
 
															+        
														
 
															+        Args:
														
 
															+            force_reload: 是否强制重新加载
														
 
															+            
														
 
															+        Returns:
														
 
															+            ClassifierDictConfig: 词典配置对象
														
 
															+        """
														
 
															+        return load_classifier_dict_config(force_reload)
														
 
															+    
														
 
															+    def reload_classifier_dict_config():
														
 
															+        """重新加载分类器词典配置"""
														
 
															+        return load_classifier_dict_config(force_reload=True)
														
 
															+    
														
 
															+    # 导出词典配置函数
														
 
															+    __all__ = [
														
 
															+        'get_current_config', 
														
 
															+        'get_nested_config', 
														
 
															+        'AGENT_CONFIG',
														
 
															+        'get_classifier_dict_config',
														
 
															+        'reload_classifier_dict_config'
														
 
															+    ]
														
 
															+    
														
 
															+except ImportError as e:
														
 
															+    # 如果dict_loader模块不存在，提供空实现
														
 
															+    def get_classifier_dict_config(force_reload: bool = False):
														
 
															+        raise ImportError("词典加载器模块不可用，请检查dict_loader.py是否存在")
														
 
															+    
														
 
															+    def reload_classifier_dict_config():
														
 
															+        raise ImportError("词典加载器模块不可用，请检查dict_loader.py是否存在")
														
 
															+```
														
 
															+
														
 
															+### 3. classifier.py 修改方案
														
 
															+
														
 
															+修改 `QuestionClassifier.__init__` 方法：
														
 
															+
														
 
															+```python
														
 
															+# 在 QuestionClassifier.__init__ 方法中的修改
														
 
															+
														
 
															+def __init__(self):
														
 
															+    # 初始化日志
														
 
															+    self.logger = get_agent_logger("Classifier")
														
 
															+    
														
 
															+    # 加载配置参数（保持现有逻辑）
														
 
															+    try:
														
 
															+        from agent.config import get_current_config, get_nested_config
														
 
															+        config = get_current_config()
														
 
															+        self.high_confidence_threshold = get_nested_config(config, "classification.high_confidence_threshold", 0.7)
														
 
															+        # ... 其他配置参数加载保持不变
														
 
															+        self.logger.info("从配置文件加载分类器参数完成")
														
 
															+    except ImportError:
														
 
															+        # ... 现有的默认配置逻辑保持不变
														
 
															+        self.logger.warning("配置文件不可用，使用默认分类器参数")
														
 
															+    
														
 
															+    # 加载词典配置（新增逻辑）
														
 
															+    self._load_dict_config()
														
 
															+
														
 
															+def _load_dict_config(self):
														
 
															+    """加载分类器词典配置"""
														
 
															+    try:
														
 
															+        from agent.config import get_classifier_dict_config
														
 
															+        dict_config = get_classifier_dict_config()
														
 
															+        
														
 
															+        # 加载强业务关键词
														
 
															+        self.strong_business_keywords = dict_config.strong_business_keywords
														
 
															+        
														
 
															+        # 加载其他关键词列表
														
 
															+        self.query_intent_keywords = dict_config.query_intent_keywords
														
 
															+        self.non_business_keywords = dict_config.non_business_keywords
														
 
															+        self.chat_keywords = dict_config.chat_keywords
														
 
															+        self.follow_up_keywords = dict_config.follow_up_keywords
														
 
															+        self.topic_switch_keywords = dict_config.topic_switch_keywords
														
 
															+        
														
 
															+        # 加载SQL模式
														
 
															+        self.sql_patterns = dict_config.sql_patterns
														
 
															+        
														
 
															+        # 记录加载的关键词数量
														
 
															+        total_keywords = (
														
 
															+            sum(len(keywords) for keywords in self.strong_business_keywords.values()) +
														
 
															+            len(self.query_intent_keywords) +
														
 
															+            len(self.non_business_keywords) +
														
 
															+            len(self.chat_keywords) +
														
 
															+            len(self.follow_up_keywords) +
														
 
															+            len(self.topic_switch_keywords)
														
 
															+        )
														
 
															+        
														
 
															+        self.logger.info(f"从YAML配置文件加载词典完成，共加载 {total_keywords} 个关键词")
														
 
															+        
														
 
															+    except Exception as e:
														
 
															+        self.logger.warning(f"加载YAML词典配置失败: {str(e)}，使用代码中的备用配置")
														
 
															+        self._load_default_dict()
														
 
															+
														
 
															+def _load_default_dict(self):
														
 
															+    """加载代码中的备用词典配置"""
														
 
															+    self.logger.info("使用代码中的默认词典配置作为备用")
														
 
															+    
														
 
															+    # 保留原有的硬编码关键词作为备用
														
 
															+    self.strong_business_keywords = {
														
 
															+        "核心业务实体": [
														
 
															+            "服务区", "档口", "商铺", "收费站", "高速公路",
														
 
															+            "驿美", "驿购",
														
 
															+            "北区", "南区", "西区", "东区", "两区",
														
 
															+            "停车区", "公司", "管理公司", "运营公司", "驿美运营公司"
														
 
															+        ],
														
 
															+        # ... 其他关键词类别的备用配置
														
 
															+    }
														
 
															+    
														
 
															+    # ... 其他关键词的备用配置
														
 
															+    
														
 
															+    self.logger.info("默认词典配置加载完成")
														
 
															+```
														
 
															+
														
 
															+## 🧪 测试验证方案
														
 
															+
														
 
															+### 1. 单元测试设计
														
 
															+
														
 
															+创建 `test/test_dict_loader.py`：
														
 
															+
														
 
															+```python
														
 
															+# test/test_dict_loader.py
														
 
															+import unittest
														
 
															+import tempfile
														
 
															+import os
														
 
															+import yaml
														
 
															+from agent.dict_loader import DictLoader, ClassifierDictConfig
														
 
															+
														
 
															+class TestDictLoader(unittest.TestCase):
														
 
															+    """词典加载器测试"""
														
 
															+    
														
 
															+    def setUp(self):
														
 
															+        """测试前准备"""
														
 
															+        self.test_yaml_content = {
														
 
															+            'metadata': {'version': '1.0'},
														
 
															+            'weights': {
														
 
															+                'business_entity': 2,
														
 
															+                'system_indicator': 1,
														
 
															+                'query_intent': 1,
														
 
															+                'sql_pattern': 3,
														
 
															+                'chat_keyword': 1,
														
 
															+                'non_business_confidence': 0.85
														
 
															+            },
														
 
															+            'strong_business_keywords': {
														
 
															+                '核心业务实体': {
														
 
															+                    'keywords': ['服务区', '档口']
														
 
															+                }
														
 
															+            },
														
 
															+            'query_intent_keywords': {
														
 
															+                'keywords': ['统计', '查询']
														
 
															+            },
														
 
															+            'non_business_keywords': {
														
 
															+                '农产品食物': ['苹果', '香蕉']
														
 
															+            },
														
 
															+            'sql_patterns': {
														
 
															+                'patterns': [
														
 
															+                    {'pattern': '\\bselect\\b', 'description': 'SQL关键字'}
														
 
															+                ]
														
 
															+            },
														
 
															+            'chat_keywords': {
														
 
															+                'keywords': ['你好', '谢谢']
														
 
															+            },
														
 
															+            'follow_up_keywords': {
														
 
															+                'keywords': ['还有', '详细']
														
 
															+            },
														
 
															+            'topic_switch_keywords': {
														
 
															+                'keywords': ['你好', '你是']
														
 
															+            }
														
 
															+        }
														
 
															+    
														
 
															+    def test_load_valid_config(self):
														
 
															+        """测试加载有效配置"""
														
 
															+        with tempfile.NamedTemporaryFile(mode='w', suffix='.yaml', delete=False) as f:
														
 
															+            yaml.dump(self.test_yaml_content, f)
														
 
															+            temp_file = f.name
														
 
															+        
														
 
															+        try:
														
 
															+            loader = DictLoader(temp_file)
														
 
															+            config = loader.load_config()
														
 
															+            
														
 
															+            self.assertIsInstance(config, ClassifierDictConfig)
														
 
															+            self.assertEqual(config.weights['business_entity'], 2)
														
 
															+            self.assertIn('服务区', config.strong_business_keywords['核心业务实体'])
														
 
															+            self.assertIn('苹果', config.non_business_keywords)
														
 
															+            
														
 
															+        finally:
														
 
															+            os.unlink(temp_file)
														
 
															+    
														
 
															+    def test_load_missing_file(self):
														
 
															+        """测试加载不存在的文件"""
														
 
															+        loader = DictLoader('nonexistent.yaml')
														
 
															+        with self.assertRaises(FileNotFoundError):
														
 
															+            loader.load_config()
														
 
															+    
														
 
															+    def test_load_invalid_yaml(self):
														
 
															+        """测试加载无效YAML"""
														
 
															+        with tempfile.NamedTemporaryFile(mode='w', suffix='.yaml', delete=False) as f:
														
 
															+            f.write("invalid: yaml: content: [")
														
 
															+            temp_file = f.name
														
 
															+        
														
 
															+        try:
														
 
															+            loader = DictLoader(temp_file)
														
 
															+            with self.assertRaises(ValueError):
														
 
															+                loader.load_config()
														
 
															+        finally:
														
 
															+            os.unlink(temp_file)
														
 
															+
														
 
															+if __name__ == '__main__':
														
 
															+    unittest.main()
														
 
															+```
														
 
															+
														
 
															+### 2. 集成测试设计
														
 
															+
														
 
															+创建 `test/test_classifier_yaml_integration.py`：
														
 
															+
														
 
															+```python
														
 
															+# test/test_classifier_yaml_integration.py
														
 
															+import unittest
														
 
															+from agent.classifier import QuestionClassifier
														
 
															+
														
 
															+class TestClassifierYamlIntegration(unittest.TestCase):
														
 
															+    """分类器YAML集成测试"""
														
 
															+    
														
 
															+    def setUp(self):
														
 
															+        """测试前准备"""
														
 
															+        self.classifier = QuestionClassifier()
														
 
															+    
														
 
															+    def test_yaml_dict_loaded(self):
														
 
															+        """测试YAML词典是否正确加载"""
														
 
															+        # 验证强业务关键词
														
 
															+        self.assertIsInstance(self.classifier.strong_business_keywords, dict)
														
 
															+        self.assertIn('核心业务实体', self.classifier.strong_business_keywords)
														
 
															+        
														
 
															+        # 验证其他关键词列表
														
 
															+        self.assertIsInstance(self.classifier.query_intent_keywords, list)
														
 
															+        self.assertIsInstance(self.classifier.non_business_keywords, list)
														
 
															+        self.assertIsInstance(self.classifier.chat_keywords, list)
														
 
															+    
														
 
															+    def test_classification_still_works(self):
														
 
															+        """测试分类功能仍然正常工作"""
														
 
															+        # 测试业务查询
														
 
															+        result = self.classifier.classify("统计服务区的微信支付金额")
														
 
															+        self.assertEqual(result.question_type, "DATABASE")
														
 
															+        
														
 
															+        # 测试非业务查询
														
 
															+        result = self.classifier.classify("苹果什么时候成熟")
														
 
															+        self.assertEqual(result.question_type, "CHAT")
														
 
															+        
														
 
															+        # 测试聊天查询
														
 
															+        result = self.classifier.classify("你好，请问如何使用")
														
 
															+        self.assertEqual(result.question_type, "CHAT")
														
 
															+
														
 
															+if __name__ == '__main__':
														
 
															+    unittest.main()
														
 
															+```
														
 
															+
														
 
															+## 📋 实施步骤
														
 
															+
														
 
															+### 阶段一：基础设施搭建（1-2天）
														
 
															+1. ✅ 创建 `agent/classifier_dict.yaml` 配置文件
														
 
															+2. ✅ 创建 `agent/dict_loader.py` 加载器
														
 
															+3. ✅ 修改 `agent/config.py` 添加加载函数
														
 
															+4. ✅ 编写单元测试
														
 
															+
														
 
															+### 阶段二：代码改造（1天）
														
 
															+1. ✅ 修改 `QuestionClassifier.__init__` 方法
														
 
															+2. ✅ 添加备用关键词加载逻辑
														
 
															+3. ✅ 编写集成测试
														
 
															+
														
 
															+### 阶段三：测试验证（1天）
														
 
															+1. ✅ 运行单元测试和集成测试
														
 
															+2. ✅ 验证分类功能正确性
														
 
															+3. ✅ 测试异常情况处理
														
 
															+
														
 
															+### 阶段四：部署上线（0.5天）
														
 
															+1. ✅ 部署配置文件到生产环境
														
 
															+2. ✅ 验证系统运行正常
														
 
															+3. ✅ 监控分类效果
														
 
															+
														
 
															+## 🎯 预期效果
														
 
															+
														
 
															+### 立即收益
														
 
															+1. **词典维护便利化**: 业务人员可直接编辑YAML文件
														
 
															+2. **配置版本化管理**: 词典变更可进行Git版本控制
														
 
															+3. **系统稳定性保障**: 备用机制确保配置失败时系统正常运行
														
 
															+
														
 
															+### 长期收益
														
 
															+1. **快速业务适配**: 新业务场景的词典快速添加
														
 
															+2. **A/B测试支持**: 不同环境使用不同词典配置
														
 
															+3. **数据驱动优化**: 基于分类效果数据调整词典权重
														
 
															+
														
 
															+## ⚠️ 风险控制
														
 
															+
														
 
															+### 潜在风险
														
 
															+1. **配置文件错误**: YAML格式错误导致系统启动失败
														
 
															+2. **词典缺失**: 关键词遗漏影响分类准确性
														
 
															+3. **权重配置错误**: 权重设置不当影响分类效果
														
 
															+
														
 
															+### 风险控制措施
														
 
															+1. **格式验证**: 加载器进行严格的YAML格式和必要字段验证
														
 
															+2. **备用机制**: 保留代码中的默认词典作为备用
														
 
															+3. **渐进式部署**: 先在测试环境验证，再逐步推广到生产环境
														
 
															+4. **监控告警**: 添加词典加载失败的监控和告警
														
 
															+5. **文档说明**: 提供详细的配置文件编辑指南
														
 
															+
														
 
															+## 📈 后续优化方向
														
 
															+
														
 
															+1. **热更新机制**: 实现运行时重载词典配置，无需重启
														
 
															+2. **可视化管理**: 开发Web界面管理词典配置
														
 
															+3. **智能推荐**: 基于用户查询日志推荐新关键词
														
 
															+4. **效果分析**: 统计各关键词的命中率和分类准确性
														
 
															+5. **多环境支持**: 支持开发/测试/生产环境的差异化配置
														
 
															+
														
 
															+---
														
 
															+
														
 
															+*本方案基于当前系统架构设计，遵循最小变更原则，确保改造过程中系统稳定运行。* 
														
--- a/docs/问题分类器规则判断逻辑详解.md
+++ b/docs/问题分类器规则判断逻辑详解.md
@@ -0,0 +1,503 @@
 
															+# 问题分类器规则判断逻辑详解
														
 
															+
														
 
															+## 概述
														
 
															+
														
 
															+问题分类器(`QuestionClassifier`)是Citu智能数据问答平台的核心组件，负责将用户问题分类为`DATABASE`（数据库查询）或`CHAT`（聊天对话）类型。本文档详细解释其基于规则的分类逻辑和评分机制。
														
 
															+
														
 
															+## 分类流程概览
														
 
															+
														
 
															+```mermaid
														
 
															+graph TD
														
 
															+    A[用户问题输入] --> B[提取当前问题]
														
 
															+    B --> C[检查非业务实体词]
														
 
															+    C --> D{包含非业务词?}
														
 
															+    D -->|是| E[直接分类为CHAT<br/>置信度0.85]
														
 
															+    D -->|否| F[计算各类评分]
														
 
															+    F --> G[业务实体评分]
														
 
															+    F --> H[系统指示词评分]
														
 
															+    F --> I[查询意图评分]
														
 
															+    F --> J[SQL模式评分]
														
 
															+    F --> K[聊天关键词评分]
														
 
															+    G --> L[组合评分逻辑]
														
 
															+    H --> L
														
 
															+    I --> L
														
 
															+    J --> L
														
 
															+    K --> L
														
 
															+    L --> M[分类决策]
														
 
															+    M --> N[返回分类结果]
														
 
															+```
														
 
															+
														
 
															+## 1. 关键词定义体系
														
 
															+
														
 
															+### 1.0 关键词类型总览
														
 
															+
														
 
															+问题分类器定义了 **8种关键词类型**，用于不同的分类判断：
														
 
															+
														
 
															+| 序号 | 关键词类型 | 数据结构 | 权重/作用 | 数量 | 定义位置 |
														
 
															+|------|------------|----------|-----------|------|----------|
														
 
															+| 1 | **强业务关键词** | 字典(6个子类别) | 混合权重 | 65个 | `classifier.py:49-79` |
														
 
															+| 2 | **查询意图关键词** | 列表 | +1分/词 | 25个 | `classifier.py:81-87` |
														
 
															+| 3 | **非业务实体词** | 列表 | 立即CHAT(0.85) | ~80个 | `classifier.py:91-122` |
														
 
															+| 4 | **SQL模式** | 正则表达式列表 | +3分/匹配 | 2个 | `classifier.py:126-129` |
														
 
															+| 5 | **聊天关键词** | 列表 | +1分/词 | 17个 | `classifier.py:132-136` |
														
 
															+| 6 | **追问关键词** | 列表 | 上下文判断 | 16个 | `classifier.py:139-143` |
														
 
															+| 7 | **话题切换关键词** | 列表 | 上下文判断 | 12个 | `classifier.py:146-150` |
														
 
															+| 8 | **业务上下文文件** | 外部文本 | LLM分类辅助 | 1个文件 | `tools/db_query_decision_prompt.txt` |
														
 
															+
														
 
															+### 1.1 强业务关键词与业务实体词的关系
														
 
															+
														
 
															+**关键概念区分**：
														
 
															+
														
 
															+```mermaid
														
 
															+graph TD
														
 
															+    A[强业务关键词<br/>strong_business_keywords] --> B[业务实体词<br/>+2分/词<br/>5个子类别]
														
 
															+    A --> C[系统查询指示词<br/>+1分/词<br/>特殊处理]
														
 
															+    
														
 
															+    B --> D[核心业务实体]
														
 
															+    B --> E[支付业务] 
														
 
															+    B --> F[经营品类]
														
 
															+    B --> G[车流业务]
														
 
															+    B --> H[地理路线]
														
 
															+    
														
 
															+    C --> I[系统指示<br/>数据指示<br/>平台指示]
														
 
															+    
														
 
															+    style B fill:#e1f5fe
														
 
															+    style C fill:#fff3e0
														
 
															+```
														
 
															+
														
 
															+**包含关系说明**：
														
 
															+- **强业务关键词** = 总概念（6个子类别）
														
 
															+- **业务实体词** = 强业务关键词 - 系统查询指示词（5个子类别）
														
 
															+- **权重差异**：业务实体词(+2分/词) > 系统查询指示词(+1分/词)
														
 
															+
														
 
															+**代码实现逻辑**：
														
 
															+```python
														
 
															+# 在 _rule_based_classify 方法中
														
 
															+for category, keywords in self.strong_business_keywords.items():
														
 
															+    if category == "系统查询指示词":  # 系统指示词单独处理
														
 
															+        continue
														
 
															+    for keyword in keywords:
														
 
															+        if keyword in question_lower:
														
 
															+            business_score += 2  # 业务实体词权重更高
														
 
															+```
														
 
															+
														
 
															+### 1.2 强业务关键词详细定义 (strong_business_keywords)
														
 
															+
														
 
															+这是分类器的核心词库，分为6个业务类别：
														
 
															+
														
 
															+#### 核心业务实体 (权重: +2分/词)
														
 
															+- **基础设施**: 服务区、档口、商铺、收费站、高速公路、停车区
														
 
															+- **业务系统**: 驿美、驿购
														
 
															+- **物理分区**: 北区、南区、西区、东区、两区
														
 
															+- **公司相关**: 公司、管理公司、运营公司、驿美运营公司
														
 
															+
														
 
															+#### 支付业务 (权重: +2分/词)
														
 
															+- **支付方式全称**: 微信支付、支付宝支付、现金支付、行吧支付、金豆支付
														
 
															+- **业务指标**: 支付金额、订单数量、营业额、收入、营业收入
														
 
															+- **简化形式**: 微信、支付宝、现金、行吧、金豆
														
 
															+- **系统字段**: wx、zfb、rmb、xs、jd
														
 
															+
														
 
															+#### 经营品类 (权重: +2分/词)
														
 
															+- **品类**: 餐饮、小吃、便利店、整体租赁
														
 
															+- **品牌**: 驿美餐饮、品牌、经营品类、商业品类
														
 
															+
														
 
															+#### 车流业务 (权重: +2分/词)
														
 
															+- **流量概念**: 车流量、车辆数量、车辆统计、流量统计
														
 
															+- **车型分类**: 客车、货车、过境、危化品、城际
														
 
															+- **分析概念**: 车型分布
														
 
															+
														
 
															+#### 地理路线 (权重: +2分/词)
														
 
															+- **具体线路**: 大广、昌金、昌栗
														
 
															+- **概念词**: 线路、路段、路线、高速线路、公路线路
														
 
															+
														
 
															+#### 系统查询指示词 (权重: +1分/词，特殊处理)
														
 
															+- **系统指示**: 当前系统、当前数据库、当前数据、数据库、本系统、系统
														
 
															+- **数据指示**: 数据库中、数据中、现有数据、已有数据、存储的数据
														
 
															+- **平台指示**: 平台数据、我们的数据库、这个系统
														
 
															+
														
 
															+### 1.2 查询意图关键词 (query_intent_keywords)
														
 
															+
														
 
															+用于识别数据查询意图，权重: +1分/词
														
 
															+
														
 
															+- **统计分析**: 统计、查询、分析、报表、报告、汇总、计算、对比
														
 
															+- **排序概念**: 排行、排名、趋势、占比、百分比、比例
														
 
															+- **聚合函数**: 最大、最小、最高、最低、平均、总计、合计、累计、求和、求平均
														
 
															+- **输出动作**: 生成、导出、显示、列出、共有
														
 
															+
														
 
															+### 1.3 SQL模式匹配 (sql_patterns)
														
 
															+
														
 
															+使用正则表达式匹配SQL语句特征，权重: +3分/匹配
														
 
															+
														
 
															+- **SQL关键字**: `select|from|where|group by|order by|having|join|update`
														
 
															+- **数据库概念**: `数据库|表名|表|字段名|SQL|sql|database|table`
														
 
															+
														
 
															+### 1.4 非业务实体词 (non_business_keywords)
														
 
															+
														
 
															+**定义位置**: `agent/classifier.py` 第91-122行
														
 
															+
														
 
															+**处理机制**: 一旦匹配，直接分类为CHAT，置信度0.85（**最高优先级判断**）
														
 
															+
														
 
															+**具体分类**:
														
 
															+- **农产品/食物**: 荔枝、苹果、西瓜、水果、蔬菜、大米、小麦、橙子、香蕉、葡萄、草莓、樱桃、桃子、梨
														
 
															+- **技术概念**: 人工智能、机器学习、编程、算法、深度学习、AI、神经网络、模型训练、数据挖掘
														
 
															+- **身份询问**: 你是谁、你是什么、你叫什么、你的名字、你是什么AI、什么模型、大模型、AI助手、助手、机器人
														
 
															+- **天气相关**: 天气、气温、下雨、晴天、阴天、温度、天气预报、气候、降雨、雪天
														
 
															+- **生活常识**: 怎么做饭、如何减肥、健康、医疗、病症、历史、地理、文学、电影、音乐、体育、娱乐、游戏、小说、新闻、政治、战争、足球、NBA、篮球、乒乓球、冠军、夺冠、高考
														
 
															+- **旅游出行**: 旅游、景点、门票、酒店、机票、航班、高铁、的士
														
 
															+- **情绪表达**: 伤心、开心、无聊、生气、孤独、累了、烦恼、心情、难过、抑郁
														
 
															+- **商业金融**: 股票、基金、理财、投资、经济、通货膨胀、上市
														
 
															+- **哲学思考**: 人生意义、价值观、道德、信仰、宗教、爱情
														
 
															+- **地理范围**: 全球、全国、亚洲、发展中、欧洲、美洲、东亚、东南亚、南美、非洲、大洋
														
 
															+
														
 
															+### 1.5 聊天关键词 (chat_keywords)
														
 
															+
														
 
															+**定义位置**: `agent/classifier.py` 第132-136行
														
 
															+
														
 
															+**处理机制**: 倾向于聊天分类，权重: +1分/词
														
 
															+
														
 
															+**具体分类**:
														
 
															+- **问候语**: 你好啊、谢谢、再见
														
 
															+- **疑问词**: 怎么样、如何、为什么、什么是
														
 
															+- **帮助请求**: 介绍、解释、说明、帮助、操作、使用方法、功能、教程、指南、手册、讲解
														
 
															+
														
 
															+### 1.6 追问关键词 (follow_up_keywords)
														
 
															+
														
 
															+**定义位置**: `agent/classifier.py` 第139-143行
														
 
															+
														
 
															+**处理机制**: 用于检测追问型问题，在渐进式分类中起上下文判断作用
														
 
															+
														
 
															+**具体分类**:
														
 
															+- **延续词**: 还有、详细、具体、更多、继续、再、也
														
 
															+- **连接词**: 那么、另外、其他、以及、还、进一步
														
 
															+- **补充词**: 深入、补充、额外、此外、同时、并且
														
 
															+
														
 
															+### 1.7 话题切换关键词 (topic_switch_keywords)
														
 
															+
														
 
															+**定义位置**: `agent/classifier.py` 第146-150行
														
 
															+
														
 
															+**处理机制**: 检测明显的话题转换，避免错误继承上下文类型
														
 
															+
														
 
															+**具体分类**:
														
 
															+- **问候开场**: 你好、你是、谢谢、再见
														
 
															+- **功能询问**: 介绍、功能、帮助、使用方法
														
 
															+- **系统询问**: 平台、系统、AI、助手
														
 
															+
														
 
															+### 1.8 业务上下文文件 (外部文本)
														
 
															+
														
 
															+**定义位置**: `agent/tools/db_query_decision_prompt.txt`
														
 
															+
														
 
															+**处理机制**: 为LLM分类提供详细的业务范围描述
														
 
															+
														
 
															+**内容概要**:
														
 
															+- 核心业务实体定义
														
 
															+- 关键业务指标说明  
														
 
															+- 高速线路信息
														
 
															+- 数据库业务范围界定
														
 
															+
														
 
															+## 2. 评分机制详解
														
 
															+
														
 
															+### 2.1 评分计算流程
														
 
															+
														
 
															+```python
														
 
															+# 1. 业务实体评分 (business_score)
														
 
															+for 每个业务类别:
														
 
															+    if 类别 != "系统查询指示词":
														
 
															+        for 每个关键词:
														
 
															+            if 关键词 in 问题:
														
 
															+                business_score += 2
														
 
															+
														
 
															+# 2. 系统指示词评分 (system_indicator_score)
														
 
															+for 每个系统查询指示词:
														
 
															+    if 关键词 in 问题:
														
 
															+        system_indicator_score += 1
														
 
															+
														
 
															+# 3. 查询意图评分 (intent_score)
														
 
															+for 每个查询意图词:
														
 
															+    if 关键词 in 问题:
														
 
															+        intent_score += 1
														
 
															+
														
 
															+# 4. SQL模式评分
														
 
															+for 每个SQL正则模式:
														
 
															+    if 模式匹配:
														
 
															+        business_score += 3
														
 
															+
														
 
															+# 5. 聊天关键词评分 (chat_score)
														
 
															+for 每个聊天关键词:
														
 
															+    if 关键词 in 问题:
														
 
															+        chat_score += 1
														
 
															+```
														
 
															+
														
 
															+### 2.2 组合评分逻辑
														
 
															+
														
 
															+系统指示词具有特殊的组合效应：
														
 
															+
														
 
															+```python
														
 
															+if system_indicator_score > 0 and business_score > 0:
														
 
															+    # 系统指示词 + 业务实体 = 强组合效应
														
 
															+    business_score += 3  # 组合加分
														
 
															+elif system_indicator_score > 0:
														
 
															+    # 仅有系统指示词 = 中等业务倾向
														
 
															+    business_score += 1
														
 
															+```
														
 
															+
														
 
															+**设计理念**: 
														
 
															+- 当用户说"当前系统有哪些服务区"时，"当前系统"(+1) + "服务区"(+2) + 组合加分(+3) = 总计6分
														
 
															+- 仅有"当前系统"时，只加1分，表示轻微的数据查询倾向
														
 
															+
														
 
															+## 3. 分类决策规则
														
 
															+
														
 
															+### 3.1 优先级决策顺序
														
 
															+
														
 
															+1. **非业务实体词检查** (最高优先级)
														
 
															+   - 条件: 包含任何非业务实体词
														
 
															+   - 结果: `CHAT`, 置信度=0.85
														
 
															+   - 理由: 明确的非业务领域问题
														
 
															+
														
 
															+2. **强业务特征** (次高优先级)
														
 
															+   - 条件: `business_score ≥ 2` AND `intent_score ≥ 1`
														
 
															+   - 结果: `DATABASE`
														
 
															+   - 置信度计算: `min(max_confidence, 0.8 + (total_business_score * 0.05))`
														
 
															+   - 理由: 既有业务实体，又有查询意图
														
 
															+
														
 
															+3. **中等业务特征**
														
 
															+   - 条件: `business_score ≥ 4`
														
 
															+   - 结果: `DATABASE`
														
 
															+   - 置信度计算: `min(max_confidence, 0.7 + (business_score * 0.03))`
														
 
															+   - 理由: 包含多个业务实体词
														
 
															+
														
 
															+4. **聊天特征**
														
 
															+   - 条件: `chat_score ≥ 1` AND `business_score = 0`
														
 
															+   - 结果: `CHAT`
														
 
															+   - 置信度计算: `min(max_confidence, base_confidence + (chat_score * confidence_increment))`
														
 
															+   - 理由: 有聊天意图且无业务特征
														
 
															+
														
 
															+5. **不确定情况** (最低优先级)
														
 
															+   - 条件: 不满足以上任何条件
														
 
															+   - 结果: `UNCERTAIN`
														
 
															+   - 置信度: `uncertain_confidence` (默认0.2)
														
 
															+   - 理由: 规则无法明确判断
														
 
															+
														
 
															+### 3.2 置信度计算公式
														
 
															+
														
 
															+#### 强业务特征置信度
														
 
															+```
														
 
															+confidence = min(max_confidence, 0.8 + (total_business_score * 0.05))
														
 
															+其中: total_business_score = business_score + intent_score
														
 
															+```
														
 
															+
														
 
															+#### 中等业务特征置信度
														
 
															+```
														
 
															+confidence = min(max_confidence, 0.7 + (business_score * 0.03))
														
 
															+```
														
 
															+
														
 
															+#### 聊天特征置信度
														
 
															+```
														
 
															+confidence = min(max_confidence, base_confidence + (chat_score * confidence_increment))
														
 
															+默认: base_confidence=0.4, confidence_increment=0.08
														
 
															+```
														
 
															+
														
 
															+## 4. 置信度阈值决策机制
														
 
															+
														
 
															+### 4.1 决策流程图
														
 
															+
														
 
															+```mermaid
														
 
															+graph TD
														
 
															+    A[规则分类完成] --> B{非业务词匹配?}
														
 
															+    B -->|是| C[直接CHAT<br/>置信度=0.85<br/>🔴王炸优先级]
														
 
															+    B -->|否| D{置信度 ≥ 0.7?}
														
 
															+    D -->|是| E[🟢毫不犹豫<br/>直接使用规则结果<br/>不调用LLM]
														
 
															+    D -->|否| F[🟡调用LLM分类<br/>进行二次判断]
														
 
															+    F --> G[比较两个置信度]
														
 
															+    G --> H[选择置信度更高的结果]
														
 
															+```
														
 
															+
														
 
															+### 4.2 关键阈值说明
														
 
															+
														
 
															+| 置信度范围 | 决策行为 | 代码位置 | 说明 |
														
 
															+|------------|----------|----------|------|
														
 
															+| **非业务词匹配** | 🔴 直接CHAT，置信度=0.85 | `classifier.py:354-361` | 最高优先级，立即决策 |
														
 
															+| **≥ 0.7** | 🟢 毫不犹豫使用规则结果 | `classifier.py:291-292` | 高置信度，不调用LLM |
														
 
															+| **0.4 - 0.69** | 🟡 规则+LLM双重判断 | `classifier.py:294-301` | 取置信度更高者 |
														
 
															+| **< 0.4** | 🟡 规则+LLM双重判断 | `classifier.py:294-301` | 取置信度更高者 |
														
 
															+
														
 
															+### 4.3 决策示例分析
														
 
															+
														
 
															+#### 示例1：毫不犹豫决策 (≥0.7)
														
 
															+```
														
 
															+问题: "统计服务区的微信支付金额"
														
 
															+规则分类: DATABASE, 置信度=0.9
														
 
															+决策: 直接使用规则结果，不调用LLM ✓
														
 
															+```
														
 
															+
														
 
															+#### 示例2：双重判断 (<0.7)
														
 
															+```
														
 
															+问题: "服务区情况"
														
 
															+规则分类: DATABASE, 置信度=0.6
														
 
															+LLM分类: DATABASE, 置信度=0.8
														
 
															+决策: 选择LLM结果 (0.8 > 0.6) ✓
														
 
															+```
														
 
															+
														
 
															+#### 示例3：非业务词王炸
														
 
															+```
														
 
															+问题: "苹果什么时候成熟"
														
 
															+非业务词: 苹果 ✓
														
 
															+决策: 直接CHAT，置信度=0.85，跳过所有其他判断 ✓
														
 
															+```
														
 
															+
														
 
															+### 4.4 设计理念
														
 
															+
														
 
															+1. **成本控制**: 0.7是经济平衡点，避免过度调用LLM
														
 
															+2. **准确性保障**: 低置信度时用LLM作为"第二意见"
														
 
															+3. **强制优先级**: 非业务词具有绝对优先权
														
 
															+4. **智能选择**: 总是选择置信度更高的分类结果
														
 
															+
														
 
															+### 4.5 混合分类模式说明
														
 
															+
														
 
															+**代码位置**: `agent/classifier.py:283-301` (`_hybrid_classify`方法)
														
 
															+
														
 
															+```python
														
 
															+def _hybrid_classify(self, question: str) -> ClassificationResult:
														
 
															+    # 第一步：规则预筛选
														
 
															+    rule_result = self._rule_based_classify(question)
														
 
															+    
														
 
															+    # 如果规则分类有高置信度，直接使用
														
 
															+    if rule_result.confidence >= self.high_confidence_threshold:  # 0.7
														
 
															+        return rule_result  # 毫不犹豫使用规则结果
														
 
															+    
														
 
															+    # 第二步：使用增强的LLM分类
														
 
															+    llm_result = self._enhanced_llm_classify(question)
														
 
															+    
														
 
															+    # 选择置信度更高的结果
														
 
															+    if llm_result.confidence > rule_result.confidence:
														
 
															+        return llm_result
														
 
															+    else:
														
 
															+        return rule_result
														
 
															+```
														
 
															+
														
 
															+**关键特点**:
														
 
															+- 没有"必须交给LLM"的阈值下限
														
 
															+- 即使规则置信度很低（如0.2），如果LLM置信度更低，仍会选择规则结果
														
 
															+- 这样避免了强制依赖LLM，保持了系统的鲁棒性
														
 
															+
														
 
															+## 5. 配置参数说明
														
 
															+
														
 
															+### 5.1 核心阈值参数
														
 
															+
														
 
															+| 参数名 | 默认值 | 范围 | 说明 |
														
 
															+|--------|--------|------|------|
														
 
															+| `high_confidence_threshold` | 0.7 | 0.7-0.9 | 高置信度阈值，超过则直接使用规则结果 |
														
 
															+| `low_confidence_threshold` | 0.4 | 0.2-0.5 | 低置信度阈值，低于则启用LLM辅助 |
														
 
															+| `max_confidence` | 0.9 | 0.8-1.0 | 最大置信度上限，防止过度自信 |
														
 
															+| `base_confidence` | 0.4 | 0.3-0.6 | 基础置信度，聊天分类的起始值 |
														
 
															+| `confidence_increment` | 0.08 | 0.05-0.2 | 置信度增量步长 |
														
 
															+| `uncertain_confidence` | 0.2 | 0.1-0.3 | 不确定分类的置信度 |
														
 
															+
														
 
															+### 5.2 评分权重体系
														
 
															+
														
 
															+| 关键词类型 | 权重 | 用途 | 说明 |
														
 
															+|------------|------|------|------|
														
 
															+| **业务实体词** | +2分/词 | 规则评分 | 核心业务概念，强业务关键词的主要部分 |
														
 
															+| **系统指示词** | +1分/词 | 规则评分 | 系统查询指示，权重低于业务实体词 |
														
 
															+| **查询意图词** | +1分/词 | 规则评分 | 数据查询意图，辅助判断 |
														
 
															+| **SQL模式** | +3分/匹配 | 规则评分 | 技术查询特征，权重最高 |
														
 
															+| **聊天关键词** | +1分/词 | 规则评分 | 聊天交互意图 |
														
 
															+| **非业务实体词** | 立即CHAT(0.85) | 直接分类 | 最高优先级，跳过所有评分 |
														
 
															+| **追问关键词** | 无直接权重 | 上下文判断 | 检测追问型问题 |
														
 
															+| **话题切换关键词** | 无直接权重 | 上下文判断 | 检测话题转换 |
														
 
															+| **组合加分** | +3分 | 特殊逻辑 | 系统词+业务词组合效应 |
														
 
															+
														
 
															+## 6. 典型分类示例
														
 
															+
														
 
															+### 6.1 DATABASE分类示例
														
 
															+
														
 
															+#### 强业务特征 (business_score≥2 + intent_score≥1)
														
 
															+```
														
 
															+问题: "统计服务区的微信支付金额"
														
 
															+匹配:
														
 
															+- 业务实体: 服务区(+2), 微信支付(+2) → business_score=4
														
 
															+- 查询意图: 统计(+1) → intent_score=1
														
 
															+- 总分: 4+1=5
														
 
															+结果: DATABASE, 置信度=min(0.9, 0.8+5*0.05)=0.9
														
 
															+```
														
 
															+
														
 
															+#### 中等业务特征 (business_score≥4)
														
 
															+```
														
 
															+问题: "驿美运营公司档口数量"
														
 
															+匹配:
														
 
															+- 业务实体: 驿美运营公司(+2), 档口(+2) → business_score=4
														
 
															+- 查询意图: 无 → intent_score=0
														
 
															+结果: DATABASE, 置信度=min(0.9, 0.7+4*0.03)=0.82
														
 
															+```
														
 
															+
														
 
															+### 6.2 CHAT分类示例
														
 
															+
														
 
															+#### 非业务实体词
														
 
															+```
														
 
															+问题: "苹果什么时候成熟"
														
 
															+匹配: 苹果(非业务词)
														
 
															+结果: CHAT, 置信度=0.85
														
 
															+```
														
 
															+
														
 
															+#### 聊天特征
														
 
															+```
														
 
															+问题: "怎么使用这个平台"
														
 
															+匹配:
														
 
															+- 聊天关键词: 怎么(+1), 使用方法(+1) → chat_score=2
														
 
															+- 业务实体: 无 → business_score=0
														
 
															+结果: CHAT, 置信度=min(0.9, 0.4+2*0.08)=0.56
														
 
															+```
														
 
															+
														
 
															+### 6.3 UNCERTAIN分类示例
														
 
															+
														
 
															+```
														
 
															+问题: "请问一下"
														
 
															+匹配: 无关键词匹配
														
 
															+结果: UNCERTAIN, 置信度=0.2
														
 
															+```
														
 
															+
														
 
															+## 7. 优化建议
														
 
															+
														
 
															+### 7.1 当前逻辑的优势
														
 
															+1. **完整的关键词体系**: 8种关键词类型覆盖了规则评分、直接分类、上下文判断等不同维度
														
 
															+2. **明确的优先级**: 非业务词 > 强业务 > 中等业务 > 聊天 > 不确定
														
 
															+3. **精细的权重设计**: 业务实体词(+2) > 系统指示词(+1)，体现业务相关性差异
														
 
															+4. **组合效应**: 系统指示词与业务词的协同加分机制
														
 
															+5. **置信度区分**: 不同条件下的差异化置信度计算
														
 
															+6. **上下文感知**: 追问关键词和话题切换关键词支持渐进式分类
														
 
															+7. **可配置性**: 所有阈值和权重都可调整
														
 
															+
														
 
															+### 7.2 潜在优化方向
														
 
															+1. **关键词扩展**: 根据实际业务场景补充关键词库
														
 
															+2. **权重调优**: 基于分类效果数据调整各类词的权重
														
 
															+3. **组合规则**: 增加更多的关键词组合判断逻辑
														
 
															+4. **上下文考虑**: 增强上下文相关性的判断机制
														
 
															+5. **动态阈值**: 根据历史分类准确率动态调整阈值
														
 
															+
														
 
															+### 7.3 监控指标
														
 
															+1. **分类准确率**: 各类别的分类正确率
														
 
															+2. **置信度分布**: 高、中、低置信度的分布情况
														
 
															+3. **关键词命中率**: 各关键词的实际使用频率
														
 
															+4. **边界案例**: 接近阈值的分类案例分析
														
 
															+
														
 
															+## 8. 技术实现细节
														
 
															+
														
 
															+### 8.1 问题预处理
														
 
															+```python
														
 
															+def _extract_current_question_for_rule_classification(self, question: str) -> str:
														
 
															+    """提取当前问题用于规则分类，避免上下文干扰"""
														
 
															+    if "\n[CURRENT]\n" in question:
														
 
															+        current_start = question.find("\n[CURRENT]\n")
														
 
															+        current_question = question[current_start + len("\n[CURRENT]\n"):].strip()
														
 
															+        return current_question
														
 
															+    return question.strip()
														
 
															+```
														
 
															+
														
 
															+### 8.2 大小写处理
														
 
															+所有关键词匹配都转换为小写进行，确保大小写不敏感。
														
 
															+
														
 
															+### 8.3 正则表达式
														
 
															+SQL模式使用正则表达式匹配，支持单词边界检查，避免子字符串误匹配。
														
 
															+
														
 
															+---
														
 
															+
														
 
															+*本文档基于 agent/classifier.py 代码分析生成，版本日期: 2024年* 
														
--- a/test/redis_conversation_demo.py
+++ b/test/redis_conversation_demo.py
@@ -49,7 +49,7 @@ class ConversationDemo:
 
															             print(f"[结果] 对话ID: {self.conversation_id}")
														
 
															             print(f"[结果] 用户ID: {self.user_id}")
														
 
															-            print(f"[结果] 是否为Guest用户: {data['data'].get('is_guest_user')}")
														
 
															+            print(f"[结果] 是否为Guest用户: {data['data']['user_id'] == 'guest'}")
														
 
															             print(f"[结果] 回答: {data['data'].get('response', '')[:100]}...")
														
 
															         else:
														
 
															             print(f"[错误] 响应码: {response.status_code}")
														
@@ -198,7 +198,14 @@ class ConversationDemo:
 
															         if response.status_code == 200:
														
 
															             data = response.json()
														
 
															             print(f"[结果] 对话状态: {data['data'].get('conversation_status')}")
														
 
															-            print(f"[结果] 状态消息: {data['data'].get('conversation_message')}")
														
 
															+            # 根据状态显示对应消息（本地化处理）
														
 
															+            status = data['data'].get('conversation_status')
														
 
															+            status_messages = {
														
 
															+                'new': '创建新对话',
														
 
															+                'continue': '继续已有对话', 
														
 
															+                'invalid_id_new': '您请求的对话不存在或无权访问，已为您创建新对话'
														
 
															+            }
														
 
															+            print(f"[结果] 状态消息: {status_messages.get(status, '未知状态')}")
														
 
															             print(f"[结果] 请求的ID: {data['data'].get('requested_conversation_id')}")
														
 
															             print(f"[结果] 新创建的ID: {data['data'].get('conversation_id')}")
														
--- a/test/test_ask_agent_redis_integration.py
+++ b/test/test_ask_agent_redis_integration.py
@@ -254,7 +254,7 @@ class TestAskAgentRedisIntegration(unittest.TestCase):
 
															             if response.status_code == 200:
														
 
															                 data = response.json()
														
 
															                 user_id = data['data']['user_id']
														
 
															-                is_guest = data['data'].get('is_guest_user', False)
														
 
															+                is_guest = user_id == "guest"  # 直接通过user_id判断
														
 
															                 print(f"[TEST] 生成的用户ID: {user_id}")
														
 
															                 print(f"[TEST] 是否为guest用户: {is_guest}")
														
--- a/unified_api.py
+++ b/unified_api.py
@@ -779,7 +779,7 @@ def ask_agent():
 
															         if context:
														
 
															             try:
														
 
															                 # 获取最后一条助手消息的metadata
														
 
															-                messages = redis_conversation_manager.get_messages(conversation_id, limit=10)
														
 
															+                messages = redis_conversation_manager.get_conversation_messages(conversation_id, limit=10)
														
 
															                 for message in reversed(messages):  # 从最新的开始找
														
 
															                     if message.get("role") == "assistant":
														
 
															                         metadata = message.get("metadata", {})
														
@@ -842,11 +842,9 @@ def ask_agent():
 
															                 execution_path=cached_answer.get("execution_path", []),
														
 
															                 classification_info=cached_answer.get("classification_info", {}),
														
 
															                 user_id=user_id,
														
 
															-                is_guest_user=(user_id == DEFAULT_ANONYMOUS_USER),
														
 
															                 context_used=bool(context),
														
 
															                 from_cache=True,
														
 
															                 conversation_status=conversation_status["status"],
														
 
															-                conversation_message=conversation_status["message"],
														
 
															                 requested_conversation_id=conversation_status.get("requested_id")
														
 
															             ))
														
@@ -944,11 +942,9 @@ def ask_agent():
 
															                 execution_path=execution_path,
														
 
															                 classification_info=classification_info,
														
 
															                 user_id=user_id,
														
 
															-                is_guest_user=(user_id == DEFAULT_ANONYMOUS_USER),
														
 
															                 context_used=bool(context),
														
 
															                 from_cache=False,
														
 
															                 conversation_status=conversation_status["status"],
														
 
															-                conversation_message=conversation_status["message"],
														
 
															                 requested_conversation_id=conversation_status.get("requested_id"),
														
 
															                 routing_mode_used=effective_routing_mode,  # 新增：实际使用的路由模式
														
 
															                 routing_mode_source="api" if api_routing_mode else "config"  # 新增：路由模式来源