classifier_dict.yaml 11 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412413414415416417418419420421422423424425426427428429430431432433434435436437438439440441442443444445446447448449450451452453454455456457458459460461462463464465466467468
  1. # agent/classifier_dict.yaml
  2. # 问题分类器词典配置文件
  3. # 版本: v1.0
  4. # 最后更新: 2024-12-21
  5. # ===========================================
  6. # 配置元信息
  7. # ===========================================
  8. metadata:
  9. version: "1.0"
  10. description: "Citu智能数据问答平台问题分类器关键词配置"
  11. last_updated: "2024-12-21"
  12. author: "系统管理员"
  13. # ===========================================
  14. # 权重配置
  15. # ===========================================
  16. weights:
  17. # ===========================================
  18. # 关键词权重配置
  19. # ===========================================
  20. # 业务实体词权重(强业务关键词中除系统指示词外的部分)
  21. business_entity: 2
  22. # 系统指示词权重(强业务关键词中的系统查询指示词)
  23. system_indicator: 1
  24. # 查询意图词权重
  25. query_intent: 1
  26. # SQL模式权重(最高权重)
  27. sql_pattern: 3
  28. # 聊天关键词权重
  29. chat_keyword: 1
  30. # 组合加分权重(系统指示词+业务实体词)
  31. combination_bonus: 3
  32. # ===========================================
  33. # 置信度计算配置
  34. # ===========================================
  35. # 非业务词固定置信度(匹配非业务关键词时直接返回此置信度)
  36. non_business_confidence: 0.85
  37. # 强业务特征置信度配置(业务实体≥2分 且 查询意图≥1分)
  38. strong_business_base: 0.8 # 强业务特征基础置信度
  39. strong_business_increment: 0.05 # 每增加1分总分的置信度增量
  40. # 中等业务特征置信度配置(业务实体≥4分)
  41. medium_business_base: 0.7 # 中等业务特征基础置信度
  42. medium_business_increment: 0.03 # 每增加1分业务分的置信度增量
  43. # 聊天特征置信度配置(聊天分≥1 且 业务分=0)
  44. chat_base_confidence: 0.4 # 聊天特征基础置信度(对应base_confidence)
  45. chat_confidence_increment: 0.08 # 每增加1分聊天分的置信度增量
  46. # 分类阈值配置
  47. strong_business_min_score: 2 # 强业务特征最低业务分要求
  48. strong_business_min_intent: 1 # 强业务特征最低意图分要求
  49. medium_business_min_score: 4 # 中等业务特征最低业务分要求
  50. chat_min_score: 1 # 聊天特征最低聊天分要求
  51. # ===========================================
  52. # 从config.py迁移的分类器配置
  53. # ===========================================
  54. # 高置信度阈值:当规则分类的置信度 >= 此值时,直接使用规则分类结果,不再调用LLM
  55. # 建议范围:0.7-0.9,过高可能错过需要LLM辅助的边界情况,过低会增加LLM调用成本
  56. high_confidence_threshold: 0.7
  57. # 低置信度阈值:当规则分类的置信度 <= 此值时,启用LLM二次分类进行辅助判断
  58. # 建议范围:0.2-0.5,过高会频繁调用LLM,过低可能错过需要LLM辅助的情况
  59. # low_confidence_threshold: 0.4 # 未使用 - 已注释
  60. # 最大置信度上限:规则分类计算出的置信度不会超过此值,防止过度自信
  61. # 建议范围:0.8-1.0,通常设为0.9以保留不确定性空间
  62. max_confidence: 0.9
  63. # 基础置信度:规则分类的起始置信度,会根据匹配的关键词数量递增
  64. # 建议范围:0.3-0.6,这是匹配到1个关键词时的基础置信度
  65. # base_confidence: 0.4 # 未使用,实际使用chat_base_confidence - 已注释
  66. # 置信度增量步长:每匹配一个额外关键词,置信度增加的数值
  67. # 建议范围:0.05-0.2,过大会导致置信度增长过快,过小则区分度不够
  68. # confidence_increment: 0.08 # 未使用,实际使用chat_confidence_increment - 已注释
  69. # LLM分类失败时的默认置信度:当LLM调用异常或解析失败时使用
  70. # 建议范围:0.3-0.6,通常设为中等水平,避免过高或过低的错误影响
  71. llm_fallback_confidence: 0.5
  72. # 不确定分类的默认置信度:当规则分类无法明确判断时使用
  73. # 建议范围:0.1-0.3,应设为较低值,表示确实不确定
  74. uncertain_confidence: 0.2
  75. # LLM业务上下文加载失败时的置信度:用于混合分类模式的置信度比较
  76. # 建议范围:0.05-0.2,设为极低值表示上下文加载失败的严重性
  77. llm_error_confidence: 0.1
  78. # 中等置信度阈值:用于三级置信度判断的中间阈值
  79. # 建议范围:0.5-0.7,位于low_confidence_threshold和high_confidence_threshold之间
  80. # medium_confidence_threshold: 0.6 # 未使用 - 已注释
  81. # ===========================================
  82. # 强业务关键词(字典结构,保持原有层次)
  83. # ===========================================
  84. strong_business_keywords:
  85. 核心业务实体:
  86. description: "高速公路服务区基础设施和业务系统"
  87. keywords:
  88. - 服务区
  89. - 档口
  90. - 商铺
  91. - 收费站
  92. - 高速公路
  93. - 驿美
  94. - 驿购
  95. - 北区 # 物理分区
  96. - 南区
  97. - 西区
  98. - 东区
  99. - 两区
  100. - 停车区
  101. - 公司
  102. - 管理公司
  103. - 运营公司
  104. 支付业务:
  105. description: "支付方式、金额、订单等支付相关业务"
  106. keywords:
  107. # 支付方式全称
  108. - 微信支付
  109. - 支付宝支付
  110. - 现金支付
  111. - 行吧支付
  112. - 金豆支付
  113. # 业务指标
  114. - 支付金额
  115. - 订单数量
  116. - 营业额
  117. - 收入
  118. - 营业收入
  119. # 简化形式
  120. - 微信
  121. - 支付宝
  122. - 现金
  123. - 行吧
  124. - 金豆
  125. # 系统字段名
  126. - wx
  127. - zfb
  128. - rmb
  129. - xs
  130. - jd
  131. 经营品类:
  132. description: "经营类型、品牌、商业品类"
  133. keywords:
  134. - 餐饮
  135. - 小吃
  136. - 便利店
  137. - 整体租赁
  138. - 驿美餐饮
  139. - 品牌
  140. - 经营品类
  141. - 商业品类
  142. 车流业务:
  143. description: "车辆流量、车型统计等车流相关业务"
  144. keywords:
  145. # 流量概念
  146. - 车流量
  147. - 车辆数量
  148. - 客车
  149. - 货车
  150. - 过境
  151. - 危化品
  152. - 城际
  153. - 车辆统计
  154. - 流量统计
  155. - 车型分布
  156. 地理路线:
  157. description: "高速线路、路段等地理位置信息"
  158. keywords:
  159. # 具体线路
  160. - 大广
  161. - 昌金
  162. - 昌栗
  163. # 概念词
  164. - 线路
  165. - 路段
  166. - 路线
  167. - 高速线路
  168. - 公路线路
  169. 系统查询指示词:
  170. description: "系统、数据库等查询指示词(特殊权重处理)"
  171. weight: 1 # 特殊标记:权重低于其他业务实体词
  172. keywords:
  173. # 系统指示
  174. - 当前系统
  175. - 当前数据库
  176. - 当前数据
  177. - 数据库
  178. - 本系统
  179. - 系统
  180. # 数据指示
  181. - 数据库中
  182. - 数据中
  183. - 现有数据
  184. - 已有数据
  185. - 存储的数据
  186. # 平台指示
  187. - 平台数据
  188. - 我们的数据库
  189. - 这个系统
  190. # ===========================================
  191. # 查询意图关键词
  192. # ===========================================
  193. query_intent_keywords:
  194. description: "用于识别数据查询意图的关键词"
  195. keywords:
  196. # 统计分析
  197. - 统计
  198. - 查询
  199. - 分析
  200. - 排行
  201. - 排名
  202. - 报表
  203. - 报告
  204. - 汇总
  205. - 计算
  206. - 对比
  207. - 趋势
  208. - 占比
  209. - 百分比
  210. - 比例
  211. # 聚合函数
  212. - 最大
  213. - 最小
  214. - 最多
  215. - 最高
  216. - 最低
  217. - 平均
  218. - 总计
  219. - 合计
  220. - 累计
  221. - 求和
  222. - 求平均
  223. - 数量
  224. # 输出动作
  225. - 生成
  226. - 导出
  227. - 显示
  228. - 列出
  229. - 共有
  230. # ===========================================
  231. # 非业务实体词(一旦匹配立即分类为CHAT)
  232. # ===========================================
  233. non_business_keywords:
  234. description: "明确的非业务领域问题,最高优先级直接分类"
  235. 农产品食物:
  236. - 荔枝
  237. - 苹果
  238. - 西瓜
  239. - 水果
  240. - 蔬菜
  241. - 大米
  242. - 小麦
  243. - 橙子
  244. - 香蕉
  245. - 葡萄
  246. - 草莓
  247. - 樱桃
  248. - 桃子
  249. - 梨
  250. 技术概念:
  251. - 人工智能
  252. - 机器学习
  253. - 编程
  254. - 算法
  255. - 深度学习
  256. - AI
  257. - 神经网络
  258. - 模型训练
  259. - 数据挖掘
  260. 身份询问:
  261. - 你是谁
  262. - 你是什么
  263. - 你叫什么
  264. - 你的名字
  265. - 你是什么AI
  266. - 什么模型
  267. - 大模型
  268. - AI助手
  269. - 助手
  270. - 机器人
  271. 天气相关:
  272. - 天气
  273. - 气温
  274. - 下雨
  275. - 晴天
  276. - 阴天
  277. - 温度
  278. - 天气预报
  279. - 气候
  280. - 降雨
  281. - 雪天
  282. 生活常识:
  283. - 怎么做饭
  284. - 如何减肥
  285. - 健康
  286. - 医疗
  287. - 病症
  288. - 历史
  289. - 地理
  290. - 文学
  291. - 电影
  292. - 音乐
  293. - 体育
  294. - 娱乐
  295. - 游戏
  296. - 小说
  297. - 新闻
  298. - 政治
  299. - 战争
  300. - 足球
  301. - NBA
  302. - 篮球
  303. - 乒乓球
  304. - 冠军
  305. - 夺冠
  306. - 高考
  307. - 菜谱
  308. - 食谱
  309. - 烹饪
  310. - 联赛
  311. 旅游出行:
  312. - 旅游
  313. - 景点
  314. - 门票
  315. - 酒店
  316. - 机票
  317. - 航班
  318. - 高铁
  319. - 的士
  320. 情绪表达:
  321. - 伤心
  322. - 开心
  323. - 无聊
  324. - 生气
  325. - 孤独
  326. - 累了
  327. - 烦恼
  328. - 心情
  329. - 难过
  330. - 抑郁
  331. 商业金融:
  332. - 股票
  333. - 基金
  334. - 理财
  335. - 投资
  336. - 经济
  337. - 通货膨胀
  338. - 上市
  339. 哲学思考:
  340. - 人生意义
  341. - 价值观
  342. - 道德
  343. - 信仰
  344. - 宗教
  345. - 爱情
  346. 地理范围:
  347. - 全球
  348. - 全国
  349. - 亚洲
  350. - 发展中
  351. - 欧洲
  352. - 美洲
  353. - 东亚
  354. - 东南亚
  355. - 南美
  356. - 非洲
  357. - 大洋
  358. # ===========================================
  359. # SQL模式(正则表达式)
  360. # ===========================================
  361. sql_patterns:
  362. description: "用于识别SQL语句特征的正则表达式"
  363. patterns:
  364. - pattern: "\\b(select|from|where|group by|order by|having|join|update)\\b"
  365. description: "SQL关键字匹配"
  366. case_sensitive: false
  367. - pattern: "\\b(数据库|表名|表|字段名|SQL|sql|database|table)\\b"
  368. description: "数据库概念词匹配"
  369. case_sensitive: false
  370. # ===========================================
  371. # 聊天关键词
  372. # ===========================================
  373. chat_keywords:
  374. description: "倾向于聊天分类的关键词"
  375. keywords:
  376. # 问候语
  377. - 你好啊
  378. - 谢谢
  379. - 再见
  380. # 疑问词
  381. - 怎么样
  382. - 如何
  383. - 为什么
  384. - 什么是
  385. # 帮助请求
  386. - 介绍
  387. - 解释
  388. - 说明
  389. - 帮助
  390. - 操作
  391. - 使用方法
  392. - 功能
  393. - 教程
  394. - 指南
  395. - 手册
  396. - 讲解
  397. # ===========================================
  398. # 配置验证规则
  399. # ===========================================
  400. validation:
  401. required_sections:
  402. - strong_business_keywords
  403. - query_intent_keywords
  404. - non_business_keywords
  405. - sql_patterns
  406. - chat_keywords
  407. min_keywords_count:
  408. strong_business_keywords: 50
  409. query_intent_keywords: 20
  410. non_business_keywords: 70
  411. chat_keywords: 15