classifier_dict.yaml 8.8 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412413414415416417418419420421422
  1. # agent/classifier_dict.yaml
  2. # 问题分类器词典配置文件
  3. # 版本: v1.0
  4. # 最后更新: 2024-12-21
  5. # ===========================================
  6. # 配置元信息
  7. # ===========================================
  8. metadata:
  9. version: "1.0"
  10. description: "Citu智能数据问答平台问题分类器关键词配置"
  11. last_updated: "2024-12-21"
  12. author: "系统管理员"
  13. # ===========================================
  14. # 权重配置
  15. # ===========================================
  16. weights:
  17. # ===========================================
  18. # 关键词权重配置
  19. # ===========================================
  20. # 业务实体词权重(强业务关键词中除系统指示词外的部分)
  21. business_entity: 2
  22. # 系统指示词权重(强业务关键词中的系统查询指示词)
  23. system_indicator: 1
  24. # 查询意图词权重
  25. query_intent: 1
  26. # SQL模式权重(最高权重)
  27. sql_pattern: 3
  28. # 聊天关键词权重
  29. chat_keyword: 1
  30. # 组合加分权重(系统指示词+业务实体词)
  31. combination_bonus: 3
  32. # ===========================================
  33. # 置信度计算配置
  34. # ===========================================
  35. # 非业务词固定置信度(匹配非业务关键词时直接返回此置信度)
  36. non_business_confidence: 0.85
  37. # 强业务特征置信度配置(业务实体≥2分 且 查询意图≥1分)
  38. strong_business_base: 0.8 # 强业务特征基础置信度
  39. strong_business_increment: 0.05 # 每增加1分总分的置信度增量
  40. # 中等业务特征置信度配置(业务实体≥4分)
  41. medium_business_base: 0.7 # 中等业务特征基础置信度
  42. medium_business_increment: 0.03 # 每增加1分业务分的置信度增量
  43. # 聊天特征置信度配置(聊天分≥1 且 业务分=0)
  44. chat_base_confidence: 0.4 # 聊天特征基础置信度(对应base_confidence)
  45. chat_confidence_increment: 0.08 # 每增加1分聊天分的置信度增量
  46. # 分类阈值配置
  47. strong_business_min_score: 2 # 强业务特征最低业务分要求
  48. strong_business_min_intent: 1 # 强业务特征最低意图分要求
  49. medium_business_min_score: 4 # 中等业务特征最低业务分要求
  50. chat_min_score: 1 # 聊天特征最低聊天分要求
  51. # ===========================================
  52. # 强业务关键词(字典结构,保持原有层次)
  53. # ===========================================
  54. strong_business_keywords:
  55. 核心业务实体:
  56. description: "高速公路服务区基础设施和业务系统"
  57. keywords:
  58. - 服务区
  59. - 档口
  60. - 商铺
  61. - 收费站
  62. - 高速公路
  63. - 驿美 # 业务系统名称
  64. - 驿购 # 业务系统名称
  65. - 北区 # 物理分区
  66. - 南区
  67. - 西区
  68. - 东区
  69. - 两区
  70. - 停车区
  71. - 公司
  72. - 管理公司
  73. - 运营公司
  74. 支付业务:
  75. description: "支付方式、金额、订单等支付相关业务"
  76. keywords:
  77. # 支付方式全称
  78. - 微信支付
  79. - 支付宝支付
  80. - 现金支付
  81. - 行吧支付
  82. - 金豆支付
  83. # 业务指标
  84. - 支付金额
  85. - 订单数量
  86. - 营业额
  87. - 收入
  88. - 营业收入
  89. # 简化形式
  90. - 微信
  91. - 支付宝
  92. - 现金
  93. - 行吧
  94. - 金豆
  95. # 系统字段名
  96. - wx
  97. - zfb
  98. - rmb
  99. - xs
  100. - jd
  101. 经营品类:
  102. description: "经营类型、品牌、商业品类"
  103. keywords:
  104. - 餐饮
  105. - 小吃
  106. - 便利店
  107. - 整体租赁
  108. - 驿美餐饮
  109. - 品牌
  110. - 经营品类
  111. - 商业品类
  112. 车流业务:
  113. description: "车辆流量、车型统计等车流相关业务"
  114. keywords:
  115. # 流量概念
  116. - 车流量
  117. - 车辆数量
  118. - 客车
  119. - 货车
  120. - 过境
  121. - 危化品
  122. - 城际
  123. - 车辆统计
  124. - 流量统计
  125. - 车型分布
  126. 地理路线:
  127. description: "高速线路、路段等地理位置信息"
  128. keywords:
  129. # 具体线路
  130. - 大广
  131. - 昌金
  132. - 昌栗
  133. # 概念词
  134. - 线路
  135. - 路段
  136. - 路线
  137. - 高速线路
  138. - 公路线路
  139. 系统查询指示词:
  140. description: "系统、数据库等查询指示词(特殊权重处理)"
  141. weight: 1 # 特殊标记:权重低于其他业务实体词
  142. keywords:
  143. # 系统指示
  144. - 当前系统
  145. - 当前数据库
  146. - 当前数据
  147. - 数据库
  148. - 本系统
  149. - 系统
  150. # 数据指示
  151. - 数据库中
  152. - 数据中
  153. - 现有数据
  154. - 已有数据
  155. - 存储的数据
  156. # 平台指示
  157. - 平台数据
  158. - 我们的数据库
  159. - 这个系统
  160. # ===========================================
  161. # 查询意图关键词
  162. # ===========================================
  163. query_intent_keywords:
  164. description: "用于识别数据查询意图的关键词"
  165. keywords:
  166. # 统计分析
  167. - 统计
  168. - 查询
  169. - 分析
  170. - 排行
  171. - 排名
  172. - 报表
  173. - 报告
  174. - 汇总
  175. - 计算
  176. - 对比
  177. - 趋势
  178. - 占比
  179. - 百分比
  180. - 比例
  181. # 聚合函数
  182. - 最大
  183. - 最小
  184. - 最高
  185. - 最低
  186. - 平均
  187. - 总计
  188. - 合计
  189. - 累计
  190. - 求和
  191. - 求平均
  192. # 输出动作
  193. - 生成
  194. - 导出
  195. - 显示
  196. - 列出
  197. - 共有
  198. # ===========================================
  199. # 非业务实体词(一旦匹配立即分类为CHAT)
  200. # ===========================================
  201. non_business_keywords:
  202. description: "明确的非业务领域问题,最高优先级直接分类"
  203. 农产品食物:
  204. - 荔枝
  205. - 苹果
  206. - 西瓜
  207. - 水果
  208. - 蔬菜
  209. - 大米
  210. - 小麦
  211. - 橙子
  212. - 香蕉
  213. - 葡萄
  214. - 草莓
  215. - 樱桃
  216. - 桃子
  217. - 梨
  218. 技术概念:
  219. - 人工智能
  220. - 机器学习
  221. - 编程
  222. - 算法
  223. - 深度学习
  224. - AI
  225. - 神经网络
  226. - 模型训练
  227. - 数据挖掘
  228. 身份询问:
  229. - 你是谁
  230. - 你是什么
  231. - 你叫什么
  232. - 你的名字
  233. - 你是什么AI
  234. - 什么模型
  235. - 大模型
  236. - AI助手
  237. - 助手
  238. - 机器人
  239. 天气相关:
  240. - 天气
  241. - 气温
  242. - 下雨
  243. - 晴天
  244. - 阴天
  245. - 温度
  246. - 天气预报
  247. - 气候
  248. - 降雨
  249. - 雪天
  250. 生活常识:
  251. - 怎么做饭
  252. - 如何减肥
  253. - 健康
  254. - 医疗
  255. - 病症
  256. - 历史
  257. - 地理
  258. - 文学
  259. - 电影
  260. - 音乐
  261. - 体育
  262. - 娱乐
  263. - 游戏
  264. - 小说
  265. - 新闻
  266. - 政治
  267. - 战争
  268. - 足球
  269. - NBA
  270. - 篮球
  271. - 乒乓球
  272. - 冠军
  273. - 夺冠
  274. - 高考
  275. 旅游出行:
  276. - 旅游
  277. - 景点
  278. - 门票
  279. - 酒店
  280. - 机票
  281. - 航班
  282. - 高铁
  283. - 的士
  284. 情绪表达:
  285. - 伤心
  286. - 开心
  287. - 无聊
  288. - 生气
  289. - 孤独
  290. - 累了
  291. - 烦恼
  292. - 心情
  293. - 难过
  294. - 抑郁
  295. 商业金融:
  296. - 股票
  297. - 基金
  298. - 理财
  299. - 投资
  300. - 经济
  301. - 通货膨胀
  302. - 上市
  303. 哲学思考:
  304. - 人生意义
  305. - 价值观
  306. - 道德
  307. - 信仰
  308. - 宗教
  309. - 爱情
  310. 地理范围:
  311. - 全球
  312. - 全国
  313. - 亚洲
  314. - 发展中
  315. - 欧洲
  316. - 美洲
  317. - 东亚
  318. - 东南亚
  319. - 南美
  320. - 非洲
  321. - 大洋
  322. # ===========================================
  323. # SQL模式(正则表达式)
  324. # ===========================================
  325. sql_patterns:
  326. description: "用于识别SQL语句特征的正则表达式"
  327. patterns:
  328. - pattern: "\\b(select|from|where|group by|order by|having|join|update)\\b"
  329. description: "SQL关键字匹配"
  330. case_sensitive: false
  331. - pattern: "\\b(数据库|表名|表|字段名|SQL|sql|database|table)\\b"
  332. description: "数据库概念词匹配"
  333. case_sensitive: false
  334. # ===========================================
  335. # 聊天关键词
  336. # ===========================================
  337. chat_keywords:
  338. description: "倾向于聊天分类的关键词"
  339. keywords:
  340. # 问候语
  341. - 你好啊
  342. - 谢谢
  343. - 再见
  344. # 疑问词
  345. - 怎么样
  346. - 如何
  347. - 为什么
  348. - 什么是
  349. # 帮助请求
  350. - 介绍
  351. - 解释
  352. - 说明
  353. - 帮助
  354. - 操作
  355. - 使用方法
  356. - 功能
  357. - 教程
  358. - 指南
  359. - 手册
  360. - 讲解
  361. # ===========================================
  362. # 配置验证规则
  363. # ===========================================
  364. validation:
  365. required_sections:
  366. - strong_business_keywords
  367. - query_intent_keywords
  368. - non_business_keywords
  369. - sql_patterns
  370. - chat_keywords
  371. min_keywords_count:
  372. strong_business_keywords: 50
  373. query_intent_keywords: 20
  374. non_business_keywords: 70
  375. chat_keywords: 15