|
@@ -66,8 +66,8 @@ class QuestionClassifier:
|
|
"高速线路", "公路线路"
|
|
"高速线路", "公路线路"
|
|
],
|
|
],
|
|
"系统查询指示词": [
|
|
"系统查询指示词": [
|
|
- "当前系统", "当前数据库", "当前数据",
|
|
|
|
- "本系统", "系统中", "数据库中", "数据中",
|
|
|
|
|
|
+ "当前系统", "当前数据库", "当前数据", "数据库"
|
|
|
|
+ "本系统", "系统", "数据库中", "数据中",
|
|
"现有数据", "已有数据", "存储的数据",
|
|
"现有数据", "已有数据", "存储的数据",
|
|
"平台数据", "我们的数据库", "这个系统"
|
|
"平台数据", "我们的数据库", "这个系统"
|
|
]
|
|
]
|
|
@@ -80,7 +80,7 @@ class QuestionClassifier:
|
|
"趋势", "占比", "百分比", "比例",
|
|
"趋势", "占比", "百分比", "比例",
|
|
"最大", "最小", "最高", "最低", "平均",
|
|
"最大", "最小", "最高", "最低", "平均",
|
|
"总计", "合计", "累计", "求和", "求平均",
|
|
"总计", "合计", "累计", "求和", "求平均",
|
|
- "生成", "导出", "显示", "列出"
|
|
|
|
|
|
+ "生成", "导出", "显示", "列出", "共有"
|
|
]
|
|
]
|
|
|
|
|
|
# 非业务实体词(包含则倾向CHAT)
|
|
# 非业务实体词(包含则倾向CHAT)
|
|
@@ -94,7 +94,7 @@ class QuestionClassifier:
|
|
"AI", "神经网络", "模型训练", "数据挖掘",
|
|
"AI", "神经网络", "模型训练", "数据挖掘",
|
|
|
|
|
|
# 身份询问
|
|
# 身份询问
|
|
- "你是谁", "你是什么", "你叫什么", "你的名字",
|
|
|
|
|
|
+ "你是谁", "你是什么", "你叫什么", "你的名字", "你是什么AI",
|
|
"什么模型", "大模型", "AI助手", "助手", "机器人",
|
|
"什么模型", "大模型", "AI助手", "助手", "机器人",
|
|
|
|
|
|
# 天气相关
|
|
# 天气相关
|
|
@@ -104,20 +104,34 @@ class QuestionClassifier:
|
|
# 其他生活常识
|
|
# 其他生活常识
|
|
"怎么做饭", "如何减肥", "健康", "医疗", "病症",
|
|
"怎么做饭", "如何减肥", "健康", "医疗", "病症",
|
|
"历史", "地理", "文学", "电影", "音乐", "体育",
|
|
"历史", "地理", "文学", "电影", "音乐", "体育",
|
|
- "娱乐", "游戏", "小说", "新闻", "政治"
|
|
|
|
|
|
+ "娱乐", "游戏", "小说", "新闻", "政治", "战争",
|
|
|
|
+ "足球", "NBA", "篮球", "乒乓球", "冠军", "夺冠",
|
|
|
|
+ "高考",
|
|
|
|
+
|
|
|
|
+ # 旅游出行
|
|
|
|
+ "旅游","景点","门票","酒店","机票","航班","高铁","的士",
|
|
|
|
+ #情绪
|
|
|
|
+ "伤心","开心","无聊","生气","孤独","累了","烦恼","心情","难过","抑郁",
|
|
|
|
+ #商业
|
|
|
|
+ "股票","基金","理财","投资","经济","通货膨胀","上市",
|
|
|
|
+ #哲学
|
|
|
|
+ "人生意义","价值观","道德","信仰","宗教","爱情",
|
|
|
|
+ #地理
|
|
|
|
+ "全球","全国","亚洲","发展中","欧洲","美洲","东亚","东南亚","南美","非洲","大洋"
|
|
]
|
|
]
|
|
|
|
|
|
# SQL关键词(技术层面的数据库操作)
|
|
# SQL关键词(技术层面的数据库操作)
|
|
|
|
+ # business_score +3
|
|
self.sql_patterns = [
|
|
self.sql_patterns = [
|
|
- r"\b(select|from|where|group by|order by|having|join)\b",
|
|
|
|
- r"\b(数据库|表名|字段名|SQL|sql)\b"
|
|
|
|
|
|
+ r"\b(select|from|where|group by|order by|having|join|update)\b",
|
|
|
|
+ r"\b(数据库|表名|表|字段名|SQL|sql|database|table)\b"
|
|
]
|
|
]
|
|
|
|
|
|
# 聊天关键词(平台功能和帮助)
|
|
# 聊天关键词(平台功能和帮助)
|
|
self.chat_keywords = [
|
|
self.chat_keywords = [
|
|
- "你好", "谢谢", "再见", "怎么样", "如何", "为什么", "什么是",
|
|
|
|
|
|
+ "你好啊", "谢谢", "再见", "怎么样", "如何", "为什么", "什么是",
|
|
"介绍", "解释", "说明", "帮助", "操作", "使用方法", "功能",
|
|
"介绍", "解释", "说明", "帮助", "操作", "使用方法", "功能",
|
|
- "教程", "指南", "手册"
|
|
|
|
|
|
+ "教程", "指南", "手册","讲解"
|
|
]
|
|
]
|
|
|
|
|
|
# 追问关键词(用于检测追问型问题)
|
|
# 追问关键词(用于检测追问型问题)
|
|
@@ -439,12 +453,23 @@ class QuestionClassifier:
|
|
- 身份询问:你是谁、什么模型、AI助手等
|
|
- 身份询问:你是谁、什么模型、AI助手等
|
|
- 技术概念:人工智能、编程、算法等
|
|
- 技术概念:人工智能、编程、算法等
|
|
- 平台使用:功能介绍、操作帮助、使用教程等
|
|
- 平台使用:功能介绍、操作帮助、使用教程等
|
|
|
|
+ - 旅游出行:旅游景点、酒店、机票、高铁、的士等
|
|
|
|
+ - 情绪:开心、伤心、无聊、生气、孤独、累了、烦恼、心情、难过、抑郁
|
|
|
|
+ - 商业:股票、基金、理财、投资、经济、通货膨胀、上市
|
|
|
|
+ - 哲学:人生意义、价值观、道德、信仰、宗教、爱情
|
|
|
|
+ - 政策:政策、法规、法律、条例、指南、手册、规章制度、实施细则
|
|
|
|
+ - 地理:全球、全国、亚洲、发展中、欧洲、美洲、东亚、东南亚、南美、非洲、大洋
|
|
|
|
+ - 体育:足球、NBA、篮球、乒乓球、冠军、夺冠
|
|
|
|
+ - 文学:小说、新闻、政治、战争、足球、NBA、篮球、乒乓球、冠军、夺冠
|
|
|
|
+ - 娱乐:游戏、小说、新闻、政治、战争、足球、NBA、篮球、乒乓球、冠军、夺冠、电影、电视剧、音乐、舞蹈、绘画、书法、摄影、雕塑、建筑、设计、
|
|
|
|
+ - 健康:健康、医疗、病症、健康、饮食、睡眠、心理、养生、减肥、美容、护肤
|
|
|
|
+ - 其他:高考、人生意义、价值观、道德、信仰、宗教、爱情、全球、全国、亚洲、发展中、欧洲、美洲、东亚、东南亚、南美、非洲、大洋
|
|
- 例如:"荔枝几月份上市"、"今天天气如何"、"你是什么AI"、"怎么使用平台"
|
|
- 例如:"荔枝几月份上市"、"今天天气如何"、"你是什么AI"、"怎么使用平台"
|
|
|
|
|
|
|
|
+
|
|
**重要提示:**
|
|
**重要提示:**
|
|
- 只有涉及高速公路服务区业务数据的问题才分类为DATABASE
|
|
- 只有涉及高速公路服务区业务数据的问题才分类为DATABASE
|
|
-- 即使包含时间词汇(如"月份"、"时间"),也要看是否与我们的业务数据相关
|
|
|
|
-- 农产品上市时间、生活常识等都应分类为CHAT
|
|
|
|
|
|
+- 只要不是涉及高速公路服务区业务数据的问题都应分类为CHAT
|
|
|
|
|
|
请基于问题与我们高速公路服务区业务数据的相关性来分类。
|
|
请基于问题与我们高速公路服务区业务数据的相关性来分类。
|
|
|
|
|