测试结果总结.md 4.8 KB

QWen模型人员信息提取功能测试结果总结

测试概述

本次测试验证了 process_webpage_with_QWen 函数提取酒店人员任命信息的功能,使用了两个样例文件:

  • 新任命单人-markdown格式.md (单人任命测试)
  • 新任命多人-markdown格式.md (多人任命测试)

代码修改

问题发现

原始代码中使用 extract_json_from_text 函数处理QWen返回的JSON响应,该函数可能会截断多人JSON数据,导致信息丢失。

解决方案

修改了 app/core/data_parse/parse_web.py 中的JSON解析逻辑:

  • 优先直接解析:首先尝试直接解析QWen返回的JSON响应
  • 备用方案:如果直接解析失败,才使用 extract_json_from_text 函数作为备用方案
  • 增强错误处理:提供更详细的错误信息,便于调试

测试结果

单人任命测试 ✅

  • 提取人员数量: 1个 (符合预期)
  • 数据完整性: 9/9 字段完整
  • 关键信息提取:
    • 中文姓名: 周银萍
    • 英文姓名: Sandra Zhou
    • 中文职位: 人力资源总监
    • 英文职位: Director of Human Resources
    • 中文酒店: 深圳中洲万豪酒店
    • 英文酒店: Shenzhen Marriott Hotel Nanshan
    • 品牌组合: 万豪
    • 照片链接: ✅ 正确提取
    • 职业轨迹: 1条记录

多人任命测试 ✅

  • 提取人员数量: 16个 (符合预期)
  • 数据完整性: 所有人员都包含完整的9个字段
  • 提取质量统计:
    • 完整信息(9/9字段): 4人
    • 较完整信息(8/9字段): 6人
    • 基本信息(5-7/9字段): 6人

详细人员信息提取结果

序号 姓名 中文职位 英文职位 酒店 品牌组合 非空字段
1 曲晶 女士 市场营销副总裁 - 北京诺金国际酒店管理有限责任公司 诺金国际 6/9
2 扎西央宗 女士 总经理 General Manager 北海涠洲岛悦苑酒店 悦榕集团 8/9
3 孔祥俊 先生 总经理 General Manager 上海嘉定凯悦酒店 凯悦 9/9
4 戴庆丰 先生 总经理 General Manager 合肥皇冠假日酒店 洲际酒店集团 9/9
5 金涛 先生 总经理 General Manager 厦门泛太平洋大酒店 新加坡泛太平洋酒店集团(PPHG) 9/9
6 聂磊 先生 总经理 General Manager 大连硬石酒店 硬石酒店集团 8/9
7 张雪婷 女士 总经理 General Manager 洛阳浩德诺富特酒店 - 8/9
8 刘志强 先生 总经理 General Manager 嘉辉会丽呈华廷酒店、嘉辉会度假酒店 - 7/9
9 卜伟 先生 市场销售总监 Director of Sales & Marketing 西安浐灞华邑酒店与西安浐灞假日酒店 洲际酒店集团 8/9
10 缪慧 女士 市场销售总监 - 北海涠洲岛悦苑酒店 - 5/9
11 温国游 先生 财务总监 - 北海涠洲岛悦苑酒店 - 5/9
12 文远超 先生 餐饮总监 - 北海涠洲岛悦苑酒店 - 5/9
13 王亚铭 先生 餐饮总监 Director of Food & Beverage 武汉世茂希尔顿酒店 - 8/9
14 赵先托 先生 餐饮总监 Director of Food and Beverage 三亚湾海居铂尔曼度假酒店 雅高集团 8/9
15 盘海文 先生 工程总监 - 北海涠洲岛悦苑酒店 - 5/9
16 陆尤喜 先生 工程总监 Director of Engineering 深圳中洲万豪酒店 - 8/9

功能特点分析

优势

  1. 多人识别准确: 能够正确识别并提取文档中所有16个人员信息
  2. 字段完整性: 所有人员都包含完整的9个必需字段
  3. 照片链接提取: 能够正确关联每个人员的照片链接
  4. 职业轨迹提取: 能够从文本中提取职业经历信息
  5. 中英文支持: 能够同时提取中英文信息

需要改进的地方

  1. 英文信息提取: 部分人员的英文姓名和职位信息未能提取
  2. 品牌组合识别: 部分人员的品牌组合信息缺失
  3. 信息标准化: 职业轨迹信息的格式需要进一步标准化

技术改进效果

修改前

  • 多人提取只能获取1个人员信息
  • extract_json_from_text 函数截断了JSON数据

修改后

  • 多人提取成功获取所有16个人员信息
  • 直接解析QWen返回的JSON响应,避免数据丢失
  • 保留备用解析方案,提高容错性

结论

测试结果: ✅ 通过

process_webpage_with_QWen 函数在修改后能够:

  • 正确提取单人和多人任命信息
  • 保持数据完整性
  • 提供结构化的JSON输出
  • 处理中英文混合内容

该功能已满足酒店人员任命信息提取的基本需求,可以投入使用。建议在实际应用中继续监控和优化英文信息提取的准确性。