保存数据运营平台后端API相关的Python代码。

maxiaolong 470ed279a7 拆分名片解析功能,添加重复记录处理功能,添加重复记录处理表 3 weeks ago
app 470ed279a7 拆分名片解析功能,添加重复记录处理功能,添加重复记录处理表 3 weeks ago
database 470ed279a7 拆分名片解析功能,添加重复记录处理功能,添加重复记录处理表 3 weeks ago
.gitignore 85034e23ba Prepare to modify the translate module. 3 months ago
API_DOCUMENTATION_DUPLICATE_RECORDS.md 4e4ad42495 新增data_parse里处理重复记录的接口。新增职业轨迹时,使用主记录的图片路径。 3 weeks ago
CHANGELOG.md 85034e23ba Prepare to modify the translate module. 3 months ago
README_hotel_positions.md ef0514a199 创建酒店职位数据表增删改查API 4 weeks ago
analyze_more.py ef0514a199 创建酒店职位数据表增删改查API 4 weeks ago
api-query-kg.md f3e07e4aad 新增名片信息提取后,更新知识图谱的操作。 1 month ago
api-talent-tags.md 8c419c08d4 修改MinIO配置,使用代码定义的MinIO访问参数。 1 month ago
application.py b277bbc931 已经修改config,自适应生成和开发环境,获取相应的配置参数 3 months ago
data_parse_api_docs.md 37ba05c665 人才标签优化。 人才标注优化。人才检索优化。 1 month ago
hotel_group_brands_ddl.sql ef0514a199 创建酒店职位数据表增删改查API 4 weeks ago
hotel_positions_ddl.sql ef0514a199 创建酒店职位数据表增删改查API 4 weeks ago
migrate_meta_data_type.py 1e5d1a886c 已经完成了data source api的开发,准备修改ddl导入 3 months ago
pythonweb开发说明.doc ff40167dac The first initialization of the project 3 months ago
requirements.txt 6baeeb738c 正在开发从mysql->pg的数据抽取,已经完成前两步的测试 3 months ago
sample_handle_id_model.txt 92e675f94c 修改数据解析模块里解析提示词问题。 2 months ago
talent_tag_api_documentation.md 45e9e5c355 新增人才标签增删改查接口。制作人才标签API文档。 1 month ago
test_minio.py 92e675f94c 修改数据解析模块里解析提示词问题。 2 months ago
人才地图-字典20250519.xlsx ef0514a199 创建酒店职位数据表增删改查API 4 weeks ago
酒店职位名称20250519.xlsx ef0514a199 创建酒店职位数据表增删改查API 4 weeks ago
酒店职位和品牌_API使用手册.md ef0514a199 创建酒店职位数据表增删改查API 4 weeks ago

README_hotel_positions.md

酒店职位名称数据表

概述

本项目基于 酒店职位名称20250519.xlsx 文件中的"汇总版"sheet,创建了标准化的酒店职位数据表。该表包含了酒店行业的标准部门和职位信息,可用于人力资源管理、组织架构设计等用途。

数据统计

  • 总记录数: 150条
  • 部门数量: 9个
  • 职位数量: 144个不同职位
  • 职级分类: 3个级别

部门分布

部门 职位数量
餐饮部 61
房务部 23
市场销售部 17
人力资源部 13
财务部 13
行政办公室 8
工程部 8
水疗部 4
保安部 3

职级分布

职级 职位数量 占比
经理级 120 80%
总监级 23 15.3%
总经理级 7 4.7%

文件说明

1. hotel_positions_ddl.sql

PostgreSQL数据库表创建脚本,包含:

  • 表结构定义: 包含所有必要字段和约束
  • 索引创建: 优化查询性能的索引
  • 中文注释: 详细的字段和表注释
  • 触发器: 自动更新updated_at字段
  • 统计视图: 部门和职级统计视图
  • 示例查询: 常用查询语句示例

2. import_hotel_positions.py

数据导入脚本,功能包括:

  • 从Excel文件读取数据
  • 数据清理和格式化
  • 批量导入PostgreSQL数据库
  • 导入结果验证和统计

3. read_excel.pyanalyze_more.py

数据分析脚本,用于:

  • 分析Excel文件结构
  • 统计数据分布
  • 验证数据质量

使用方法

第一步:创建数据库表

# 连接到PostgreSQL数据库
psql -h localhost -U your_username -d your_database

# 执行DDL脚本
\i hotel_positions_ddl.sql

第二步:导入数据

  1. 修改 import_hotel_positions.py 中的数据库连接参数:
connection_params = {
    'host': 'your_host',
    'port': 5432,
    'database': 'your_database_name',
    'user': 'your_username',
    'password': 'your_password'
}
  1. 确保Excel文件在当前目录下

  2. 运行导入脚本:

python import_hotel_positions.py

第三步:验证数据

-- 查看数据总数
SELECT COUNT(*) FROM hotel_positions;

-- 查看部门统计
SELECT * FROM v_hotel_positions_dept_stats;

-- 查看职级统计
SELECT * FROM v_hotel_positions_level_stats;

表结构

主要字段

字段名 类型 描述
id SERIAL 主键ID
sequence_no INTEGER 原Excel序号
department_zh VARCHAR(10) 部门中文名称
department_en VARCHAR(50) 部门英文名称
position_zh VARCHAR(20) 职位中文名称
position_en VARCHAR(100) 职位英文名称
position_abbr VARCHAR(20) 职位英文缩写(可为空)
level_zh VARCHAR(10) 职级中文名称
level_en VARCHAR(30) 职级英文名称

审计字段

字段名 类型 描述
created_at TIMESTAMP WITH TIME ZONE 创建时间
updated_at TIMESTAMP WITH TIME ZONE 更新时间
created_by VARCHAR(50) 创建者
updated_by VARCHAR(50) 更新者
status VARCHAR(20) 记录状态

常用查询示例

1. 查询特定部门的所有职位

SELECT position_zh, position_en, level_zh 
FROM hotel_positions 
WHERE department_zh = '餐饮部' AND status = 'active'
ORDER BY sequence_no;

2. 查询高级职位(总监级及以上)

SELECT department_zh, position_zh, position_en, level_zh
FROM hotel_positions 
WHERE level_zh IN ('总监级', '总经理级') AND status = 'active'
ORDER BY level_zh DESC, department_zh;

3. 查询有英文缩写的职位

SELECT department_zh, position_zh, position_en, position_abbr
FROM hotel_positions 
WHERE position_abbr IS NOT NULL AND position_abbr != '' 
  AND status = 'active'
ORDER BY department_zh;

4. 部门职位数量统计

SELECT * FROM v_hotel_positions_dept_stats;

5. 职级分布统计

SELECT * FROM v_hotel_positions_level_stats;

维护说明

  1. 数据更新: 当有新的职位或组织结构变化时,更新相应记录的status字段
  2. 版本管理: 建议保留历史数据,通过status字段区分有效/无效记录
  3. 定期同步: 与HR系统定期同步,保持数据一致性
  4. 备份: 定期备份数据表,确保数据安全

依赖要求

Python环境

pip install pandas openpyxl psycopg2-binary

PostgreSQL版本

  • PostgreSQL 10.0 或更高版本
  • 支持COMMENT ON语句
  • 支持触发器和函数

注意事项

  1. 字符编码: 确保数据库和客户端使用UTF-8编码
  2. 空值处理: position_abbr字段允许为空,其他字段均为必填
  3. 索引优化: 已创建常用查询的索引,如需其他查询模式可添加相应索引
  4. 数据完整性: 建议添加外键约束连接到其他相关表

支持与反馈

如有问题或建议,请联系系统管理员或提交issue。