4 miesięcy temu · 67e158f76d
--- a/dags/dag_dataops_pipeline_data_scheduler.py
+++ b/dags/dag_dataops_pipeline_data_scheduler.py
@@ -144,6 +144,7 @@ def execute_python_script(target_table, script_name, script_exec_mode, exec_date
 
				         script_name: 脚本名称 
			
 
				         script_exec_mode: 脚本执行模式
			
 
				         exec_date: 执行日期
			
 
				+        source_tables: (可选) 源表列表
			
 
				         
			
 
				     返回:
			
 
				         bool: 脚本执行结果
			
@@ -196,7 +197,7 @@ def execute_python_script(target_table, script_name, script_exec_mode, exec_date
 
				             }
			
 
				 
			
 
				             ## 添加可能的额外参数
			
 
				-            for key in ['target_type', 'storage_location', 'frequency']:
			
 
				+            for key in ['target_type', 'storage_location', 'frequency', 'source_tables']:
			
 
				                 if key in kwargs and kwargs[key] is not None:
			
 
				                     run_params[key] = kwargs[key] 
			
 
				 
			
@@ -294,7 +295,8 @@ def get_table_info_from_neo4j(table_name):
 
				             # 查询表标签和状态
			
 
				             query_table = """
			
 
				                 MATCH (t {en_name: $table_name})
			
 
				-                RETURN labels(t) AS labels, t.status AS status, t.frequency AS frequency
			
 
				+                RETURN labels(t) AS labels, t.status AS status, t.frequency AS frequency,
			
 
				+                       t.type AS type, t.storage_location AS storage_location
			
 
				             """
			
 
				             result = session.run(query_table, table_name=table_name)
			
 
				             record = result.single()
			
@@ -304,41 +306,135 @@ def get_table_info_from_neo4j(table_name):
 
				                 table_info['target_table_label'] = [label for label in labels if label in ["DataResource", "DataModel", "DataSource"]][0] if labels else None
			
 
				                 table_info['target_table_status'] = record.get("status", True)  # 默认为True
			
 
				                 table_info['default_update_frequency'] = record.get("frequency")
			
 
				+                table_info['frequency'] = record.get("frequency")
			
 
				+                table_info['target_type'] = record.get("type")  # 获取type属性
			
 
				+                table_info['storage_location'] = record.get("storage_location")  # 获取storage_location属性
			
 
				                 
			
 
				                 # 根据标签类型查询关系和脚本信息
			
 
				                 if "DataResource" in labels:
			
 
				-                    query_rel = """
			
 
				-                        MATCH (target {en_name: $table_name})-[rel:ORIGINATES_FROM]->(source)
			
 
				-                        RETURN source.en_name AS source_table, rel.script_name AS script_name,
			
 
				-                               rel.script_type AS script_type, rel.script_exec_mode AS script_exec_mode
			
 
				-                    """
			
 
				+                    # 检查是否为structure类型
			
 
				+                    if table_info.get('target_type') == "structure":
			
 
				+                        # 对于structure类型，设置默认值，不查询关系
			
 
				+                        table_info['source_tables'] = []  # 使用空数组表示无源表
			
 
				+                        table_info['script_name'] = "load_file.py"
			
 
				+                        table_info['script_type'] = "python"
			
 
				+                        
			
 
				+                        # csv类型的DataResource没有上游，使用默认的append模式
			
 
				+                        table_info['script_exec_mode'] = "append"
			
 
				+                        logger.info(f"表 {table_name} 为structure类型，使用默认执行模式: append")
			
 
				+
			
 
				+                        return table_info
			
 
				+                    else:
			
 
				+                        query_rel = """
			
 
				+                            MATCH (target {en_name: $table_name})-[rel:ORIGINATES_FROM]->(source)
			
 
				+                            WITH source, rel, 
			
 
				+                                 CASE WHEN rel.script_name IS NULL THEN target.en_name + '_script.py' ELSE rel.script_name END AS script_name,
			
 
				+                                 CASE WHEN rel.script_type IS NULL THEN 'python' ELSE rel.script_type END AS script_type
			
 
				+                            RETURN source.en_name AS source_table, script_name AS script_name,
			
 
				+                                   script_type AS script_type, 'append' AS script_exec_mode
			
 
				+                        """
			
 
				                 elif "DataModel" in labels:
			
 
				                     query_rel = """
			
 
				                         MATCH (target {en_name: $table_name})-[rel:DERIVED_FROM]->(source)
			
 
				-                        RETURN source.en_name AS source_table, rel.script_name AS script_name,
			
 
				-                               rel.script_type AS script_type, rel.script_exec_mode AS script_exec_mode
			
 
				+                        WITH source, rel, 
			
 
				+                             CASE WHEN rel.script_name IS NULL THEN target.en_name + '_script.py' ELSE rel.script_name END AS script_name,
			
 
				+                             CASE WHEN rel.script_type IS NULL THEN 'python' ELSE rel.script_type END AS script_type
			
 
				+                        RETURN source.en_name AS source_table, script_name AS script_name,
			
 
				+                               script_type AS script_type, 'append' AS script_exec_mode
			
 
				                     """
			
 
				                 else:
			
 
				                     logger.warning(f"表 {table_name} 不是DataResource或DataModel类型")
			
 
				                     return table_info
			
 
				                 
			
 
				+                # 收集所有关系记录
			
 
				                 result = session.run(query_rel, table_name=table_name)
			
 
				-                record = result.single()
			
 
				+                # 检查result对象是否有collect方法，否则使用data方法或list直接转换
			
 
				+                try:
			
 
				+                    if hasattr(result, 'collect'):
			
 
				+                        records = result.collect()  # 使用collect()获取所有记录
			
 
				+                    else:
			
 
				+                        # 尝试使用其他方法获取记录
			
 
				+                        logger.info(f"表 {table_name} 的查询结果不支持collect方法，尝试使用其他方法")
			
 
				+                        try:
			
 
				+                            records = list(result)  # 直接转换为列表
			
 
				+                        except Exception as e1:
			
 
				+                            logger.warning(f"尝试列表转换失败: {str(e1)}，尝试使用data方法")
			
 
				+                            try:
			
 
				+                                records = result.data()  # 使用data()方法
			
 
				+                            except Exception as e2:
			
 
				+                                logger.warning(f"所有方法都失败，使用空列表: {str(e2)}")
			
 
				+                                records = []
			
 
				+                except Exception as e:
			
 
				+                    logger.warning(f"获取查询结果时出错: {str(e)}，使用空列表")
			
 
				+                    records = []
			
 
				+                
			
 
				+                # 记录查询到的原始记录
			
 
				+                logger.info(f"表 {table_name} 查询到 {len(records)} 条关系记录")
			
 
				+                for idx, rec in enumerate(records):
			
 
				+                    logger.info(f"关系记录[{idx}]: source_table={rec.get('source_table')}, script_name={rec.get('script_name')}, " 
			
 
				+                                f"script_type={rec.get('script_type')}, script_exec_mode={rec.get('script_exec_mode')}")
			
 
				                 
			
 
				-                if record:
			
 
				-                    table_info['source_table'] = record.get("source_table")     
			
 
				+                if records:
			
 
				+                    # 按脚本名称分组源表
			
 
				+                    scripts_info = {}
			
 
				+                    for record in records:
			
 
				+                        script_name = record.get("script_name")
			
 
				+                        source_table = record.get("source_table")
			
 
				+                        script_type = record.get("script_type", "python")
			
 
				+                        script_exec_mode = record.get("script_exec_mode", "append")
			
 
				+                        
			
 
				+                        logger.info(f"处理记录: source_table={source_table}, script_name={script_name}")
			
 
				 
			
 
				-                    # 检查script_name是否为空
			
 
				-                    script_name = record.get("script_name")
			
 
				-                    if not script_name:
			
 
				-                        logger.warning(f"表 {table_name} 的关系中没有script_name属性，可能导致后续处理出错")
			
 
				-                    table_info['script_name'] = script_name
			
 
				+                        if not script_name:
			
 
				+                            script_name = f"{table_name}_process.py"
			
 
				+                            logger.warning(f"表 {table_name} 的关系中没有script_name属性，使用默认值: {script_name}")
			
 
				+                            
			
 
				+                        if script_name not in scripts_info:
			
 
				+                            scripts_info[script_name] = {
			
 
				+                                "sources": [],
			
 
				+                                "script_type": script_type,
			
 
				+                                "script_exec_mode": script_exec_mode
			
 
				+                            }
			
 
				+                        
			
 
				+                        # 确保source_table有值且不为None才添加到sources列表中
			
 
				+                        if source_table and source_table not in scripts_info[script_name]["sources"]:
			
 
				+                            scripts_info[script_name]["sources"].append(source_table)
			
 
				+                            logger.debug(f"为表 {table_name} 的脚本 {script_name} 添加源表: {source_table}")
			
 
				                     
			
 
				-                    # 设置默认值，确保即使属性为空也有默认值
			
 
				-                    table_info['script_type'] = record.get("script_type", "python")  # 默认为python
			
 
				-                    table_info['script_exec_mode'] = record.get("script_exec_mode", "append")  # 默认为append
			
 
				+                    # 处理分组信息
			
 
				+                    if scripts_info:
			
 
				+                        # 存储完整的脚本信息
			
 
				+                        table_info['scripts_info'] = scripts_info
			
 
				+                        
			
 
				+                        # 如果只有一个脚本，直接使用它
			
 
				+                        if len(scripts_info) == 1:
			
 
				+                            script_name = list(scripts_info.keys())[0]
			
 
				+                            script_info = scripts_info[script_name]
			
 
				+                            
			
 
				+                            table_info['source_tables'] = script_info["sources"]  # 使用数组
			
 
				+                            table_info['script_name'] = script_name
			
 
				+                            table_info['script_type'] = script_info["script_type"]
			
 
				+                            table_info['script_exec_mode'] = script_info["script_exec_mode"]
			
 
				+                            logger.info(f"表 {table_name} 有单个脚本 {script_name}，源表: {script_info['sources']}")
			
 
				+                        else:
			
 
				+                            # 如果有多个不同脚本，记录多脚本信息
			
 
				+                            logger.info(f"表 {table_name} 有多个不同脚本: {list(scripts_info.keys())}")
			
 
				+                            # 暂时使用第一个脚本的信息作为默认值
			
 
				+                            first_script = list(scripts_info.keys())[0]
			
 
				+                            table_info['source_tables'] = scripts_info[first_script]["sources"]
			
 
				+                            table_info['script_name'] = first_script
			
 
				+                            table_info['script_type'] = scripts_info[first_script]["script_type"]
			
 
				+                            table_info['script_exec_mode'] = scripts_info[first_script]["script_exec_mode"]
			
 
				+                    else:
			
 
				+                        logger.warning(f"表 {table_name} 未找到有效的脚本信息")
			
 
				+                        table_info['source_tables'] = []  # 使用空数组
			
 
				+                        # 向下兼容
			
 
				+                        table_info['source_table'] = None
			
 
				                 else:
			
 
				                     logger.warning(f"未找到表 {table_name} 的关系信息")
			
 
				+                    table_info['source_tables'] = []  # 使用空数组
			
 
				+                    # 向下兼容
			
 
				+                    table_info['source_table'] = None
			
 
				             else:
			
 
				                 logger.warning(f"在Neo4j中找不到表 {table_name} 的信息")
			
 
				     except Exception as e:
			
@@ -381,6 +477,10 @@ def process_dependencies(tables_info):
 
				                             dep_info['is_directly_schedule'] = False
			
 
				                             
			
 
				                             # 处理调度频率继承
			
 
				+                            if not dep_info.get('frequency'):
			
 
				+                                dep_info['frequency'] = table_info.get('frequency')
			
 
				+                            
			
 
				+                            # 确保向下兼容
			
 
				                             if not dep_info.get('default_update_frequency'):
			
 
				                                 dep_info['default_update_frequency'] = table_info.get('default_update_frequency')
			
 
				                             
			
@@ -507,7 +607,7 @@ def prepare_dag_schedule(**kwargs):
 
				     for table in valid_tables:
			
 
				         if table.get('target_table_label') == 'DataResource':
			
 
				             task_info = {
			
 
				-                "source_table": table.get('source_table'),
			
 
				+                "source_tables": [table.get('source_table')] if table.get('source_table') else [],
			
 
				                 "target_table": table['target_table'],
			
 
				                 "target_table_label": "DataResource",
			
 
				                 "script_name": table.get('script_name'),
			
@@ -522,7 +622,7 @@ def prepare_dag_schedule(**kwargs):
 
				             resource_tasks.append(task_info)
			
 
				         elif table.get('target_table_label') == 'DataModel':
			
 
				             model_tasks.append({
			
 
				-                "source_table": table.get('source_table'),
			
 
				+                "source_tables": [table.get('source_table')] if table.get('source_table') else [],
			
 
				                 "target_table": table['target_table'],
			
 
				                 "target_table_label": "DataModel",
			
 
				                 "script_name": table.get('script_name'),
			
@@ -758,10 +858,15 @@ def process_resource(target_table, script_name, script_exec_mode, exec_date,**kw
 
				         exec_date = str(exec_date)
			
 
				         logger.info(f"将exec_date转换为字符串: {exec_date}")
			
 
				 
			
 
				-        # 获取额外参数
			
 
				+    # 获取额外参数
			
 
				     target_type = kwargs.get('target_type')
			
 
				     storage_location = kwargs.get('storage_location')
			
 
				     frequency = kwargs.get('frequency')
			
 
				+    source_tables = kwargs.get('source_tables', [])
			
 
				+    
			
 
				+    # 记录源表信息(如果有)
			
 
				+    if source_tables and len(source_tables) > 0:
			
 
				+        logger.info(f"资源表 {target_table} 有 {len(source_tables)} 个源表: {source_tables}")
			
 
				     
			
 
				     try:
			
 
				         # 使用新的函数执行脚本，传递相应参数
			
@@ -773,7 +878,8 @@ def process_resource(target_table, script_name, script_exec_mode, exec_date,**kw
 
				             "script_name": script_name,
			
 
				             "script_exec_mode": script_exec_mode,
			
 
				             "exec_date": exec_date,
			
 
				-            "frequency": frequency
			
 
				+            "frequency": frequency,
			
 
				+            "source_tables": source_tables
			
 
				         }
			
 
				         
			
 
				         # 添加特殊参数（如果有）
			
@@ -799,8 +905,8 @@ def process_resource(target_table, script_name, script_exec_mode, exec_date,**kw
 
				         logger.info(f"===== 结束执行 {task_id} =====")
			
 
				 
			
 
				 
			
 
				-def process_model(target_table, script_name, script_exec_mode, exec_date):
			
 
				-    """处理单个模型表"""
			
 
				+def process_model(target_table, script_name, script_exec_mode, exec_date, source_tables=None):
			
 
				+    """处理单个模型表，支持多个源表"""
			
 
				     task_id = f"model_{target_table}"
			
 
				     logger.info(f"===== 开始执行 {task_id} =====")
			
 
				     logger.info(f"执行模型表 {target_table} 的脚本 {script_name}")
			
@@ -810,6 +916,10 @@ def process_model(target_table, script_name, script_exec_mode, exec_date):
 
				         exec_date = str(exec_date)
			
 
				         logger.info(f"将exec_date转换为字符串: {exec_date}")
			
 
				     
			
 
				+    # 记录源表信息
			
 
				+    if source_tables and len(source_tables) > 0:
			
 
				+        logger.info(f"模型表 {target_table} 有 {len(source_tables)} 个源表: {source_tables}")
			
 
				+    
			
 
				     try:
			
 
				         # 使用新的函数执行脚本，不依赖数据库
			
 
				         logger.info(f"调用execute_python_script: target_table={target_table}, script_name={script_name}")
			
@@ -817,7 +927,8 @@ def process_model(target_table, script_name, script_exec_mode, exec_date):
 
				             target_table=target_table,
			
 
				             script_name=script_name,
			
 
				             script_exec_mode=script_exec_mode,
			
 
				-            exec_date=exec_date
			
 
				+            exec_date=exec_date,
			
 
				+            source_tables=source_tables  # 传递源表列表
			
 
				         )
			
 
				         logger.info(f"模型表 {target_table} 处理完成，结果: {result}")
			
 
				         return result
			
@@ -1054,6 +1165,7 @@ with DAG(
 
				             table_name = task_info["target_table"]
			
 
				             script_name = task_info["script_name"]
			
 
				             exec_mode = task_info.get("script_exec_mode", "append")
			
 
				+            source_tables = task_info.get("source_tables", [])  # 获取源表数组
			
 
				             
			
 
				             # 创建安全的任务ID
			
 
				             safe_table_name = table_name.replace(".", "_").replace("-", "_")
			
@@ -1063,7 +1175,8 @@ with DAG(
 
				                 "target_table": table_name,
			
 
				                 "script_name": script_name,
			
 
				                 "script_exec_mode": exec_mode,
			
 
				-                "exec_date": str(exec_date)
			
 
				+                "exec_date": str(exec_date),
			
 
				+                "source_tables": source_tables  # 添加源表数组
			
 
				             }
			
 
				 
			
 
				             # 添加特殊参数（如果有）
			
@@ -1090,6 +1203,13 @@ with DAG(
 
				             
			
 
				             # 设置与start_processing的依赖
			
 
				             start_processing >> resource_task
			
 
				+            
			
 
				+            # 如果资源表有自己的源表依赖
			
 
				+            if source_tables and isinstance(source_tables, list):
			
 
				+                for source_table in source_tables:
			
 
				+                    if source_table and source_table in task_dict:
			
 
				+                        task_dict[source_table] >> resource_task
			
 
				+                        logger.info(f"设置资源表依赖: {source_table} >> {table_name}")
			
 
				         
			
 
				         # 创建有向图，用于检测模型表之间的依赖关系
			
 
				         G = nx.DiGraph()
			
@@ -1132,6 +1252,7 @@ with DAG(
 
				                 
			
 
				             script_name = task_info["script_name"]
			
 
				             exec_mode = task_info.get("script_exec_mode", "append")
			
 
				+            source_tables = task_info.get("source_tables", [])  # 获取源表数组
			
 
				             
			
 
				             # 创建安全的任务ID
			
 
				             safe_table_name = table_name.replace(".", "_").replace("-", "_")
			
@@ -1146,7 +1267,8 @@ with DAG(
 
				                         "script_name": script_name,
			
 
				                         "script_exec_mode": exec_mode,
			
 
				                         # 确保使用字符串而不是可能是默认（非字符串）格式的执行日期
			
 
				-                        "exec_date": str(exec_date)
			
 
				+                        "exec_date": str(exec_date),
			
 
				+                        "source_tables": source_tables  # 传递源表数组
			
 
				                     },
			
 
				                     retries=TASK_RETRY_CONFIG["retries"],
			
 
				                     retry_delay=timedelta(minutes=TASK_RETRY_CONFIG["retry_delay_minutes"])
			
@@ -1155,19 +1277,29 @@ with DAG(
 
				             # 将任务添加到字典
			
 
				             task_dict[table_name] = model_task
			
 
				             
			
 
				-            # 设置依赖关系
			
 
				-            deps = dependencies.get(table_name, [])
			
 
				+            # 设置依赖关系，基于source_tables和dependencies
			
 
				             has_dependency = False
			
 
				             
			
 
				-            # 处理模型表之间的依赖
			
 
				+            # 先根据source_tables直接设置依赖
			
 
				+            if isinstance(source_tables, list):
			
 
				+                for source_table in source_tables:
			
 
				+                    if source_table and source_table in task_dict:
			
 
				+                        task_dict[source_table] >> model_task
			
 
				+                        has_dependency = True
			
 
				+                        logger.info(f"根据source_tables设置依赖: {source_table} >> {table_name}")
			
 
				+            
			
 
				+            # 然后处理dependencies中的依赖
			
 
				+            deps = dependencies.get(table_name, [])
			
 
				             for dep in deps:
			
 
				                 dep_table = dep.get("table_name")
			
 
				                 dep_type = dep.get("table_type")
			
 
				                 
			
 
				                 if dep_table in task_dict:
			
 
				-                    task_dict[dep_table] >> model_task
			
 
				-                    has_dependency = True
			
 
				-                    logger.info(f"设置依赖: {dep_table} >> {table_name}")
			
 
				+                    # 避免重复设置依赖
			
 
				+                    if dep_table not in source_tables:
			
 
				+                        task_dict[dep_table] >> model_task
			
 
				+                        has_dependency = True
			
 
				+                        logger.info(f"根据dependencies设置依赖: {dep_table} >> {table_name}")
			
 
				             
			
 
				             # 如果没有依赖，则依赖于start_processing和资源表任务
			
 
				             if not has_dependency:
			
--- a/dags/dag_dataops_pipeline_prepare_scheduler.py
+++ b/dags/dag_dataops_pipeline_prepare_scheduler.py
@@ -154,58 +154,123 @@ def get_table_info_from_neo4j(table_name):
 
				                     # 检查是否为structure类型
			
 
				                     if table_info.get('target_type') == "structure":
			
 
				                         # 对于structure类型，设置默认值，不查询关系
			
 
				-                        table_info['source_table'] = None
			
 
				+                        table_info['source_tables'] = []  # 使用空数组表示无源表
			
 
				                         table_info['script_name'] = "load_file.py"
			
 
				                         table_info['script_type'] = "python"
			
 
				                         
			
 
				-                        # 获取执行模式，注意csv类型的DataResource,它没有上游，所以exec_mode属性只能被写到节点上。
			
 
				-                        query_exec_mode = """
			
 
				-                            MATCH (t {en_name: $table_name})
			
 
				-                            RETURN t.script_exec_mode AS script_exec_mode
			
 
				-                        """
			
 
				-                        result = session.run(query_exec_mode, table_name=table_name)
			
 
				-                        record = result.single()
			
 
				-                        if record and record.get("script_exec_mode"):
			
 
				-                            table_info['script_exec_mode'] = record.get("script_exec_mode")
			
 
				-                        else:
			
 
				-                            # 如果没有找到执行模式，使用默认值
			
 
				-                            table_info['script_exec_mode'] = "append"
			
 
				-                            logger.info(f"表 {table_name} 未指定执行模式，使用默认值: append")
			
 
				+                        # csv类型的DataResource没有上游，使用默认的append模式
			
 
				+                        table_info['script_exec_mode'] = "append"
			
 
				+                        logger.info(f"表 {table_name} 为structure类型，使用默认执行模式: append")
			
 
				 
			
 
				                         return table_info
			
 
				                     else:
			
 
				                         query_rel = """
			
 
				                             MATCH (target {en_name: $table_name})-[rel:ORIGINATES_FROM]->(source)
			
 
				-                            RETURN source.en_name AS source_table, rel.script_name AS script_name,
			
 
				-                               rel.script_type AS script_type, rel.script_exec_mode AS script_exec_mode
			
 
				-                    """
			
 
				+                            WITH source, rel, 
			
 
				+                                 CASE WHEN rel.script_name IS NULL THEN target.en_name + '_script.py' ELSE rel.script_name END AS script_name,
			
 
				+                                 CASE WHEN rel.script_type IS NULL THEN 'python' ELSE rel.script_type END AS script_type
			
 
				+                            RETURN source.en_name AS source_table, script_name AS script_name,
			
 
				+                                   script_type AS script_type, 'append' AS script_exec_mode
			
 
				+                        """
			
 
				                 elif "DataModel" in labels:
			
 
				                     query_rel = """
			
 
				                         MATCH (target {en_name: $table_name})-[rel:DERIVED_FROM]->(source)
			
 
				-                        RETURN source.en_name AS source_table, rel.script_name AS script_name,
			
 
				-                               rel.script_type AS script_type, rel.script_exec_mode AS script_exec_mode
			
 
				+                        WITH source, rel, 
			
 
				+                             CASE WHEN rel.script_name IS NULL THEN target.en_name + '_script.py' ELSE rel.script_name END AS script_name,
			
 
				+                             CASE WHEN rel.script_type IS NULL THEN 'python' ELSE rel.script_type END AS script_type
			
 
				+                        RETURN source.en_name AS source_table, script_name AS script_name,
			
 
				+                               script_type AS script_type, 'append' AS script_exec_mode
			
 
				                     """
			
 
				                 else:
			
 
				                     logger.warning(f"表 {table_name} 不是DataResource或DataModel类型")
			
 
				                     return table_info
			
 
				                 
			
 
				+                # 收集所有关系记录
			
 
				                 result = session.run(query_rel, table_name=table_name)
			
 
				-                record = result.single()
			
 
				+                # 检查result对象是否有collect方法，否则使用data方法或list直接转换
			
 
				+                try:
			
 
				+                    if hasattr(result, 'collect'):
			
 
				+                        records = result.collect()  # 使用collect()获取所有记录
			
 
				+                    else:
			
 
				+                        # 尝试使用其他方法获取记录
			
 
				+                        logger.info(f"表 {table_name} 的查询结果不支持collect方法，尝试使用其他方法")
			
 
				+                        try:
			
 
				+                            records = list(result)  # 直接转换为列表
			
 
				+                        except Exception as e1:
			
 
				+                            logger.warning(f"尝试列表转换失败: {str(e1)}，尝试使用data方法")
			
 
				+                            try:
			
 
				+                                records = result.data()  # 使用data()方法
			
 
				+                            except Exception as e2:
			
 
				+                                logger.warning(f"所有方法都失败，使用空列表: {str(e2)}")
			
 
				+                                records = []
			
 
				+                except Exception as e:
			
 
				+                    logger.warning(f"获取查询结果时出错: {str(e)}，使用空列表")
			
 
				+                    records = []
			
 
				                 
			
 
				-                if record:
			
 
				-                    table_info['source_table'] = record.get("source_table")     
			
 
				-
			
 
				-                    # 检查script_name是否为空
			
 
				-                    script_name = record.get("script_name")
			
 
				-                    if not script_name:
			
 
				-                        logger.warning(f"表 {table_name} 的关系中没有script_name属性，可能导致后续处理出错")
			
 
				-                    table_info['script_name'] = script_name
			
 
				+                # 记录查询到的原始记录
			
 
				+                logger.info(f"表 {table_name} 查询到 {len(records)} 条关系记录")
			
 
				+                for idx, rec in enumerate(records):
			
 
				+                    logger.info(f"关系记录[{idx}]: source_table={rec.get('source_table')}, script_name={rec.get('script_name')}, " 
			
 
				+                                f"script_type={rec.get('script_type')}, script_exec_mode={rec.get('script_exec_mode')}")
			
 
				+                
			
 
				+                if records:
			
 
				+                    # 按脚本名称分组源表
			
 
				+                    scripts_info = {}
			
 
				+                    for record in records:
			
 
				+                        script_name = record.get("script_name")
			
 
				+                        source_table = record.get("source_table")
			
 
				+                        script_type = record.get("script_type", "python")
			
 
				+                        script_exec_mode = record.get("script_exec_mode", "append")
			
 
				+                        
			
 
				+                        logger.info(f"处理记录: source_table={source_table}, script_name={script_name}")
			
 
				+                        
			
 
				+                        # 如果script_name为空，生成默认的脚本名
			
 
				+                        if not script_name:
			
 
				+                            script_name = f"{table_name}_process.py"
			
 
				+                            logger.warning(f"表 {table_name} 的关系中没有script_name属性，使用默认值: {script_name}")
			
 
				+                            
			
 
				+                        if script_name not in scripts_info:
			
 
				+                            scripts_info[script_name] = {
			
 
				+                                "sources": [],
			
 
				+                                "script_type": script_type,
			
 
				+                                "script_exec_mode": script_exec_mode
			
 
				+                            }
			
 
				+                        
			
 
				+                        # 确保source_table有值且不为None才添加到sources列表中
			
 
				+                        if source_table and source_table not in scripts_info[script_name]["sources"]:
			
 
				+                            scripts_info[script_name]["sources"].append(source_table)
			
 
				+                            logger.debug(f"为表 {table_name} 的脚本 {script_name} 添加源表: {source_table}")
			
 
				                     
			
 
				-                    # 设置默认值，确保即使属性为空也有默认值
			
 
				-                    table_info['script_type'] = record.get("script_type", "python")  # 默认为python
			
 
				-                    table_info['script_exec_mode'] = record.get("script_exec_mode", "append")  # 默认为append
			
 
				+                    # 处理分组信息
			
 
				+                    if scripts_info:
			
 
				+                        # 存储完整的脚本信息
			
 
				+                        table_info['scripts_info'] = scripts_info
			
 
				+                        
			
 
				+                        # 如果只有一个脚本，直接使用它
			
 
				+                        if len(scripts_info) == 1:
			
 
				+                            script_name = list(scripts_info.keys())[0]
			
 
				+                            script_info = scripts_info[script_name]
			
 
				+                            
			
 
				+                            table_info['source_tables'] = script_info["sources"]  # 使用数组
			
 
				+                            table_info['script_name'] = script_name
			
 
				+                            table_info['script_type'] = script_info["script_type"]
			
 
				+                            table_info['script_exec_mode'] = script_info["script_exec_mode"]
			
 
				+                            logger.info(f"表 {table_name} 有单个脚本 {script_name}，源表: {script_info['sources']}")
			
 
				+                        else:
			
 
				+                            # 如果有多个不同脚本，记录多脚本信息
			
 
				+                            logger.info(f"表 {table_name} 有多个不同脚本: {list(scripts_info.keys())}")
			
 
				+                            # 暂时使用第一个脚本的信息作为默认值
			
 
				+                            first_script = list(scripts_info.keys())[0]
			
 
				+                            table_info['source_tables'] = scripts_info[first_script]["sources"]
			
 
				+                            table_info['script_name'] = first_script
			
 
				+                            table_info['script_type'] = scripts_info[first_script]["script_type"]
			
 
				+                            table_info['script_exec_mode'] = scripts_info[first_script]["script_exec_mode"]
			
 
				+                    else:
			
 
				+                        logger.warning(f"表 {table_name} 未找到有效的脚本信息")
			
 
				+                        table_info['source_tables'] = []  # 使用空数组
			
 
				                 else:
			
 
				                     logger.warning(f"未找到表 {table_name} 的关系信息")
			
 
				+                    table_info['source_tables'] = []  # 使用空数组
			
 
				             else:
			
 
				                 logger.warning(f"在Neo4j中找不到表 {table_name} 的信息")
			
 
				     except Exception as e:
			
@@ -579,10 +644,17 @@ def prepare_pipeline_dag_schedule(**kwargs):
 
				         resource_tasks = []
			
 
				         model_tasks = []
			
 
				         
			
 
				+        # 遍历所有有效表，创建任务信息
			
 
				         for table in valid_tables:
			
 
				+            # 确保每个表对象都有source_tables字段且是一个列表
			
 
				+            if 'source_tables' not in table or not isinstance(table.get('source_tables'), list):
			
 
				+                logger.warning(f"表 {table['target_table']} 没有source_tables或不是列表，初始化为空列表")
			
 
				+                table['source_tables'] = []
			
 
				+            
			
 
				+            # 处理资源表任务
			
 
				             if table.get('target_table_label') == 'DataResource':
			
 
				                 task_info = {
			
 
				-                    "source_table": table.get('source_table'),
			
 
				+                    "source_tables": table.get('source_tables', []),  # 使用数组存储源表
			
 
				                     "target_table": table['target_table'],
			
 
				                     "target_table_label": "DataResource",
			
 
				                     "script_name": table.get('script_name'),
			
@@ -593,50 +665,114 @@ def prepare_pipeline_dag_schedule(**kwargs):
 
				                 if table.get('target_type') == "structure":
			
 
				                     task_info["target_type"] = "structure"
			
 
				                     task_info["storage_location"] = table.get('storage_location')  
			
 
				-                                  
			
 
				+                              
			
 
				                 resource_tasks.append(task_info)
			
 
				-
			
 
				+            # 处理模型表任务
			
 
				             elif table.get('target_table_label') == 'DataModel':
			
 
				-                model_tasks.append({
			
 
				-                    "source_table": table.get('source_table'),
			
 
				-                    "target_table": table['target_table'],
			
 
				-                    "target_table_label": "DataModel",
			
 
				-                    "script_name": table.get('script_name'),
			
 
				-                    "script_exec_mode": table.get('script_exec_mode', 'append'),
			
 
				-                    "frequency": table.get('frequency')
			
 
				-                })
			
 
				+                # 检查是否有多个脚本信息
			
 
				+                if 'scripts_info' in table and len(table['scripts_info']) > 1:
			
 
				+                    # 处理多脚本情况，为每个脚本创建单独的任务
			
 
				+                    logger.info(f"表 {table['target_table']} 有多个脚本，单独处理每个脚本")
			
 
				+                    
			
 
				+                    for script_name, script_info in table['scripts_info'].items():
			
 
				+                        model_tasks.append({
			
 
				+                            "source_tables": script_info.get("sources", []),  # 使用数组存储源表
			
 
				+                            "target_table": table['target_table'],
			
 
				+                            "target_table_label": "DataModel",
			
 
				+                            "script_name": script_name,
			
 
				+                            "script_exec_mode": script_info.get("script_exec_mode", 'append'),
			
 
				+                            "script_type": script_info.get("script_type", 'python'),
			
 
				+                            "frequency": table.get('frequency')
			
 
				+                        })
			
 
				+                else:
			
 
				+                    # 处理单脚本情况
			
 
				+                    model_tasks.append({
			
 
				+                        "source_tables": table.get('source_tables', []),  # 使用数组存储源表
			
 
				+                        "target_table": table['target_table'],
			
 
				+                        "target_table_label": "DataModel",
			
 
				+                        "script_name": table.get('script_name'),
			
 
				+                        "script_exec_mode": table.get('script_exec_mode', 'append'),
			
 
				+                        "frequency": table.get('frequency')
			
 
				+                    })
			
 
				         
			
 
				-        # 获取依赖关系
			
 
				-        model_table_names = [t['target_table'] for t in model_tasks]
			
 
				+        # 获取和处理依赖关系
			
 
				         dependencies = {}
			
 
				+        model_table_names = [t['target_table'] for t in model_tasks]
			
 
				+        
			
 
				+        # 初始化依赖关系字典
			
 
				+        for table_name in model_table_names:
			
 
				+            dependencies[table_name] = []
			
 
				         
			
 
				+        # 查询Neo4j获取依赖关系
			
 
				         driver = get_neo4j_driver()
			
 
				         try:
			
 
				             with driver.session() as session:
			
 
				+                # 为每个模型表查询依赖
			
 
				                 for table_name in model_table_names:
			
 
				                     query = """
			
 
				                         MATCH (source:DataModel {en_name: $table_name})-[:DERIVED_FROM]->(target)
			
 
				                         RETURN source.en_name AS source, target.en_name AS target, labels(target) AS target_labels
			
 
				                     """
			
 
				-                    result = session.run(query, table_name=table_name)
			
 
				-                    
			
 
				-                    deps = []
			
 
				-                    for record in result:
			
 
				-                        target = record.get("target")
			
 
				-                        target_labels = record.get("target_labels", [])
			
 
				+                    try:
			
 
				+                        # 执行查询
			
 
				+                        result = session.run(query, table_name=table_name)
			
 
				+                        
			
 
				+                        # 尝试获取记录
			
 
				+                        records = []
			
 
				+                        try:
			
 
				+                            if hasattr(result, 'collect'):
			
 
				+                                records = result.collect()
			
 
				+                            else:
			
 
				+                                records = list(result)
			
 
				+                        except Exception as e:
			
 
				+                            logger.warning(f"获取表 {table_name} 的依赖关系记录失败: {str(e)}")
			
 
				+                            records = []
			
 
				+                        
			
 
				+                        # 源表列表，用于后续更新model_tasks
			
 
				+                        source_tables_list = []
			
 
				+                        
			
 
				+                        # 处理依赖关系记录
			
 
				+                        for record in records:
			
 
				+                            target = record.get("target")
			
 
				+                            target_labels = record.get("target_labels", [])
			
 
				+                            
			
 
				+                            if target:
			
 
				+                                # 确定依赖表类型
			
 
				+                                table_type = next((label for label in target_labels 
			
 
				+                                                 if label in ["DataModel", "DataResource"]), None)
			
 
				+                                
			
 
				+                                # 添加依赖关系
			
 
				+                                dependencies[table_name].append({
			
 
				+                                    "table_name": target,
			
 
				+                                    "table_type": table_type
			
 
				+                                })
			
 
				+                                
			
 
				+                                # 记录源表
			
 
				+                                source_tables_list.append(target)
			
 
				+                                logger.info(f"添加其他依赖: {table_name} -> {target}")
			
 
				                         
			
 
				-                        if target:
			
 
				-                            table_type = next((label for label in target_labels if label in ["DataModel", "DataResource"]), None)
			
 
				-                            deps.append({
			
 
				-                                "table_name": target,
			
 
				-                                "table_type": table_type
			
 
				-                            })
			
 
				+                        # 更新model_tasks中的source_tables
			
 
				+                        for mt in model_tasks:
			
 
				+                            if mt['target_table'] == table_name:
			
 
				+                                # 确保source_tables是数组
			
 
				+                                if not isinstance(mt.get('source_tables'), list):
			
 
				+                                    mt['source_tables'] = []
			
 
				+                                
			
 
				+                                # 添加依赖的源表
			
 
				+                                for source_table in source_tables_list:
			
 
				+                                    if source_table and source_table not in mt['source_tables']:
			
 
				+                                        mt['source_tables'].append(source_table)
			
 
				+                                        logger.info(f"从依赖关系中添加源表 {source_table} 到 {table_name}")
			
 
				                     
			
 
				-                    dependencies[table_name] = deps
			
 
				+                    except Exception as e:
			
 
				+                        logger.error(f"处理表 {table_name} 的依赖关系时出错: {str(e)}")
			
 
				+                        
			
 
				+        except Exception as e:
			
 
				+            logger.error(f"查询Neo4j依赖关系时出错: {str(e)}")
			
 
				         finally:
			
 
				             driver.close()
			
 
				         
			
 
				-        # 创建执行计划
			
 
				+        # 创建最终执行计划
			
 
				         execution_plan = {
			
 
				             "exec_date": exec_date,
			
 
				             "resource_tasks": resource_tasks,
			
@@ -688,7 +824,7 @@ def prepare_pipeline_dag_schedule(**kwargs):
 
				             error_msg = f"保存执行计划到数据库时出错: {str(db_e)}"
			
 
				             logger.error(error_msg)
			
 
				             raise Exception(error_msg)
			
 
				-                
			
 
				+            
			
 
				     except Exception as e:
			
 
				         error_msg = f"创建或保存执行计划时出错: {str(e)}"
			
 
				         logger.error(error_msg)