1 year ago · 6dfc371394
--- a/dags/dag_manual_dependency_trigger.py
+++ b/dags/dag_manual_dependency_trigger.py
@@ -1,4 +1,28 @@
 
															 # dag_manual_dependency_trigger.py
														
 
															+"""
														
 
															+手动触发数据表依赖链执行DAG
														
 
															+
														
 
															+功能：
														
 
															+- 根据指定的表名，构建并执行其上游依赖链
														
 
															+- 支持三种依赖级别：
														
 
															+  - 'self'：只执行当前表，不处理上游依赖
														
 
															+  - 'resource'：查找依赖到Resource层，但只执行DataModel层
														
 
															+  - 'source'：查找并执行完整依赖链到Source层
														
 
															+
														
 
															+参数：
														
 
															+- TABLE_NAME：目标表名
														
 
															+- DEPENDENCY_LEVEL/UPPER_LEVEL_STOP：依赖级别
														
 
															+
														
 
															+使用示例：
														
 
															+```
														
 
															+{
														
 
															+  "conf": {
														
 
															+    "TABLE_NAME": "book_sale_amt_2yearly",
														
 
															+    "DEPENDENCY_LEVEL": "resource"
														
 
															+  }
														
 
															+}
														
 
															+```
														
 
															+"""
														
 
															 from airflow import DAG
														
 
															 from airflow.operators.python import PythonOperator
														
 
															 from datetime import datetime, timedelta
														
@@ -65,17 +89,27 @@ def get_dag_params(**context):
 
															     """获取DAG运行参数"""
														
 
															     params = context.get('params', {})
														
 
															     table_name = params.get('TABLE_NAME')
														
 
															-    dependency_level = params.get('DEPENDENCY_LEVEL', 'resource')  # 默认值为resource
														
 
															+    
														
 
															+    # 记录原始参数信息
														
 
															+    logger.info(f"接收到的原始参数: {params}")
														
 
															+    
														
 
															+    # 同时检查DEPENDENCY_LEVEL和UPPER_LEVEL_STOP参数，兼容两种参数名
														
 
															+    dependency_level = params.get('DEPENDENCY_LEVEL')
														
 
															+    logger.info(f"从DEPENDENCY_LEVEL获取的值: {dependency_level}")
														
 
															+    
														
 
															+    if dependency_level is None:
														
 
															+        dependency_level = params.get('UPPER_LEVEL_STOP', 'resource')  # 兼容旧参数名
														
 
															+        logger.info(f"从UPPER_LEVEL_STOP获取的值: {dependency_level}")
														
 
															     if not table_name:
														
 
															         raise ValueError("必须提供TABLE_NAME参数")
														
 
															     # 验证dependency_level参数
														
 
															     if dependency_level not in ['self', 'resource', 'source']:
														
 
															-        logger.warning(f"无效的DEPENDENCY_LEVEL参数: {dependency_level}，使用默认值'resource'")
														
 
															+        logger.warning(f"无效的依赖级别参数: {dependency_level}，使用默认值'resource'")
														
 
															         dependency_level = 'resource'
														
 
															-    logger.info(f"开始处理表: {table_name}, 依赖级别: {dependency_level}")
														
 
															+    logger.info(f"最终使用的参数 - 表名: {table_name}, 依赖级别: {dependency_level}")
														
 
															     return table_name, dependency_level
														
 
															 def is_data_model_table(table_name):
														
@@ -232,6 +266,9 @@ def build_dependency_chain_nx(start_table, dependency_level='resource'):
 
															     返回:
														
 
															         list: 依赖链列表，按执行顺序排序（从上游到下游）
														
 
															     """
														
 
															+    # 记录依赖级别
														
 
															+    logger.info(f"构建依赖链 - 起始表: {start_table}, 依赖级别: {dependency_level}")
														
 
															+    
														
 
															     # 创建有向图
														
 
															     G = nx.DiGraph()
														
@@ -248,6 +285,7 @@ def build_dependency_chain_nx(start_table, dependency_level='resource'):
 
															     # 如果只执行自己，直接返回
														
 
															     if dependency_level == 'self':
														
 
															+        logger.info(f"依赖级别为'self'，只包含起始表: {start_table}")
														
 
															         script_name = get_script_name_for_model(start_table) if table_type == 'DataModel' else get_script_name_for_resource(start_table)
														
 
															         execution_mode = get_execution_mode(start_table)
														
 
															         return [{
														
@@ -257,15 +295,21 @@ def build_dependency_chain_nx(start_table, dependency_level='resource'):
 
															             'execution_mode': execution_mode
														
 
															         }]
														
 
															+    # 判断resource级别还是source级别
														
 
															+    need_source = (dependency_level == 'source')
														
 
															+    logger.info(f"是否需要查找到Source层: {need_source}")
														
 
															+    
														
 
															     # BFS构建依赖图
														
 
															     visited = set([start_table])
														
 
															     queue = [start_table]
														
 
															     while queue:
														
 
															         current = queue.pop(0)
														
 
															+        current_type = G.nodes[current].get('type')
														
 
															+        logger.info(f"处理节点: {current}, 类型: {current_type}")
														
 
															         # 处理当前节点的上游依赖
														
 
															-        if G.nodes[current].get('type') == 'DataModel':
														
 
															+        if current_type == 'DataModel':
														
 
															             # 获取DataModel的上游依赖
														
 
															             upstream_models = get_upstream_models(current)
														
 
															             for upstream in upstream_models:
														
@@ -275,19 +319,19 @@ def build_dependency_chain_nx(start_table, dependency_level='resource'):
 
															                     queue.append(upstream)
														
 
															                 G.add_edge(current, upstream, type='model_to_model')
														
 
															-            # 获取上游DataResource
														
 
															+            # 获取上游DataResource - 对于resource和source级别都需要查找DataResource
														
 
															             upstream_resources = get_upstream_resources(current)
														
 
															             for upstream in upstream_resources:
														
 
															                 if upstream not in visited:
														
 
															                     G.add_node(upstream, type='DataResource')
														
 
															                     visited.add(upstream)
														
 
															-                    # 如果依赖级别为source并且上游是DataResource，则继续向上查找DataSource
														
 
															-                    if dependency_level == 'source':
														
 
															+                    # 只有在source级别时才继续向上查找DataSource
														
 
															+                    if need_source:
														
 
															                         queue.append(upstream)
														
 
															                 G.add_edge(current, upstream, type='model_to_resource')
														
 
															-        # 如果当前节点是DataResource且依赖级别为source，则查找上游DataSource
														
 
															-        elif G.nodes[current].get('type') == 'DataResource' and dependency_level == 'source':
														
 
															+        # 如果当前节点是DataResource，只有在source级别才查找上游DataSource
														
 
															+        elif current_type == 'DataResource' and need_source:
														
 
															             data_sources = get_data_sources(current)
														
 
															             for source in data_sources:
														
 
															                 if source not in visited:
														
@@ -295,6 +339,24 @@ def build_dependency_chain_nx(start_table, dependency_level='resource'):
 
															                     visited.add(source)
														
 
															                 G.add_edge(current, source, type='resource_to_source')
														
 
															+    # 记录依赖图节点和边信息
														
 
															+    logger.info(f"依赖图节点数: {len(G.nodes)}, 边数: {len(G.edges)}")
														
 
															+    
														
 
															+    # 在resource级别，确保不处理DataSource节点的脚本
														
 
															+    if dependency_level == 'resource':
														
 
															+        # 查找所有DataSource节点
														
 
															+        source_nodes = [node for node, attrs in G.nodes(data=True) if attrs.get('type') == 'DataSource']
														
 
															+        logger.info(f"依赖级别为'resource'，将移除 {len(source_nodes)} 个DataSource节点")
														
 
															+        
														
 
															+        # 移除所有DataSource节点
														
 
															+        for node in source_nodes:
														
 
															+            G.remove_node(node)
														
 
															+        
														
 
															+        # 重新记录依赖图信息
														
 
															+        logger.info(f"清理后依赖图节点数: {len(G.nodes)}, 边数: {len(G.edges)}")
														
 
															+    
														
 
															+    logger.info(f"依赖图节点: {list(G.nodes)}")
														
 
															+    
														
 
															     # 检测循环依赖
														
 
															     cycles = list(nx.simple_cycles(G))
														
 
															     if cycles:
														
@@ -310,6 +372,7 @@ def build_dependency_chain_nx(start_table, dependency_level='resource'):
 
															         # 我们需要的是执行顺序，所以要反转图然后进行拓扑排序
														
 
															         reverse_G = G.reverse()
														
 
															         execution_order = list(nx.topological_sort(reverse_G))
														
 
															+        logger.info(f"计算出的执行顺序: {execution_order}")
														
 
															         # 构建最终依赖链
														
 
															         dependency_chain = []
														
@@ -318,6 +381,7 @@ def build_dependency_chain_nx(start_table, dependency_level='resource'):
 
															             # 跳过DataSource节点，它们没有脚本需要执行
														
 
															             if node_type == 'DataSource':
														
 
															+                logger.info(f"跳过DataSource节点: {table_name}")
														
 
															                 continue
														
 
															             # 获取脚本和执行模式
														
@@ -334,7 +398,9 @@ def build_dependency_chain_nx(start_table, dependency_level='resource'):
 
															                 'table_type': node_type,
														
 
															                 'execution_mode': execution_mode
														
 
															             })
														
 
															+            logger.info(f"添加到依赖链: {table_name}, 类型: {node_type}")
														
 
															+        logger.info(f"最终依赖链长度: {len(dependency_chain)}")
														
 
															         return dependency_chain
														
 
															     except Exception as e:
														
@@ -402,10 +468,24 @@ def execute_scripts(scripts_list):
 
															     return success
														
 
															 def prepare_dependency_chain(**context):
														
 
															-    """准备依赖链并保存到XCom"""
														
 
															+    """
														
 
															+    准备依赖链并保存到XCom
														
 
															+    
														
 
															+    不同依赖级别的行为：
														
 
															+    - self: 只执行当前表，不查找上游依赖
														
 
															+    - resource: 仅查找数据模型依赖到Resource层，但不执行Resource层的脚本
														
 
															+    - source: 完整查找所有依赖到Source层，并执行所有相关脚本
														
 
															+    """
														
 
															     # 获取参数
														
 
															     table_name, dependency_level = get_dag_params(**context)
														
 
															+    # 记录依赖级别信息
														
 
															+    logger.info(f"依赖级别说明:")
														
 
															+    logger.info(f"- self: 只执行当前表，不查找上游依赖")
														
 
															+    logger.info(f"- resource: 仅查找数据模型依赖到Resource层，但不执行Resource层的脚本")
														
 
															+    logger.info(f"- source: 完整查找所有依赖到Source层，并执行所有相关脚本")
														
 
															+    logger.info(f"当前依赖级别: {dependency_level}")
														
 
															+    
														
 
															     # 获取依赖链
														
 
															     dependency_chain = build_dependency_chain_nx(table_name, dependency_level)
														
@@ -420,38 +500,131 @@ def prepare_dependency_chain(**context):
 
															     ti = context['ti']
														
 
															     ti.xcom_push(key='dependency_chain', value=dependency_chain)
														
 
															+    # 保存依赖级别，便于后续任务使用
														
 
															+    ti.xcom_push(key='dependency_level', value=dependency_level)
														
 
															+    
														
 
															     # 检查是否有各类型的脚本需要执行
														
 
															-    has_resource = any(item['table_type'] == 'DataResource' for item in dependency_chain)
														
 
															-    has_model = any(item['table_type'] == 'DataModel' for item in dependency_chain)
														
 
															+    resource_tables = [item for item in dependency_chain if item['table_type'] == 'DataResource']
														
 
															+    model_tables = [item for item in dependency_chain if item['table_type'] == 'DataModel']
														
 
															-    logger.info(f"是否有DataResource脚本: {has_resource}, 是否有DataModel脚本: {has_model}")
														
 
															+    has_resource = len(resource_tables) > 0
														
 
															+    has_model = len(model_tables) > 0
														
 
															+    
														
 
															+    # 处理特殊情况：如果是self级别，且起始表是DataResource
														
 
															+    if dependency_level == 'self' and not has_model and has_resource:
														
 
															+        # 确保只有一个DataResource表，而且是起始表
														
 
															+        is_start_resource = any(item['table_name'] == table_name for item in resource_tables)
														
 
															+        logger.info(f"依赖级别为'self'，起始表是DataResource: {is_start_resource}")
														
 
															+        
														
 
															+        # 额外保存标志，标记这是特殊情况
														
 
															+        ti.xcom_push(key='is_start_resource_only', value=is_start_resource)
														
 
															+    
														
 
															+    logger.info(f"是否有DataResource脚本: {has_resource}({len(resource_tables)}个), 是否有DataModel脚本: {has_model}({len(model_tables)}个)")
														
 
															     return True
														
 
															 def process_resources(**context):
														
 
															-    """处理所有DataResource层的脚本"""
														
 
															+    """
														
 
															+    处理所有DataResource层的脚本
														
 
															+    
														
 
															+    依赖级别处理策略：
														
 
															+    - self: 只有当起始表是DataResource类型时才执行
														
 
															+    - resource: 不执行任何DataResource脚本
														
 
															+    - source: 执行所有依赖链中的DataResource脚本
														
 
															+    """
														
 
															     # 获取任务间共享变量
														
 
															     ti = context['ti']
														
 
															     dependency_chain = ti.xcom_pull(task_ids='prepare_dependency_chain', key='dependency_chain')
														
 
															-    # 过滤出DataResource类型的表
														
 
															-    resource_scripts = [item for item in dependency_chain if item['table_type'] == 'DataResource']
														
 
															+    # 直接从XCom获取依赖级别，避免重复解析
														
 
															+    dependency_level = ti.xcom_pull(task_ids='prepare_dependency_chain', key='dependency_level')
														
 
															-    logger.info(f"要执行的DataResource脚本: {[item['table_name'] for item in resource_scripts]}")
														
 
															+    # 记录当前任务的依赖级别
														
 
															+    logger.info(f"process_resources任务 - 当前依赖级别: {dependency_level}")
														
 
															+    
														
 
															+    # 检查特殊标志
														
 
															+    is_start_resource_only = ti.xcom_pull(task_ids='prepare_dependency_chain', key='is_start_resource_only', default=False)
														
 
															+    
														
 
															+    # 依赖级别处理逻辑
														
 
															+    if dependency_level == 'self' and not is_start_resource_only:
														
 
															+        logger.info("依赖级别为'self'且起始表不是DataResource，跳过process_resources任务")
														
 
															+        return True
														
 
															+    elif dependency_level == 'resource':
														
 
															+        logger.info("依赖级别为'resource'，根据设计不执行DataResource表脚本")
														
 
															+        return True
														
 
															+    
														
 
															+    # 获取表名（仅在self级别需要）
														
 
															+    table_name = None
														
 
															+    if dependency_level == 'self':
														
 
															+        params = context.get('params', {})
														
 
															+        table_name = params.get('TABLE_NAME') or params.get('table_name')
														
 
															+        logger.info(f"依赖级别为'self'，目标表: {table_name}")
														
 
															+    
														
 
															+    # 根据依赖级别过滤要执行的脚本
														
 
															+    if dependency_level == 'self' and is_start_resource_only:
														
 
															+        # 特殊情况：只处理与起始表名匹配的Resource表
														
 
															+        resource_scripts = [item for item in dependency_chain if item['table_type'] == 'DataResource' and item['table_name'] == table_name]
														
 
															+        logger.info(f"依赖级别为'self'且起始表是DataResource，只处理表: {table_name}")
														
 
															+    elif dependency_level == 'source':
														
 
															+        # source级别：处理所有Resource表
														
 
															+        resource_scripts = [item for item in dependency_chain if item['table_type'] == 'DataResource']
														
 
															+        logger.info(f"依赖级别为'source'，处理所有DataResource表")
														
 
															+    else:
														
 
															+        # 其他情况，返回空列表
														
 
															+        resource_scripts = []
														
 
															+    
														
 
															+    if not resource_scripts:
														
 
															+        logger.info("没有找到DataResource类型的表需要处理")
														
 
															+        return True
														
 
															+    
														
 
															+    # 详细记录要执行的脚本信息
														
 
															+    logger.info(f"要执行的DataResource脚本数量: {len(resource_scripts)}")
														
 
															+    for idx, item in enumerate(resource_scripts, 1):
														
 
															+        logger.info(f"Resource脚本[{idx}]: 表={item['table_name']}, 脚本={item['script_name']}, 模式={item['execution_mode']}")
														
 
															     # 执行所有DataResource脚本
														
 
															     return execute_scripts(resource_scripts)
														
 
															 def process_models(**context):
														
 
															-    """处理所有DataModel层的脚本"""
														
 
															+    """
														
 
															+    处理所有DataModel层的脚本
														
 
															+    
														
 
															+    依赖级别处理策略：
														
 
															+    - self: 只执行起始表（如果是DataModel类型）
														
 
															+    - resource/source: 执行所有依赖链中的DataModel脚本
														
 
															+    """
														
 
															     # 获取任务间共享变量
														
 
															     ti = context['ti']
														
 
															     dependency_chain = ti.xcom_pull(task_ids='prepare_dependency_chain', key='dependency_chain')
														
 
															-    # 过滤出DataModel类型的表
														
 
															-    model_scripts = [item for item in dependency_chain if item['table_type'] == 'DataModel']
														
 
															+    # 直接从XCom获取依赖级别，避免重复解析
														
 
															+    dependency_level = ti.xcom_pull(task_ids='prepare_dependency_chain', key='dependency_level')
														
 
															+    
														
 
															+    # 记录当前任务的依赖级别
														
 
															+    logger.info(f"process_models任务 - 当前依赖级别: {dependency_level}")
														
 
															+    
														
 
															+    # 获取表名（在所有级别都需要）
														
 
															+    params = context.get('params', {})
														
 
															+    table_name = params.get('TABLE_NAME') or params.get('table_name')
														
 
															+    logger.info(f"目标表: {table_name}")
														
 
															+    
														
 
															+    # 如果依赖级别是'self'，只处理起始表
														
 
															+    if dependency_level == 'self':
														
 
															+        logger.info(f"依赖级别为'self'，只处理起始表: {table_name}")
														
 
															+        model_scripts = [item for item in dependency_chain if item['table_name'] == table_name and item['table_type'] == 'DataModel']
														
 
															+    else:
														
 
															+        # 否则处理所有DataModel表
														
 
															+        logger.info(f"依赖级别为'{dependency_level}'，处理所有DataModel表")
														
 
															+        model_scripts = [item for item in dependency_chain if item['table_type'] == 'DataModel']
														
 
															+    
														
 
															+    if not model_scripts:
														
 
															+        logger.info("没有找到DataModel类型的表需要处理")
														
 
															+        return True
														
 
															-    logger.info(f"要执行的DataModel脚本: {[item['table_name'] for item in model_scripts]}")
														
 
															+    # 详细记录要执行的脚本信息
														
 
															+    logger.info(f"要执行的DataModel脚本数量: {len(model_scripts)}")
														
 
															+    for idx, item in enumerate(model_scripts, 1):
														
 
															+        logger.info(f"Model脚本[{idx}]: 表={item['table_name']}, 脚本={item['script_name']}, 模式={item['execution_mode']}")
														
 
															     # 执行所有DataModel脚本
														
 
															     return execute_scripts(model_scripts)
														
@@ -460,7 +633,7 @@ def process_models(**context):
 
															 with DAG(
														
 
															     'dag_manual_dependency_trigger',
														
 
															     default_args=default_args,
														
 
															-    description='手动触发指定表的依赖链执行（使用networkx优化依赖路径）',
														
 
															+    description='手动触发指定表的依赖链执行，支持三种依赖级别：self(仅本表)、resource(到Resource层但不执行Resource)、source(完整依赖到Source层)',
														
 
															     schedule_interval=None,  # 设置为None表示只能手动触发
														
 
															     catchup=False,
														
 
															     is_paused_upon_creation=False,  # 添加这一行，使DAG创建时不处于暂停状态
														
@@ -470,7 +643,14 @@ with DAG(
 
															             'type': 'string',
														
 
															             'enum': ['self', 'resource', 'source'],
														
 
															             'default': 'resource',
														
 
															-            'description': '依赖级别: self-仅本表, resource-到Resource层, source-到Source层'
														
 
															+            'description': '依赖级别: self-仅本表, resource-到Resource层(不执行Resource脚本), source-到Source层'
														
 
															+        },
														
 
															+        # 添加旧参数名，保持兼容性
														
 
															+        'UPPER_LEVEL_STOP': {
														
 
															+            'type': 'string',
														
 
															+            'enum': ['self', 'resource', 'source'],
														
 
															+            'default': 'resource',
														
 
															+            'description': '依赖级别(旧参数名): self-仅本表, resource-到Resource层(不执行Resource脚本), source-到Source层'
														
 
															         }
														
 
															     },
														
 
															 ) as dag:
														
--- a/dags/dag_manual_trigger_chain.py
+++ b/dags/dag_manual_trigger_chain.py
@@ -1,440 +0,0 @@
 
															-# dag_manual_trigger_chain_two_level.py
														
 
															-from airflow import DAG
														
 
															-from airflow.operators.python import PythonOperator
														
 
															-from datetime import datetime, timedelta
														
 
															-import logging
														
 
															-import importlib.util
														
 
															-import os
														
 
															-from pathlib import Path
														
 
															-from neo4j import GraphDatabase
														
 
															-import psycopg2
														
 
															-from config import NEO4J_CONFIG, SCRIPTS_BASE_PATH, PG_CONFIG
														
 
															-
														
 
															-# 设置logger
														
 
															-logger = logging.getLogger(__name__)
														
 
															-
														
 
															-# DAG参数
														
 
															-default_args = {
														
 
															-    'owner': 'airflow',
														
 
															-    'depends_on_past': False,
														
 
															-    'start_date': datetime(2024, 1, 1),
														
 
															-    'email_on_failure': False,
														
 
															-    'email_on_retry': False,
														
 
															-    'retries': 1,
														
 
															-    'retry_delay': timedelta(minutes=5),
														
 
															-}
														
 
															-
														
 
															-def get_pg_conn():
														
 
															-    """获取PostgreSQL连接"""
														
 
															-    return psycopg2.connect(**PG_CONFIG)
														
 
															-
														
 
															-def get_execution_mode(table_name):
														
 
															-    """
														
 
															-    从PostgreSQL获取表的执行模式    
														
 
															-    参数:
														
 
															-        table_name (str): 表名
														
 
															-    注意：
														
 
															-        "AND is_enabled = TRUE" 这个条件在这里不适用，因为这是强制执行的。
														
 
															-        即使订阅表中没有这个表名，也会强制执行。
														
 
															-    返回:
														
 
															-        str: 执行模式，如果未找到则返回"append"作为默认值
														
 
															-    """
														
 
															-    try:
														
 
															-        conn = get_pg_conn()
														
 
															-        cursor = conn.cursor()
														
 
															-        cursor.execute("""
														
 
															-            SELECT execution_mode 
														
 
															-            FROM table_schedule 
														
 
															-            WHERE table_name = %s
														
 
															-        """, (table_name,))
														
 
															-        result = cursor.fetchone()
														
 
															-        cursor.close()
														
 
															-        conn.close()
														
 
															-        
														
 
															-        if result:
														
 
															-            return result[0]
														
 
															-        else:
														
 
															-            logger.warning(f"未找到表 {table_name} 的执行模式，使用默认值 'append'")
														
 
															-            return "append"
														
 
															-    except Exception as e:
														
 
															-        logger.error(f"获取表 {table_name} 的执行模式时出错: {str(e)}")
														
 
															-        return "append"
														
 
															-
														
 
															-def get_dag_params(**context):
														
 
															-    """获取DAG运行参数"""
														
 
															-    params = context.get('params', {})
														
 
															-    table_name = params.get('TABLE_NAME')
														
 
															-    upper_level_stop = params.get('UPPER_LEVEL_STOP', 'DataResource')  # 默认值为DataResource
														
 
															-    
														
 
															-    if not table_name:
														
 
															-        raise ValueError("必须提供TABLE_NAME参数")
														
 
															-    
														
 
															-    logger.info(f"开始处理表: {table_name}, 上游停止级别: {upper_level_stop}")
														
 
															-    return table_name, upper_level_stop
														
 
															-
														
 
															-def is_data_model_table(table_name):
														
 
															-    """判断表是否为DataModel类型"""
														
 
															-    driver = GraphDatabase.driver(
														
 
															-        NEO4J_CONFIG['uri'], 
														
 
															-        auth=(NEO4J_CONFIG['user'], NEO4J_CONFIG['password'])
														
 
															-    )
														
 
															-    query = """
														
 
															-        MATCH (n:DataModel {en_name: $table_name}) RETURN count(n) > 0 AS exists
														
 
															-    """
														
 
															-    try:
														
 
															-        with driver.session() as session:
														
 
															-            result = session.run(query, table_name=table_name)
														
 
															-            record = result.single()
														
 
															-            return record and record["exists"]
														
 
															-    finally:
														
 
															-        driver.close()
														
 
															-
														
 
															-def is_data_resource_table(table_name):
														
 
															-    """判断表是否为DataResource类型"""
														
 
															-    driver = GraphDatabase.driver(
														
 
															-        NEO4J_CONFIG['uri'], 
														
 
															-        auth=(NEO4J_CONFIG['user'], NEO4J_CONFIG['password'])
														
 
															-    )
														
 
															-    query = """
														
 
															-        MATCH (n:DataResource {en_name: $table_name}) RETURN count(n) > 0 AS exists
														
 
															-    """
														
 
															-    try:
														
 
															-        with driver.session() as session:
														
 
															-            result = session.run(query, table_name=table_name)
														
 
															-            record = result.single()
														
 
															-            return record and record["exists"]
														
 
															-    finally:
														
 
															-        driver.close()
														
 
															-
														
 
															-def get_upstream_models(table_name):
														
 
															-    """获取表的上游DataModel依赖"""
														
 
															-    driver = GraphDatabase.driver(
														
 
															-        NEO4J_CONFIG['uri'], 
														
 
															-        auth=(NEO4J_CONFIG['user'], NEO4J_CONFIG['password'])
														
 
															-    )
														
 
															-    query = """
														
 
															-        MATCH (target:DataModel {en_name: $table_name})-[:DERIVED_FROM]->(up:DataModel)
														
 
															-        RETURN up.en_name AS upstream
														
 
															-    """
														
 
															-    try:
														
 
															-        with driver.session() as session:
														
 
															-            result = session.run(query, table_name=table_name)
														
 
															-            upstream_list = [record["upstream"] for record in result]
														
 
															-            logger.info(f"表 {table_name} 的上游DataModel依赖: {upstream_list}")
														
 
															-            return upstream_list
														
 
															-    finally:
														
 
															-        driver.close()
														
 
															-
														
 
															-def get_upstream_resources(table_name):
														
 
															-    """获取表的上游DataResource依赖"""
														
 
															-    driver = GraphDatabase.driver(
														
 
															-        NEO4J_CONFIG['uri'], 
														
 
															-        auth=(NEO4J_CONFIG['user'], NEO4J_CONFIG['password'])
														
 
															-    )
														
 
															-    query = """
														
 
															-        MATCH (target:DataModel {en_name: $table_name})-[:DERIVED_FROM]->(up:DataResource)
														
 
															-        RETURN up.en_name AS upstream
														
 
															-    """
														
 
															-    try:
														
 
															-        with driver.session() as session:
														
 
															-            result = session.run(query, table_name=table_name)
														
 
															-            upstream_list = [record["upstream"] for record in result]
														
 
															-            logger.info(f"表 {table_name} 的上游DataResource依赖: {upstream_list}")
														
 
															-            return upstream_list
														
 
															-    finally:
														
 
															-        driver.close()
														
 
															-
														
 
															-def get_data_sources(resource_table_name):
														
 
															-    """获取DataResource表的上游DataSource"""
														
 
															-    driver = GraphDatabase.driver(
														
 
															-        NEO4J_CONFIG['uri'], 
														
 
															-        auth=(NEO4J_CONFIG['user'], NEO4J_CONFIG['password'])
														
 
															-    )
														
 
															-    query = """
														
 
															-        MATCH (dr:DataResource {en_name: $table_name})-[:ORIGINATES_FROM]->(ds:DataSource)
														
 
															-        RETURN ds.en_name AS source_name
														
 
															-    """
														
 
															-    try:
														
 
															-        with driver.session() as session:
														
 
															-            result = session.run(query, table_name=resource_table_name)
														
 
															-            return [record["source_name"] for record in result]
														
 
															-    finally:
														
 
															-        driver.close()
														
 
															-
														
 
															-def get_script_name_for_model(table_name):
														
 
															-    """获取DataModel表对应的脚本名称"""
														
 
															-    driver = GraphDatabase.driver(
														
 
															-        NEO4J_CONFIG['uri'], 
														
 
															-        auth=(NEO4J_CONFIG['user'], NEO4J_CONFIG['password'])
														
 
															-    )
														
 
															-    query = """
														
 
															-        MATCH (target:DataModel {en_name: $table_name})-[r:DERIVED_FROM]->(n)
														
 
															-        WHERE n:DataModel OR n:DataResource
														
 
															-        RETURN r.script_name AS script_name
														
 
															-    """
														
 
															-    try:
														
 
															-        with driver.session() as session:
														
 
															-            result = session.run(query, table_name=table_name)
														
 
															-            record = result.single()
														
 
															-            if record:
														
 
															-                return record["script_name"]
														
 
															-            else:
														
 
															-                logger.warning(f"未找到DataModel表 {table_name} 的脚本名称")
														
 
															-                return None
														
 
															-    except Exception as e:
														
 
															-        logger.error(f"查询表 {table_name} 的脚本名称时出错: {str(e)}")
														
 
															-        return None
														
 
															-    finally:
														
 
															-        driver.close()
														
 
															-
														
 
															-def get_script_name_for_resource(table_name):
														
 
															-    """获取DataResource表对应的脚本名称"""
														
 
															-    driver = GraphDatabase.driver(
														
 
															-        NEO4J_CONFIG['uri'], 
														
 
															-        auth=(NEO4J_CONFIG['user'], NEO4J_CONFIG['password'])
														
 
															-    )
														
 
															-    query = """
														
 
															-        MATCH (dr:DataResource {en_name: $table_name})-[rel:ORIGINATES_FROM]->(ds:DataSource)
														
 
															-        RETURN rel.script_name AS script_name
														
 
															-    """
														
 
															-    try:
														
 
															-        with driver.session() as session:
														
 
															-            result = session.run(query, table_name=table_name)
														
 
															-            record = result.single()
														
 
															-            if record:
														
 
															-                return record["script_name"]
														
 
															-            else:
														
 
															-                logger.warning(f"未找到DataResource表 {table_name} 的脚本名称")
														
 
															-                return None
														
 
															-    except Exception as e:
														
 
															-        logger.error(f"查询表 {table_name} 的脚本名称时出错: {str(e)}")
														
 
															-        return None
														
 
															-    finally:
														
 
															-        driver.close()
														
 
															-
														
 
															-def build_dependency_chain(start_table, upper_level_stop='DataResource', visited=None):
														
 
															-    """
														
 
															-    递归构建依赖链
														
 
															-    
														
 
															-    参数:
														
 
															-        start_table (str): 起始表名
														
 
															-        upper_level_stop (str): 上游停止级别
														
 
															-        visited (set): 已访问的表集合，避免循环依赖
														
 
															-        
														
 
															-    返回:
														
 
															-        list: 依赖链列表，按执行顺序排序（从上游到下游）
														
 
															-    """
														
 
															-    if visited is None:
														
 
															-        visited = set()
														
 
															-    
														
 
															-    if start_table in visited:
														
 
															-        return []
														
 
															-    
														
 
															-    visited.add(start_table)
														
 
															-    dependency_chain = []
														
 
															-    
														
 
															-    # 判断表类型
														
 
															-    if is_data_model_table(start_table):
														
 
															-        # 处理DataModel表
														
 
															-        script_name = get_script_name_for_model(start_table)
														
 
															-        execution_mode = get_execution_mode(start_table)
														
 
															-        
														
 
															-        # 获取上游DataModel
														
 
															-        upstream_models = get_upstream_models(start_table)
														
 
															-        for upstream in upstream_models:
														
 
															-            # 将上游依赖添加到链条前面
														
 
															-            upstream_chain = build_dependency_chain(upstream, upper_level_stop, visited)
														
 
															-            dependency_chain.extend(upstream_chain)
														
 
															-        
														
 
															-        # 获取上游DataResource
														
 
															-        upstream_resources = get_upstream_resources(start_table)
														
 
															-        for upstream in upstream_resources:
														
 
															-            # 将上游依赖添加到链条前面
														
 
															-            upstream_chain = build_dependency_chain(upstream, upper_level_stop, visited)
														
 
															-            dependency_chain.extend(upstream_chain)
														
 
															-        
														
 
															-        # 当前表添加到链条末尾
														
 
															-        dependency_chain.append({
														
 
															-            'table_name': start_table,
														
 
															-            'script_name': script_name,
														
 
															-            'table_type': 'DataModel',
														
 
															-            'execution_mode': execution_mode
														
 
															-        })
														
 
															-        
														
 
															-    elif is_data_resource_table(start_table):
														
 
															-        # 处理DataResource表
														
 
															-        script_name = get_script_name_for_resource(start_table)
														
 
															-        execution_mode = get_execution_mode(start_table)
														
 
															-        
														
 
															-        # 如果上游停止级别为DataSource，则继续查找DataSource并先添加
														
 
															-        if upper_level_stop == 'DataSource':
														
 
															-            data_sources = get_data_sources(start_table)
														
 
															-            for source in data_sources:
														
 
															-                dependency_chain.append({
														
 
															-                    'table_name': source,
														
 
															-                    'script_name': None,  # DataSource没有脚本
														
 
															-                    'table_type': 'DataSource',
														
 
															-                    'execution_mode': None
														
 
															-                })
														
 
															-        
														
 
															-        # 当前DataResource表添加到链条末尾
														
 
															-        dependency_chain.append({
														
 
															-            'table_name': start_table,
														
 
															-            'script_name': script_name,
														
 
															-            'table_type': 'DataResource',
														
 
															-            'execution_mode': execution_mode
														
 
															-        })
														
 
															-    
														
 
															-    return dependency_chain
														
 
															-
														
 
															-def execute_scripts(scripts_list):
														
 
															-    """
														
 
															-    执行指定的脚本列表
														
 
															-    
														
 
															-    参数:
														
 
															-        scripts_list (list): 要执行的脚本信息列表，每项包含table_name, script_name, execution_mode
														
 
															-        
														
 
															-    返回:
														
 
															-        bool: 全部执行成功返回True，任一失败返回False
														
 
															-    """
														
 
															-    if not scripts_list:
														
 
															-        logger.info("没有脚本需要执行")
														
 
															-        return True
														
 
															-    
														
 
															-    success = True
														
 
															-    for item in scripts_list:
														
 
															-        script_name = item['script_name']
														
 
															-        table_name = item['table_name']
														
 
															-        execution_mode = item['execution_mode']
														
 
															-        
														
 
															-        if not script_name:
														
 
															-            logger.warning(f"表 {table_name} 没有对应的脚本，跳过执行")
														
 
															-            continue
														
 
															-        
														
 
															-        logger.info(f"执行脚本: {script_name}, 表: {table_name}, 模式: {execution_mode}")
														
 
															-        
														
 
															-        try:
														
 
															-            script_path = Path(SCRIPTS_BASE_PATH) / script_name
														
 
															-            
														
 
															-            if not os.path.exists(script_path):
														
 
															-                logger.error(f"脚本文件不存在: {script_path}")
														
 
															-                success = False
														
 
															-                break
														
 
															-            
														
 
															-            # 动态导入模块
														
 
															-            spec = importlib.util.spec_from_file_location("dynamic_module", script_path)
														
 
															-            module = importlib.util.module_from_spec(spec)
														
 
															-            spec.loader.exec_module(module)
														
 
															-            
														
 
															-            # 使用标准入口函数run
														
 
															-            if hasattr(module, "run"):
														
 
															-                logger.info(f"执行脚本 {script_name} 的标准入口函数 run()")
														
 
															-                result = module.run(table_name=table_name, execution_mode=execution_mode)
														
 
															-                if result:
														
 
															-                    logger.info(f"脚本 {script_name} 执行成功")
														
 
															-                else:
														
 
															-                    logger.error(f"脚本 {script_name} 执行失败")
														
 
															-                    success = False
														
 
															-                    break
														
 
															-            else:
														
 
															-                logger.warning(f"脚本 {script_name} 未定义标准入口函数 run()，无法执行")
														
 
															-                success = False
														
 
															-                break
														
 
															-        except Exception as e:
														
 
															-            logger.error(f"执行脚本 {script_name} 时出错: {str(e)}")
														
 
															-            success = False
														
 
															-            break
														
 
															-    
														
 
															-    return success
														
 
															-
														
 
															-def prepare_dependency_chain(**context):
														
 
															-    """准备依赖链并保存到XCom"""
														
 
															-    # 获取参数
														
 
															-    table_name, upper_level_stop = get_dag_params(**context)
														
 
															-    
														
 
															-    # 获取依赖链
														
 
															-    dependency_chain = build_dependency_chain(table_name, upper_level_stop)
														
 
															-    
														
 
															-    if not dependency_chain:
														
 
															-        logger.warning(f"没有找到表 {table_name} 的依赖链")
														
 
															-        return False
														
 
															-    
														
 
															-    # 记录完整依赖链
														
 
															-    logger.info(f"依赖链完整列表: {[item['table_name'] for item in dependency_chain]}")
														
 
															-    
														
 
															-    # 过滤掉DataSource类型（它们没有脚本需要执行）
														
 
															-    dependency_chain = [item for item in dependency_chain if item['table_type'] != 'DataSource']
														
 
															-    
														
 
															-    # 保存依赖链到XCom以便后续任务使用
														
 
															-    ti = context['ti']
														
 
															-    ti.xcom_push(key='dependency_chain', value=dependency_chain)
														
 
															-    
														
 
															-    # 检查是否有各类型的脚本需要执行
														
 
															-    has_resource = any(item['table_type'] == 'DataResource' for item in dependency_chain)
														
 
															-    has_model = any(item['table_type'] == 'DataModel' for item in dependency_chain)
														
 
															-    
														
 
															-    logger.info(f"是否有DataResource脚本: {has_resource}, 是否有DataModel脚本: {has_model}")
														
 
															-    
														
 
															-    return True
														
 
															-
														
 
															-def process_resources(**context):
														
 
															-    """处理所有DataResource层的脚本"""
														
 
															-    # 获取任务间共享变量
														
 
															-    ti = context['ti']
														
 
															-    dependency_chain = ti.xcom_pull(task_ids='prepare_dependency_chain', key='dependency_chain')
														
 
															-    
														
 
															-    # 过滤出DataResource类型的表
														
 
															-    resource_scripts = [item for item in dependency_chain if item['table_type'] == 'DataResource']
														
 
															-    
														
 
															-    logger.info(f"要执行的DataResource脚本: {[item['table_name'] for item in resource_scripts]}")
														
 
															-    
														
 
															-    # 执行所有DataResource脚本
														
 
															-    return execute_scripts(resource_scripts)
														
 
															-
														
 
															-def process_models(**context):
														
 
															-    """处理所有DataModel层的脚本"""
														
 
															-    # 获取任务间共享变量
														
 
															-    ti = context['ti']
														
 
															-    dependency_chain = ti.xcom_pull(task_ids='prepare_dependency_chain', key='dependency_chain')
														
 
															-    
														
 
															-    # 过滤出DataModel类型的表
														
 
															-    model_scripts = [item for item in dependency_chain if item['table_type'] == 'DataModel']
														
 
															-    
														
 
															-    logger.info(f"要执行的DataModel脚本: {[item['table_name'] for item in model_scripts]}")
														
 
															-    
														
 
															-    # 执行所有DataModel脚本
														
 
															-    return execute_scripts(model_scripts)
														
 
															-
														
 
															-# 创建DAG
														
 
															-with DAG(
														
 
															-    'dag_manual_trigger_chain',
														
 
															-    default_args=default_args,
														
 
															-    description='手动触发指定表的依赖链执行（两级任务）',
														
 
															-    schedule_interval=None,  # 设置为None表示只能手动触发
														
 
															-    catchup=False,
														
 
															-    is_paused_upon_creation=False,  # 添加这一行，使DAG创建时不处于暂停状态
														
 
															-) as dag:
														
 
															-    
														
 
															-    # 第一个任务：准备依赖链
														
 
															-    prepare_task = PythonOperator(
														
 
															-        task_id='prepare_dependency_chain',
														
 
															-        python_callable=prepare_dependency_chain,
														
 
															-        provide_context=True,
														
 
															-    )
														
 
															-    
														
 
															-    # 第二个任务：执行DataResource脚本
														
 
															-    resource_task = PythonOperator(
														
 
															-        task_id='process_resources',
														
 
															-        python_callable=process_resources,
														
 
															-        provide_context=True,
														
 
															-    )
														
 
															-    
														
 
															-    # 第三个任务：执行DataModel脚本
														
 
															-    model_task = PythonOperator(
														
 
															-        task_id='process_models',
														
 
															-        python_callable=process_models,
														
 
															-        provide_context=True,
														
 
															-    )
														
 
															-    
														
 
															-    # 设置任务依赖关系
														
 
															-    prepare_task >> resource_task >> model_task
														
--- a/dags/dag_manual_trigger_chain_nx.py
+++ b/dags/dag_manual_trigger_chain_nx.py
@@ -1,500 +0,0 @@
 
															-# dag_manual_dependency_trigger.py
														
 
															-from airflow import DAG
														
 
															-from airflow.operators.python import PythonOperator
														
 
															-from datetime import datetime, timedelta
														
 
															-import logging
														
 
															-import importlib.util
														
 
															-import os
														
 
															-from pathlib import Path
														
 
															-from neo4j import GraphDatabase
														
 
															-import psycopg2
														
 
															-import networkx as nx
														
 
															-from config import NEO4J_CONFIG, SCRIPTS_BASE_PATH, PG_CONFIG
														
 
															-
														
 
															-# 设置logger
														
 
															-logger = logging.getLogger(__name__)
														
 
															-
														
 
															-# DAG参数
														
 
															-default_args = {
														
 
															-    'owner': 'airflow',
														
 
															-    'depends_on_past': False,
														
 
															-    'start_date': datetime(2024, 1, 1),
														
 
															-    'email_on_failure': False,
														
 
															-    'email_on_retry': False,
														
 
															-    'retries': 1,
														
 
															-    'retry_delay': timedelta(minutes=5),
														
 
															-}
														
 
															-
														
 
															-def get_pg_conn():
														
 
															-    """获取PostgreSQL连接"""
														
 
															-    return psycopg2.connect(**PG_CONFIG)
														
 
															-
														
 
															-def get_execution_mode(table_name):
														
 
															-    """
														
 
															-    从PostgreSQL获取表的执行模式    
														
 
															-    参数:
														
 
															-        table_name (str): 表名
														
 
															-    注意：
														
 
															-        "AND is_enabled = TRUE" 这个条件在这里不适用，因为这是强制执行的。
														
 
															-        即使订阅表中没有这个表名，也会强制执行。
														
 
															-    返回:
														
 
															-        str: 执行模式，如果未找到则返回"append"作为默认值
														
 
															-    """
														
 
															-    try:
														
 
															-        conn = get_pg_conn()
														
 
															-        cursor = conn.cursor()
														
 
															-        cursor.execute("""
														
 
															-            SELECT execution_mode 
														
 
															-            FROM table_schedule 
														
 
															-            WHERE table_name = %s
														
 
															-        """, (table_name,))
														
 
															-        result = cursor.fetchone()
														
 
															-        cursor.close()
														
 
															-        conn.close()
														
 
															-        
														
 
															-        if result:
														
 
															-            return result[0]
														
 
															-        else:
														
 
															-            logger.warning(f"未找到表 {table_name} 的执行模式，使用默认值 'append'")
														
 
															-            return "append"
														
 
															-    except Exception as e:
														
 
															-        logger.error(f"获取表 {table_name} 的执行模式时出错: {str(e)}")
														
 
															-        return "append"
														
 
															-
														
 
															-def get_dag_params(**context):
														
 
															-    """获取DAG运行参数"""
														
 
															-    params = context.get('params', {})
														
 
															-    table_name = params.get('TABLE_NAME')
														
 
															-    dependency_level = params.get('DEPENDENCY_LEVEL', 'resource')  # 默认值为resource
														
 
															-    
														
 
															-    if not table_name:
														
 
															-        raise ValueError("必须提供TABLE_NAME参数")
														
 
															-    
														
 
															-    # 验证dependency_level参数
														
 
															-    if dependency_level not in ['self', 'resource', 'source']:
														
 
															-        logger.warning(f"无效的DEPENDENCY_LEVEL参数: {dependency_level}，使用默认值'resource'")
														
 
															-        dependency_level = 'resource'
														
 
															-    
														
 
															-    logger.info(f"开始处理表: {table_name}, 依赖级别: {dependency_level}")
														
 
															-    return table_name, dependency_level
														
 
															-
														
 
															-def is_data_model_table(table_name):
														
 
															-    """判断表是否为DataModel类型"""
														
 
															-    driver = GraphDatabase.driver(
														
 
															-        NEO4J_CONFIG['uri'], 
														
 
															-        auth=(NEO4J_CONFIG['user'], NEO4J_CONFIG['password'])
														
 
															-    )
														
 
															-    query = """
														
 
															-        MATCH (n:DataModel {en_name: $table_name}) RETURN count(n) > 0 AS exists
														
 
															-    """
														
 
															-    try:
														
 
															-        with driver.session() as session:
														
 
															-            result = session.run(query, table_name=table_name)
														
 
															-            record = result.single()
														
 
															-            return record and record["exists"]
														
 
															-    finally:
														
 
															-        driver.close()
														
 
															-
														
 
															-def is_data_resource_table(table_name):
														
 
															-    """判断表是否为DataResource类型"""
														
 
															-    driver = GraphDatabase.driver(
														
 
															-        NEO4J_CONFIG['uri'], 
														
 
															-        auth=(NEO4J_CONFIG['user'], NEO4J_CONFIG['password'])
														
 
															-    )
														
 
															-    query = """
														
 
															-        MATCH (n:DataResource {en_name: $table_name}) RETURN count(n) > 0 AS exists
														
 
															-    """
														
 
															-    try:
														
 
															-        with driver.session() as session:
														
 
															-            result = session.run(query, table_name=table_name)
														
 
															-            record = result.single()
														
 
															-            return record and record["exists"]
														
 
															-    finally:
														
 
															-        driver.close()
														
 
															-
														
 
															-def get_upstream_models(table_name):
														
 
															-    """获取表的上游DataModel依赖"""
														
 
															-    driver = GraphDatabase.driver(
														
 
															-        NEO4J_CONFIG['uri'], 
														
 
															-        auth=(NEO4J_CONFIG['user'], NEO4J_CONFIG['password'])
														
 
															-    )
														
 
															-    query = """
														
 
															-        MATCH (target:DataModel {en_name: $table_name})-[:DERIVED_FROM]->(up:DataModel)
														
 
															-        RETURN up.en_name AS upstream
														
 
															-    """
														
 
															-    try:
														
 
															-        with driver.session() as session:
														
 
															-            result = session.run(query, table_name=table_name)
														
 
															-            upstream_list = [record["upstream"] for record in result]
														
 
															-            logger.info(f"表 {table_name} 的上游DataModel依赖: {upstream_list}")
														
 
															-            return upstream_list
														
 
															-    finally:
														
 
															-        driver.close()
														
 
															-
														
 
															-def get_upstream_resources(table_name):
														
 
															-    """获取表的上游DataResource依赖"""
														
 
															-    driver = GraphDatabase.driver(
														
 
															-        NEO4J_CONFIG['uri'], 
														
 
															-        auth=(NEO4J_CONFIG['user'], NEO4J_CONFIG['password'])
														
 
															-    )
														
 
															-    query = """
														
 
															-        MATCH (target:DataModel {en_name: $table_name})-[:DERIVED_FROM]->(up:DataResource)
														
 
															-        RETURN up.en_name AS upstream
														
 
															-    """
														
 
															-    try:
														
 
															-        with driver.session() as session:
														
 
															-            result = session.run(query, table_name=table_name)
														
 
															-            upstream_list = [record["upstream"] for record in result]
														
 
															-            logger.info(f"表 {table_name} 的上游DataResource依赖: {upstream_list}")
														
 
															-            return upstream_list
														
 
															-    finally:
														
 
															-        driver.close()
														
 
															-
														
 
															-def get_data_sources(resource_table_name):
														
 
															-    """获取DataResource表的上游DataSource"""
														
 
															-    driver = GraphDatabase.driver(
														
 
															-        NEO4J_CONFIG['uri'], 
														
 
															-        auth=(NEO4J_CONFIG['user'], NEO4J_CONFIG['password'])
														
 
															-    )
														
 
															-    query = """
														
 
															-        MATCH (dr:DataResource {en_name: $table_name})-[:ORIGINATES_FROM]->(ds:DataSource)
														
 
															-        RETURN ds.en_name AS source_name
														
 
															-    """
														
 
															-    try:
														
 
															-        with driver.session() as session:
														
 
															-            result = session.run(query, table_name=resource_table_name)
														
 
															-            return [record["source_name"] for record in result]
														
 
															-    finally:
														
 
															-        driver.close()
														
 
															-
														
 
															-def get_script_name_for_model(table_name):
														
 
															-    """获取DataModel表对应的脚本名称"""
														
 
															-    driver = GraphDatabase.driver(
														
 
															-        NEO4J_CONFIG['uri'], 
														
 
															-        auth=(NEO4J_CONFIG['user'], NEO4J_CONFIG['password'])
														
 
															-    )
														
 
															-    query = """
														
 
															-        MATCH (target:DataModel {en_name: $table_name})-[r:DERIVED_FROM]->(n)
														
 
															-        WHERE n:DataModel OR n:DataResource
														
 
															-        RETURN r.script_name AS script_name
														
 
															-    """
														
 
															-    try:
														
 
															-        with driver.session() as session:
														
 
															-            result = session.run(query, table_name=table_name)
														
 
															-            record = result.single()
														
 
															-            if record:
														
 
															-                return record["script_name"]
														
 
															-            else:
														
 
															-                logger.warning(f"未找到DataModel表 {table_name} 的脚本名称")
														
 
															-                return None
														
 
															-    except Exception as e:
														
 
															-        logger.error(f"查询表 {table_name} 的脚本名称时出错: {str(e)}")
														
 
															-        return None
														
 
															-    finally:
														
 
															-        driver.close()
														
 
															-
														
 
															-def get_script_name_for_resource(table_name):
														
 
															-    """获取DataResource表对应的脚本名称"""
														
 
															-    driver = GraphDatabase.driver(
														
 
															-        NEO4J_CONFIG['uri'], 
														
 
															-        auth=(NEO4J_CONFIG['user'], NEO4J_CONFIG['password'])
														
 
															-    )
														
 
															-    query = """
														
 
															-        MATCH (dr:DataResource {en_name: $table_name})-[rel:ORIGINATES_FROM]->(ds:DataSource)
														
 
															-        RETURN rel.script_name AS script_name
														
 
															-    """
														
 
															-    try:
														
 
															-        with driver.session() as session:
														
 
															-            result = session.run(query, table_name=table_name)
														
 
															-            record = result.single()
														
 
															-            if record:
														
 
															-                return record["script_name"]
														
 
															-            else:
														
 
															-                logger.warning(f"未找到DataResource表 {table_name} 的脚本名称")
														
 
															-                return None
														
 
															-    except Exception as e:
														
 
															-        logger.error(f"查询表 {table_name} 的脚本名称时出错: {str(e)}")
														
 
															-        return None
														
 
															-    finally:
														
 
															-        driver.close()
														
 
															-
														
 
															-def build_dependency_chain_nx(start_table, dependency_level='resource'):
														
 
															-    """
														
 
															-    使用networkx构建依赖链
														
 
															-    
														
 
															-    参数:
														
 
															-        start_table (str): 起始表名
														
 
															-        dependency_level (str): 依赖级别
														
 
															-            - 'self': 只执行自己
														
 
															-            - 'resource': 到Resource层 (默认)
														
 
															-            - 'source': 到Source层
														
 
															-        
														
 
															-    返回:
														
 
															-        list: 依赖链列表，按执行顺序排序（从上游到下游）
														
 
															-    """
														
 
															-    # 创建有向图
														
 
															-    G = nx.DiGraph()
														
 
															-    
														
 
															-    # 设置起始节点属性
														
 
															-    if is_data_model_table(start_table):
														
 
															-        G.add_node(start_table, type='DataModel')
														
 
															-        table_type = 'DataModel'
														
 
															-    elif is_data_resource_table(start_table):
														
 
															-        G.add_node(start_table, type='DataResource')
														
 
															-        table_type = 'DataResource'
														
 
															-    else:
														
 
															-        logger.warning(f"表 {start_table} 不是DataModel或DataResource类型")
														
 
															-        return []
														
 
															-    
														
 
															-    # 如果只执行自己，直接返回
														
 
															-    if dependency_level == 'self':
														
 
															-        script_name = get_script_name_for_model(start_table) if table_type == 'DataModel' else get_script_name_for_resource(start_table)
														
 
															-        execution_mode = get_execution_mode(start_table)
														
 
															-        return [{
														
 
															-            'table_name': start_table,
														
 
															-            'script_name': script_name,
														
 
															-            'table_type': table_type,
														
 
															-            'execution_mode': execution_mode
														
 
															-        }]
														
 
															-    
														
 
															-    # BFS构建依赖图
														
 
															-    visited = set([start_table])
														
 
															-    queue = [start_table]
														
 
															-    
														
 
															-    while queue:
														
 
															-        current = queue.pop(0)
														
 
															-        
														
 
															-        # 处理当前节点的上游依赖
														
 
															-        if G.nodes[current].get('type') == 'DataModel':
														
 
															-            # 获取DataModel的上游依赖
														
 
															-            upstream_models = get_upstream_models(current)
														
 
															-            for upstream in upstream_models:
														
 
															-                if upstream not in visited:
														
 
															-                    G.add_node(upstream, type='DataModel')
														
 
															-                    visited.add(upstream)
														
 
															-                    queue.append(upstream)
														
 
															-                G.add_edge(current, upstream, type='model_to_model')
														
 
															-            
														
 
															-            # 获取上游DataResource
														
 
															-            upstream_resources = get_upstream_resources(current)
														
 
															-            for upstream in upstream_resources:
														
 
															-                if upstream not in visited:
														
 
															-                    G.add_node(upstream, type='DataResource')
														
 
															-                    visited.add(upstream)
														
 
															-                    # 如果依赖级别为source并且上游是DataResource，则继续向上查找DataSource
														
 
															-                    if dependency_level == 'source':
														
 
															-                        queue.append(upstream)
														
 
															-                G.add_edge(current, upstream, type='model_to_resource')
														
 
															-        
														
 
															-        # 如果当前节点是DataResource且依赖级别为source，则查找上游DataSource
														
 
															-        elif G.nodes[current].get('type') == 'DataResource' and dependency_level == 'source':
														
 
															-            data_sources = get_data_sources(current)
														
 
															-            for source in data_sources:
														
 
															-                if source not in visited:
														
 
															-                    G.add_node(source, type='DataSource')
														
 
															-                    visited.add(source)
														
 
															-                G.add_edge(current, source, type='resource_to_source')
														
 
															-    
														
 
															-    # 检测循环依赖
														
 
															-    cycles = list(nx.simple_cycles(G))
														
 
															-    if cycles:
														
 
															-        logger.warning(f"检测到循环依赖，将尝试打破循环: {cycles}")
														
 
															-        # 打破循环依赖（简单策略：移除每个循环中的一条边）
														
 
															-        for cycle in cycles:
														
 
															-            G.remove_edge(cycle[-1], cycle[0])
														
 
															-            logger.info(f"打破循环依赖: 移除 {cycle[-1]} -> {cycle[0]} 的依赖")
														
 
															-    
														
 
															-    # 生成拓扑排序（从上游到下游的顺序）
														
 
															-    try:
														
 
															-        # 注意：拓扑排序给出的是从上游到下游的顺序
														
 
															-        # 我们需要的是执行顺序，所以要反转图然后进行拓扑排序
														
 
															-        reverse_G = G.reverse()
														
 
															-        execution_order = list(nx.topological_sort(reverse_G))
														
 
															-        
														
 
															-        # 构建最终依赖链
														
 
															-        dependency_chain = []
														
 
															-        for table_name in execution_order:
														
 
															-            node_type = G.nodes[table_name].get('type')
														
 
															-            
														
 
															-            # 跳过DataSource节点，它们没有脚本需要执行
														
 
															-            if node_type == 'DataSource':
														
 
															-                continue
														
 
															-            
														
 
															-            # 获取脚本和执行模式
														
 
															-            if node_type == 'DataModel':
														
 
															-                script_name = get_script_name_for_model(table_name)
														
 
															-            else:  # DataResource
														
 
															-                script_name = get_script_name_for_resource(table_name)
														
 
															-            
														
 
															-            execution_mode = get_execution_mode(table_name)
														
 
															-            
														
 
															-            dependency_chain.append({
														
 
															-                'table_name': table_name,
														
 
															-                'script_name': script_name,
														
 
															-                'table_type': node_type,
														
 
															-                'execution_mode': execution_mode
														
 
															-            })
														
 
															-        
														
 
															-        return dependency_chain
														
 
															-    
														
 
															-    except Exception as e:
														
 
															-        logger.error(f"生成拓扑排序时出错: {str(e)}")
														
 
															-        return []
														
 
															-
														
 
															-def execute_scripts(scripts_list):
														
 
															-    """
														
 
															-    执行指定的脚本列表
														
 
															-    
														
 
															-    参数:
														
 
															-        scripts_list (list): 要执行的脚本信息列表，每项包含table_name, script_name, execution_mode
														
 
															-        
														
 
															-    返回:
														
 
															-        bool: 全部执行成功返回True，任一失败返回False
														
 
															-    """
														
 
															-    if not scripts_list:
														
 
															-        logger.info("没有脚本需要执行")
														
 
															-        return True
														
 
															-    
														
 
															-    success = True
														
 
															-    for item in scripts_list:
														
 
															-        script_name = item['script_name']
														
 
															-        table_name = item['table_name']
														
 
															-        execution_mode = item['execution_mode']
														
 
															-        
														
 
															-        if not script_name:
														
 
															-            logger.warning(f"表 {table_name} 没有对应的脚本，跳过执行")
														
 
															-            continue
														
 
															-        
														
 
															-        logger.info(f"执行脚本: {script_name}, 表: {table_name}, 模式: {execution_mode}")
														
 
															-        
														
 
															-        try:
														
 
															-            script_path = Path(SCRIPTS_BASE_PATH) / script_name
														
 
															-            
														
 
															-            if not os.path.exists(script_path):
														
 
															-                logger.error(f"脚本文件不存在: {script_path}")
														
 
															-                success = False
														
 
															-                break
														
 
															-            
														
 
															-            # 动态导入模块
														
 
															-            spec = importlib.util.spec_from_file_location("dynamic_module", script_path)
														
 
															-            module = importlib.util.module_from_spec(spec)
														
 
															-            spec.loader.exec_module(module)
														
 
															-            
														
 
															-            # 使用标准入口函数run
														
 
															-            if hasattr(module, "run"):
														
 
															-                logger.info(f"执行脚本 {script_name} 的标准入口函数 run()")
														
 
															-                result = module.run(table_name=table_name, execution_mode=execution_mode)
														
 
															-                if result:
														
 
															-                    logger.info(f"脚本 {script_name} 执行成功")
														
 
															-                else:
														
 
															-                    logger.error(f"脚本 {script_name} 执行失败")
														
 
															-                    success = False
														
 
															-                    break
														
 
															-            else:
														
 
															-                logger.warning(f"脚本 {script_name} 未定义标准入口函数 run()，无法执行")
														
 
															-                success = False
														
 
															-                break
														
 
															-        except Exception as e:
														
 
															-            logger.error(f"执行脚本 {script_name} 时出错: {str(e)}")
														
 
															-            success = False
														
 
															-            break
														
 
															-    
														
 
															-    return success
														
 
															-
														
 
															-def prepare_dependency_chain(**context):
														
 
															-    """准备依赖链并保存到XCom"""
														
 
															-    # 获取参数
														
 
															-    table_name, dependency_level = get_dag_params(**context)
														
 
															-    
														
 
															-    # 获取依赖链
														
 
															-    dependency_chain = build_dependency_chain_nx(table_name, dependency_level)
														
 
															-    
														
 
															-    if not dependency_chain:
														
 
															-        logger.warning(f"没有找到表 {table_name} 的依赖链")
														
 
															-        return False
														
 
															-    
														
 
															-    # 记录完整依赖链
														
 
															-    logger.info(f"依赖链完整列表: {[item['table_name'] for item in dependency_chain]}")
														
 
															-    
														
 
															-    # 保存依赖链到XCom以便后续任务使用
														
 
															-    ti = context['ti']
														
 
															-    ti.xcom_push(key='dependency_chain', value=dependency_chain)
														
 
															-    
														
 
															-    # 检查是否有各类型的脚本需要执行
														
 
															-    has_resource = any(item['table_type'] == 'DataResource' for item in dependency_chain)
														
 
															-    has_model = any(item['table_type'] == 'DataModel' for item in dependency_chain)
														
 
															-    
														
 
															-    logger.info(f"是否有DataResource脚本: {has_resource}, 是否有DataModel脚本: {has_model}")
														
 
															-    
														
 
															-    return True
														
 
															-
														
 
															-def process_resources(**context):
														
 
															-    """处理所有DataResource层的脚本"""
														
 
															-    # 获取任务间共享变量
														
 
															-    ti = context['ti']
														
 
															-    dependency_chain = ti.xcom_pull(task_ids='prepare_dependency_chain', key='dependency_chain')
														
 
															-    
														
 
															-    # 过滤出DataResource类型的表
														
 
															-    resource_scripts = [item for item in dependency_chain if item['table_type'] == 'DataResource']
														
 
															-    
														
 
															-    logger.info(f"要执行的DataResource脚本: {[item['table_name'] for item in resource_scripts]}")
														
 
															-    
														
 
															-    # 执行所有DataResource脚本
														
 
															-    return execute_scripts(resource_scripts)
														
 
															-
														
 
															-def process_models(**context):
														
 
															-    """处理所有DataModel层的脚本"""
														
 
															-    # 获取任务间共享变量
														
 
															-    ti = context['ti']
														
 
															-    dependency_chain = ti.xcom_pull(task_ids='prepare_dependency_chain', key='dependency_chain')
														
 
															-    
														
 
															-    # 过滤出DataModel类型的表
														
 
															-    model_scripts = [item for item in dependency_chain if item['table_type'] == 'DataModel']
														
 
															-    
														
 
															-    logger.info(f"要执行的DataModel脚本: {[item['table_name'] for item in model_scripts]}")
														
 
															-    
														
 
															-    # 执行所有DataModel脚本
														
 
															-    return execute_scripts(model_scripts)
														
 
															-
														
 
															-# 创建DAG
														
 
															-with DAG(
														
 
															-    'dag_manual_dependency_trigger',
														
 
															-    default_args=default_args,
														
 
															-    description='手动触发指定表的依赖链执行（使用networkx优化依赖路径）',
														
 
															-    schedule_interval=None,  # 设置为None表示只能手动触发
														
 
															-    catchup=False,
														
 
															-    is_paused_upon_creation=False,  # 添加这一行，使DAG创建时不处于暂停状态
														
 
															-    params={
														
 
															-        'TABLE_NAME': '',
														
 
															-        'DEPENDENCY_LEVEL': {
														
 
															-            'type': 'string',
														
 
															-            'enum': ['self', 'resource', 'source'],
														
 
															-            'default': 'resource',
														
 
															-            'description': '依赖级别: self-仅本表, resource-到Resource层, source-到Source层'
														
 
															-        }
														
 
															-    },
														
 
															-) as dag:
														
 
															-    
														
 
															-    # 第一个任务：准备依赖链
														
 
															-    prepare_task = PythonOperator(
														
 
															-        task_id='prepare_dependency_chain',
														
 
															-        python_callable=prepare_dependency_chain,
														
 
															-        provide_context=True,
														
 
															-    )
														
 
															-    
														
 
															-    # 第二个任务：执行DataResource脚本
														
 
															-    resource_task = PythonOperator(
														
 
															-        task_id='process_resources',
														
 
															-        python_callable=process_resources,
														
 
															-        provide_context=True,
														
 
															-    )
														
 
															-    
														
 
															-    # 第三个任务：执行DataModel脚本
														
 
															-    model_task = PythonOperator(
														
 
															-        task_id='process_models',
														
 
															-        python_callable=process_models,
														
 
															-        provide_context=True,
														
 
															-    )
														
 
															-    
														
 
															-    # 设置任务依赖关系
														
 
															-    prepare_task >> resource_task >> model_task