embedding_function.py 12 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322
  1. import requests
  2. import time
  3. import numpy as np
  4. from typing import List, Callable
  5. class EmbeddingFunction:
  6. def __init__(self, model_name: str, api_key: str, base_url: str, embedding_dimension: int):
  7. self.model_name = model_name
  8. self.api_key = api_key
  9. self.base_url = base_url
  10. self.embedding_dimension = embedding_dimension
  11. self.headers = {
  12. "Authorization": f"Bearer {api_key}",
  13. "Content-Type": "application/json"
  14. }
  15. self.max_retries = 2 # 设置默认的最大重试次数
  16. self.retry_interval = 2 # 设置默认的重试间隔秒数
  17. self.normalize_embeddings = True # 设置默认是否归一化
  18. def _normalize_vector(self, vector: List[float]) -> List[float]:
  19. """
  20. 对向量进行L2归一化
  21. Args:
  22. vector: 输入向量
  23. Returns:
  24. List[float]: 归一化后的向量
  25. """
  26. if not vector:
  27. return []
  28. norm = np.linalg.norm(vector)
  29. if norm == 0:
  30. return vector
  31. return (np.array(vector) / norm).tolist()
  32. def __call__(self, input) -> List[List[float]]:
  33. """
  34. 为文本列表生成嵌入向量
  35. Args:
  36. input: 要嵌入的文本或文本列表
  37. Returns:
  38. List[List[float]]: 嵌入向量列表
  39. """
  40. if not isinstance(input, list):
  41. input = [input]
  42. embeddings = []
  43. for text in input:
  44. payload = {
  45. "model": self.model_name,
  46. "input": text,
  47. "encoding_format": "float"
  48. }
  49. try:
  50. # 修复URL拼接问题
  51. url = self.base_url
  52. if not url.endswith("/embeddings"):
  53. url = url.rstrip("/") # 移除尾部斜杠,避免双斜杠
  54. if not url.endswith("/v1/embeddings"):
  55. url = f"{url}/embeddings"
  56. response = requests.post(url, json=payload, headers=self.headers)
  57. response.raise_for_status()
  58. result = response.json()
  59. if "data" in result and len(result["data"]) > 0:
  60. vector = result["data"][0]["embedding"]
  61. embeddings.append(vector)
  62. else:
  63. raise ValueError(f"API返回无效: {result}")
  64. except Exception as e:
  65. print(f"获取embedding时出错: {e}")
  66. # 使用实例的 embedding_dimension 来创建零向量
  67. embeddings.append([0.0] * self.embedding_dimension)
  68. return embeddings
  69. def generate_embedding(self, text: str) -> List[float]:
  70. """
  71. 为单个文本生成嵌入向量
  72. Args:
  73. text (str): 要嵌入的文本
  74. Returns:
  75. List[float]: 嵌入向量
  76. """
  77. print(f"生成嵌入向量,文本长度: {len(text)} 字符")
  78. # 处理空文本
  79. if not text or len(text.strip()) == 0:
  80. print("输入文本为空,返回零向量")
  81. # self.embedding_dimension 在初始化时已被强制要求
  82. # 因此不应该为 None 或需要默认值
  83. if self.embedding_dimension is None:
  84. # 这个分支理论上不应该被执行,因为工厂函数会确保 embedding_dimension 已设置
  85. # 但为了健壮性,如果它意外地是 None,则抛出错误
  86. raise ValueError("Embedding dimension (self.embedding_dimension) 未被正确初始化。")
  87. return [0.0] * self.embedding_dimension
  88. # 准备请求体
  89. payload = {
  90. "model": self.model_name,
  91. "input": text,
  92. "encoding_format": "float"
  93. }
  94. # 添加重试机制
  95. retries = 0
  96. while retries <= self.max_retries:
  97. try:
  98. # 发送API请求
  99. url = self.base_url
  100. if not url.endswith("/embeddings"):
  101. url = url.rstrip("/") # 移除尾部斜杠,避免双斜杠
  102. if not url.endswith("/v1/embeddings"):
  103. url = f"{url}/embeddings"
  104. print(f"请求URL: {url}")
  105. response = requests.post(
  106. url,
  107. json=payload,
  108. headers=self.headers,
  109. timeout=30 # 设置超时时间
  110. )
  111. # 检查响应状态
  112. if response.status_code != 200:
  113. error_msg = f"API请求错误: {response.status_code}, {response.text}"
  114. print(error_msg)
  115. # 根据错误码判断是否需要重试
  116. if response.status_code in (429, 500, 502, 503, 504):
  117. retries += 1
  118. if retries <= self.max_retries:
  119. wait_time = self.retry_interval * (2 ** (retries - 1)) # 指数退避
  120. print(f"等待 {wait_time} 秒后重试 ({retries}/{self.max_retries})")
  121. time.sleep(wait_time)
  122. continue
  123. raise ValueError(error_msg)
  124. # 解析响应
  125. result = response.json()
  126. # 提取embedding向量
  127. if "data" in result and len(result["data"]) > 0 and "embedding" in result["data"][0]:
  128. vector = result["data"][0]["embedding"]
  129. # 如果是首次调用且未提供维度,则自动设置
  130. if self.embedding_dimension is None:
  131. self.embedding_dimension = len(vector)
  132. print(f"自动设置embedding维度为: {self.embedding_dimension}")
  133. else:
  134. # 验证向量维度
  135. actual_dim = len(vector)
  136. if actual_dim != self.embedding_dimension:
  137. print(f"向量维度不匹配: 期望 {self.embedding_dimension}, 实际 {actual_dim}")
  138. # 如果需要归一化
  139. if self.normalize_embeddings:
  140. vector = self._normalize_vector(vector)
  141. print(f"成功生成embedding向量,维度: {len(vector)}")
  142. return vector
  143. else:
  144. error_msg = f"API返回格式异常: {result}"
  145. print(error_msg)
  146. raise ValueError(error_msg)
  147. except Exception as e:
  148. print(f"生成embedding时出错: {str(e)}")
  149. retries += 1
  150. if retries <= self.max_retries:
  151. wait_time = self.retry_interval * (2 ** (retries - 1)) # 指数退避
  152. print(f"等待 {wait_time} 秒后重试 ({retries}/{self.max_retries})")
  153. time.sleep(wait_time)
  154. else:
  155. print(f"已达到最大重试次数 ({self.max_retries}),生成embedding失败")
  156. # 决定是返回零向量还是重新抛出异常
  157. if self.embedding_dimension:
  158. print(f"返回零向量 (维度: {self.embedding_dimension})")
  159. return [0.0] * self.embedding_dimension
  160. raise
  161. # 这里不应该到达,但为了完整性添加
  162. raise RuntimeError("生成embedding失败")
  163. def test_connection(self, test_text="测试文本") -> dict:
  164. """
  165. 测试嵌入模型的连接和功能
  166. Args:
  167. test_text (str): 用于测试的文本
  168. Returns:
  169. dict: 包含测试结果的字典,包括是否成功、维度信息等
  170. """
  171. result = {
  172. "success": False,
  173. "model": self.model_name,
  174. "base_url": self.base_url,
  175. "message": "",
  176. "actual_dimension": None,
  177. "expected_dimension": self.embedding_dimension
  178. }
  179. try:
  180. print(f"测试嵌入模型连接 - 模型: {self.model_name}")
  181. print(f"API服务地址: {self.base_url}")
  182. # 验证配置
  183. if not self.api_key:
  184. result["message"] = "API密钥未设置或为空"
  185. return result
  186. if not self.base_url:
  187. result["message"] = "API服务地址未设置或为空"
  188. return result
  189. # 测试生成向量
  190. vector = self.generate_embedding(test_text)
  191. actual_dimension = len(vector)
  192. result["success"] = True
  193. result["actual_dimension"] = actual_dimension
  194. # 检查维度是否一致
  195. if actual_dimension != self.embedding_dimension:
  196. result["message"] = f"警告: 模型实际生成的向量维度({actual_dimension})与配置维度({self.embedding_dimension})不一致"
  197. else:
  198. result["message"] = f"连接测试成功,向量维度: {actual_dimension}"
  199. return result
  200. except Exception as e:
  201. result["message"] = f"连接测试失败: {str(e)}"
  202. return result
  203. def test_embedding_connection() -> dict:
  204. """
  205. 测试嵌入模型连接和配置是否正确
  206. Returns:
  207. dict: 测试结果,包括成功/失败状态、错误消息等
  208. """
  209. try:
  210. # 获取嵌入函数实例
  211. embedding_function = get_embedding_function()
  212. # 测试连接
  213. test_result = embedding_function.test_connection()
  214. if test_result["success"]:
  215. print(f"嵌入模型连接测试成功!")
  216. if "警告" in test_result["message"]:
  217. print(test_result["message"])
  218. print(f"建议将app_config.py中的EMBEDDING_CONFIG['embedding_dimension']修改为{test_result['actual_dimension']}")
  219. else:
  220. print(f"嵌入模型连接测试失败: {test_result['message']}")
  221. return test_result
  222. except Exception as e:
  223. error_message = f"无法测试嵌入模型连接: {str(e)}"
  224. print(error_message)
  225. return {
  226. "success": False,
  227. "message": error_message
  228. }
  229. def get_embedding_function() -> EmbeddingFunction:
  230. """
  231. 从 app_config.py 的 EMBEDDING_CONFIG 字典加载配置并创建 EmbeddingFunction 实例。
  232. 如果任何必需的配置未找到,则抛出异常。
  233. Returns:
  234. EmbeddingFunction: EmbeddingFunction 的实例。
  235. Raises:
  236. ImportError: 如果 app_config.py 无法导入。
  237. AttributeError: 如果 app_config.py 中缺少 EMBEDDING_CONFIG。
  238. KeyError: 如果 EMBEDDING_CONFIG 字典中缺少任何必要的键。
  239. """
  240. try:
  241. import app_config
  242. except ImportError:
  243. raise ImportError("无法导入 app_config.py。请确保该文件存在且在PYTHONPATH中。")
  244. try:
  245. embedding_config_dict = app_config.EMBEDDING_CONFIG
  246. except AttributeError:
  247. raise AttributeError("app_config.py 中缺少 EMBEDDING_CONFIG 配置字典。")
  248. try:
  249. api_key = embedding_config_dict["api_key"]
  250. model_name = embedding_config_dict["model_name"]
  251. base_url = embedding_config_dict["base_url"]
  252. embedding_dimension = embedding_config_dict["embedding_dimension"]
  253. if api_key is None:
  254. # 明确指出 api_key (可能来自环境变量) 未设置的问题
  255. raise KeyError("EMBEDDING_CONFIG 中的 'api_key' 未设置 (可能环境变量 EMBEDDING_API_KEY 未定义)。")
  256. except KeyError as e:
  257. # 将原始的KeyError e 作为原因传递,可以提供更详细的上下文,比如哪个键确实缺失了
  258. raise KeyError(f"app_config.py 的 EMBEDDING_CONFIG 字典中缺少必要的键或值无效:{e}")
  259. return EmbeddingFunction(
  260. model_name=model_name,
  261. api_key=api_key,
  262. base_url=base_url,
  263. embedding_dimension=embedding_dimension
  264. )