Skip to main content

基于脱敏的内部智能代理系统设计方案

系统概述

核心需求

  • 目标用户: 缺乏大型LLM部署能力的小公司
  • 技术路径: 外部API + 内部MCP Tools / RAG module + 数据脱敏/隐藏
  • 使用场景: 处理敏感数据的内部智能代理系统

系统架构原则

  1. 数据安全: 敏感数据不出本地环境
  2. 成本控制: 利用外部API降低基础设施成本
  3. 灵活扩展: 模块化设计支持功能扩展

三大核心模块

1. 脱敏映射转换模块 (Data Anonymization & Mapping)

1.1 数据提取引擎

  • 小型LLM方案

    • 使用轻量级本地模型(如Phi-3、Qwen等)
    • 专门针对数值提取进行微调
    • 支持多种数据类型识别(金额、日期、比例等)
  • 正则表达式方案

    • 预定义数值模式库
    • 支持自定义规则配置
    • 多语言数值格式支持

宜融合使用

1.2 映射生成策略

  • UUID生成

    • 使用UUID4确UUID确保唯一性
    • 可选择性添加语义前缀(如NUM_、AMT_等)
    • 支持批量生成和管理
  • Hash映射

    • 使用安全哈希算法(SHA-256)256、blake3等)
    • 可配置盐值增强安全性
    • 支持一致性哈希确保稳定性

2. MCP计算工具模块 (MCP Calculation Tools)

2.1 工具类型设计

  • 基础数学运算

    • 四则运算(+、-、×、÷)
    • 百分比计算
    • 平均值、求和、最值
  • 高级计算功能

    • 统计分析(方差、标准差)
    • 金融计算(利率、现值、未来值)
    • 时间序列分析
  • 批量处理工具

    • 数组操作
    • 矩阵运算
    • 数据聚合

2.2 MCP工具接口规范

{
  "tools": [
    {
      "name": "secure_calculate",
      "description": "执行基于脱敏数据的安全计算",
      "inputSchema": {
        "type": "object",
        "properties": {
          "anonymized_ids": {
            "type": "array",
            "items": {"type": "string"},
            "description": "脱敏后的数据标识符数组"
          },
          "operation": {
            "type": "string",
            "enum": ["add", "subtract", "multiply", "divide", "average", "sum"],
            "description": "计算操作类型"
          },
          "parameters": {
            "type": "object",
            "description": "额外参数"
          }
        }
      }
    }
  ]
}

2.3 计算流程设计

  1. 接收请求: 解析LLM发送的脱敏标识符
  2. 数据还原: 查询本地数据库获取真实数值
  3. 执行计算: 使用内部计算引擎处理
  4. 结果脱敏: 为计算结果生成新的脱敏标识符
  5. 返回响应: 向LLM返回脱敏后的结果标识符

3. 模糊搜索算法模块 (Fuzzy Search Algorithm)

大模型存储敏感信息代号易出错,因此需要超过一定概率则匹配成功的策略;

3.1 相似度计算算法

  • 字符串相似度

    • Levenshtein距离
    • Jaro-Winkler相似度
    • 最长公共子序列(LCS)
  • 语义相似度

    • 字符n-gram匹配
    • 音节相似度
    • 结构化相似度

3.2 搜索策略

  • 多级搜索

    • 精确匹配(优先级最高)
    • 高相似度匹配(相似度>0.85)
    • 模糊匹配(相似度>0.6)
  • 上下文感知

    • 结合数据类型进行匹配
    • 考虑时间窗口相关性
    • 利用历史匹配记录

系统集成架构

数据流向图

文件输入 → 脱敏模块 → 外部LLM API → MCP工具 → 模糊搜索 → 结果返回
    ↓           ↓           ↓           ↓           ↓
本地存储 ← 映射数据库 ← 计算请求 ← 数据还原 ← 相似匹配

安全边界

  • 内部边界: 原始数据、映射关系、计算结果
  • 外部边界: 脱敏标识符、计算指令、抽象结果

技术选型建议

核心技术栈

  • 数据库: SQLite/PostgreSQL
  • MCP框架: 官方MCP SDK
  • 搜索引擎: Elasticsearch/Whoosh
  • 机器学习: scikit-learn/transformers

部署建议

  • 容器化: Docker + Docker Compose
  • 监控: Prometheus + Grafana
  • 日志: ELK Stack
  • 备份: 定期数据库备份和恢复测试