基于脱敏的内部智能代理系统设计方案

系统概述

核心需求

目标用户: 缺乏大型LLM部署能力的小公司
技术路径: 外部API + 内部MCP Tools / RAG module + 数据脱敏/隐藏
使用场景: 处理敏感数据的内部智能代理系统

系统架构原则

数据安全: 敏感数据不出本地环境
成本控制: 利用外部API降低基础设施成本
灵活扩展: 模块化设计支持功能扩展

三大核心模块

1. 脱敏映射转换模块 (Data Anonymization & Mapping)

1.1 数据提取引擎

小型LLM方案
- 使用轻量级本地模型（如~~Phi-3、~~Qwen等）
- 专门针对数值提取进行微调
- 支持多种数据类型识别（金额、日期、比例等）
正则表达式方案
- 预定义数值模式库
- 支持自定义规则配置
- 多语言数值格式支持

宜融合使用

1.2 映射生成策略

UUID生成
- 使用~~UUID4确~~UUID确保唯一性
- 可选择性添加语义前缀（如NUM_、AMT_等）
- 支持批量生成和管理
Hash映射
- 使用安全哈希算法（SHA-~~256）~~256、blake3等）
- 可配置盐值增强安全性
- 支持一致性哈希确保稳定性

2. MCP计算工具模块 (MCP Calculation Tools)

2.1 工具类型设计

基础数学运算
- 四则运算（+、-、×、÷）
- 百分比计算
- 平均值、求和、最值
高级计算功能
- 统计分析（方差、标准差）
- 金融计算（利率、现值、未来值）
- 时间序列分析
批量处理工具
- 数组操作
- 矩阵运算
- 数据聚合

2.2 MCP工具接口规范

{
  "tools": [
    {
      "name": "secure_calculate",
      "description": "执行基于脱敏数据的安全计算",
      "inputSchema": {
        "type": "object",
        "properties": {
          "anonymized_ids": {
            "type": "array",
            "items": {"type": "string"},
            "description": "脱敏后的数据标识符数组"
          },
          "operation": {
            "type": "string",
            "enum": ["add", "subtract", "multiply", "divide", "average", "sum"],
            "description": "计算操作类型"
          },
          "parameters": {
            "type": "object",
            "description": "额外参数"
          }
        }
      }
    }
  ]
}

2.3 计算流程设计

接收请求: 解析LLM发送的脱敏标识符
数据还原: 查询本地数据库获取真实数值
执行计算: 使用内部计算引擎处理
结果脱敏: 为计算结果生成新的脱敏标识符
返回响应: 向LLM返回脱敏后的结果标识符

3. 模糊搜索算法模块 (Fuzzy Search Algorithm)

大模型存储敏感信息代号易出错，因此需要超过一定概率则匹配成功的策略；

3.1 相似度计算算法

字符串相似度
- Levenshtein距离
- Jaro-Winkler相似度
- 最长公共子序列（LCS）
语义相似度
- 字符n-gram匹配
- 音节相似度
- 结构化相似度

3.2 搜索策略

多级搜索
- 精确匹配（优先级最高）
- 高相似度匹配（相似度>0.85）
- 模糊匹配（相似度>0.6）
上下文感知
- 结合数据类型进行匹配
- 考虑时间窗口相关性
- 利用历史匹配记录

系统集成架构

数据流向图

文件输入 → 脱敏模块 → 外部LLM API → MCP工具 → 模糊搜索 → 结果返回
    ↓           ↓           ↓           ↓           ↓
本地存储 ← 映射数据库 ← 计算请求 ← 数据还原 ← 相似匹配

安全边界

~~内部边界~~~~: 原始数据、映射关系、计算结果~~

~~外部边界~~~~: 脱敏标识符、计算指令、抽象结果~~

技术选型建议

核心技术栈

~~数据库~~~~: SQLite/PostgreSQL~~

~~MCP框架~~~~: 官方MCP SDK~~

~~搜索引擎~~~~: Elasticsearch/Whoosh~~

~~机器学习~~~~: scikit-learn/transformers~~

部署建议

~~容器化~~~~: Docker + Docker Compose~~

监控~~: Prometheus + Grafana~~

日志~~: ELK Stack~~

备份~~: 定期数据库备份和恢复测试~~