Skip to content

Components

Claw-R1 的组件围绕数据流组织:从 Agent 交互的采集,到数据的管理与质量评估,再到向训练引擎的供给。各组件通过 HTTP 和 Ray RPC 通信。

  • Gateway Server · 数据采集入口


    FastAPI HTTP 服务。所有 Agent LLM 调用的统一入口,自动从交互中采集训练数据(Step)并提交到 DataPool。支持白盒显式提交和黑盒自动采集两种模式。

    Gateway Server

  • DataPool · 数据管理核心


    Ray Actor。Claw-R1 的数据管理中枢 — 存储、索引、分区和供给交互数据。支持 Channel 隔离、GRPO 分组、容量背压控制和实时统计监控。

    DataPool

  • Reward System · 数据质量评估


    RewardLoopWorker Ray Actor。多维度数据质量评估:rule-based、discriminative RM、generative RM,以及人类反馈信号的整合。

    Reward System

  • Agent Flow · 白盒数据采集


    Agent 执行生命周期管理。白盒 Agent 通过 Python API 显式提交 Step,完整控制数据采集过程。

    Agent Flow

  • Black-box Agent · 黑盒数据采集


    零代码侵入的黑盒 Agent 接入。任何使用 OpenAI 兼容 API 的 Agent 通过 base_url 透明接入,Gateway 自动采集交互数据。

    Black-box Agent

  • Async Training · 数据消费与训练


    AsyncTrainerAsyncRollouter Ray Actor。持续从 DataPool 消费高质量数据进行训练,带参数同步。

    Async Training

  • Prefix Tree Merge · 前缀去重优化


    将共享前缀的多条序列合并为一次前向计算,消除 multi-step agent 训练中的冗余 prefix 计算。目前在 prefix-tree-merge 分支测试中。

    Prefix Tree Merge

数据流全景

                        数据采集层
                      ┌─────────────────────────────────────────┐
  黑盒 Agent ────────►│                                         │
  (base_url)          │         GATEWAY SERVER                  │
                      │         (FastAPI, 端口 8100)             │
  白盒 Agent ────────►│         自动采集交互 Step                 │
  (AgentFlow)         └────────────┬────────────────────────────┘
                                   │ Ray RPC (submit_steps)
                        数据管理层
                      ┌─────────────────────────────────────────┐
                      │         DATAPOOL                         │
                      │         (Ray Actor)                      │
                      │                                          │
                      │  • 存储与索引    • Channel 分区            │
                      │  • GRPO 分组     • 容量背压控制            │
                      │  • 质量评估      • 实时统计监控            │
                      └──────────────────┬──────────────────────┘
                                         │ fetch_batch()
                        数据消费层
                      ┌─────────────────────────────────────────┐
                      │         ASYNC TRAINER                    │
                      │         (Ray Actor, Training GPU Pool)   │
                      │   ┌─────────────────────────────────┐   │
                      │   │  Actor │ Critic │ RefPolicy      │   │
                      │   └─────────────────────────────────┘   │
                      └────────────────┬────────────────────────┘
                                       │ NCCL weight sync
                      ┌─────────────────────────────────────────┐
                      │         ASYNC ROLLOUTER                  │
                      │         (Ray Actor, Rollout GPU Pool)    │
                      │         vLLM servers                     │
                      └─────────────────────────────────────────┘