CastClaw — 人机协同时序预测 AI 智能体框架

一句话介绍： CastClaw 是专为时间序列预测打造的自主交互式智能体框架。该框架采用 Planner、Forecaster 和 Critic 三位一体的架构，驱动涵盖初始化、预测前分析、技能审核、实验循环及后置报告的全链路 Agentic Workflow。通过自动化执行繁琐的实验与分析流程，并配合“人在回路”机制进行关键节点把控，CastClaw 实现了 AI 执行力与人类判断力的深度融合。

项目概览

在能源调度、金融风控、工业智能等关键领域中，时间序列预测是支撑决策的重要基础。从最早的统计模型，到机器学习驱动的端到端方法，研究者不断尝试提升模型对复杂动态系统的刻画能力。然而，随着真实场景中数据非平稳性增强、情境因素日益复杂，传统“给定历史-预测未来”的建模范式，正在逐渐触及其能力边界。

当前时序预测正面临一个显著的困局：模型虽然在基准数据集上不断刷新精度指标，但在真实复杂环境中却往往表现出脆弱性。一方面，模型缺乏对情境信息的深度理解，难以应对分布漂移与突发事件；另一方面，预测过程高度“黑箱化”，缺乏可解释的推理路径，也无法在关键决策节点引入人类经验与领域知识。这种“单次前向推理”的范式，使得模型难以像人类专家一样，通过分析、判断与反思不断修正预测结果。

针对这一挑战，中国科学技术大学认知智能全国重点实验室团队提出了一种全新的范式：基于自主决策与人机协同的时序预测智能体 CastClaw。该方法不再将预测视为一次性输出，而是将其重构为一个“感知-推理-决策-反思-进化”的多轮交互与动态演化过程。CastClaw 通过构建可交互的预测环境，使模型能够主动调用工具、分析数据结构、识别关键变化模式，从而逐步逼近更可靠的未来趋势。

进一步地，CastClaw 突破了传统模型“被动响应”的局限，具备与环境进行自主交互的能力。它可以模拟人类在面对复杂时序问题时的思维方式，对趋势变化进行多步推理与假设验证；在关键节点上，还能够引入人类专家的判断，实现人机协同决策。同时，借助模块化的 Skill 机制，CastClaw 可以不断积累经验、调用新能力，实现持续学习与自我进化。这种从“模型预测”迈向“智能体决策”的转变，或将为时间序列研究打开一条通往认知智能的新路径。

关键特色介绍

核心结构： CastClaw 的核心竞争力并非功能的简单堆叠，而是由多智能体协同、人机深度融合以及基于技能（Skill）的自主进化三大机制共同驱动。这三层机制分别定义了系统的任务组织范式、人类智慧的介入路径，以及实验经验向长期能力的转化逻辑。

          01
          多智能体协同
        

CastClaw 通过三个职责分明的专属智能体协同工作，使用 Ctrl+1 / Ctrl+2 / Ctrl+3 在 TUI 中切换。每个智能体维护独立上下文，通过 .forecast/ 文件协议共享状态。

🗂️

Planner（规划者）

负责任务定义、数据诊断与阶段编排。并发启动两条分析轨道：定性域研究（WebSearch）+ 定量数据统计，融合为预测前报告。生成 2–4 个技能文件供人类审核确认。

🔬

Forecaster（预测者）

驱动迭代实验循环——读取最佳结果与失败历史，从技能中选取模型配置，调用 generate_model 训练评估，进行反思记录，管理实验预算。停滞时触发 HITL 暂停等待人类反馈。

📊

Critic（评审者）

读取所有实验产物，生成各模型族最佳结果对比、按时序特征的性能分解、可视化脚本，以及结构化的最终 Markdown 预测报告，输出至 .forecast/reports/final-report.md。

          02
          人机高效协作
        

CastClaw 不追求让人类完全退出预测流程，而是在关键决策与关键结果上保留人类确认。研究者可以在高价值节点注入领域知识、修正偏差并确认下一步策略，从而获得更高精度、更可信的预测结果。

🧭

任务设定确认

在初始化阶段，由人类确认目标列、时间列、预测步长、评估指标和资源约束，避免任务定义偏差在后续实验中被持续放大。

✅

关键策略审核

Planner 生成技能草案后，研究者会审核模型族选择、参数搜索空间与风险警告，确保实验策略符合数据特征与领域先验。

🎯

关键结果确认

当实验停滞、结果显著变化或生成候选最优方案时，人类对关键结果进行确认与干预，帮助系统纠偏并指导下一轮更高精度的预测探索。

          03
          基于 Skill 的自主进化
        

CastClaw 将 Planner 生成并经人类审核的技能文件视为可以长期积累的系统经验。这些 Skill 不只服务于单次实验，而是会持续沉淀模型选择策略、参数搜索空间、适用条件与风险提示；随着 Skill 的不断积累，CastClaw 可以在新任务中更快启动、更准决策，并逐步实现面向预测任务的自主进化。

🧠

技能资产沉淀

将模型配置、适用数据特征、参数搜索空间和风险警告写成结构化技能文件，避免经验只停留在单次实验里。

✅

人类审核后沉淀

Skill 不会直接自动进入实验循环，而是先经过人类确认，再作为可信策略被长期保留，确保系统的后续进化建立在高质量经验之上。

🔁

随积累持续进化

面对相似的数据形态、预测步长或资源约束时，CastClaw 可以从已有 Skill 出发完成更快的任务初始化、更合理的实验设计和更高精度的预测探索，表现出随经验积累而增强的自主进化能力。

可持续积累的 Skill 内容

模型选择策略参数搜索空间特征模板适用条件说明风险与失败经验领域先验备注

系统概要设计

设计目标： CastClaw 旨在为研究者打造一个开放的预测工作台，而非封闭的“黑盒自动预测器”。它通过 AI 承担高频的数据分析与实验执行，由人类在关键节点进行逻辑确认与策略校正，在大幅降低科研负载的同时，显著提升预测结果的精度与可信度。

🖥️

终端优先工作台

采用 CLI 作为主要交互界面，不引入额外 Web 服务。研究者可以在终端里直接切换智能体、查看状态、审核结果，保持研究流程的轻量与高效。

🤝

关键节点人类确认

在任务设定、技能审核、实验停滞处理和关键结果判断等节点保留人类确认，把领域知识注入流程，避免自动化系统在错误方向上持续放大偏差。

📂

透明可追溯流程

通过 .forecast/ 工作目录协议组织任务状态、实验记录与报告产物，让多智能体协作过程始终可见、可审查、可复现，而不是隐藏在不可解释的内部状态里。

这套设计的核心取舍是：自动化负责效率，人类负责关键判断。CastClaw 不是替代研究者，而是帮助研究者更系统地组织预测流程、探索模型空间并沉淀可复用经验。

系统架构

CastClaw 以 CLI 为交互界面，三个智能体共享 .forecast/ 文件协议实现状态同步。LLM 层通过 Vercel AI SDK 解耦，支持 20+ 提供商无缝切换；Python ML 后端由 uv 管理，generate_model 工具自动调用，无需手动介入。

关键设计决策：阶段转换由 forecast_state 工具在文件系统层强制执行，而非依赖智能体自律性。即使 LLM 产生幻觉也无法跳过阶段，确保流程可靠性。CAST.md 约束文件在每次 Agent 初始化时自动注入上下文，实现项目级行为约束的持久化。

核心特性

🤝

人机协作暂停（HITL）

实验停滞或连续无改善时，Forecaster 自动暂停并请求人类反馈。你的领域知识将被记录为专家输入，重置无改善计数器后继续探索。

🔍

双轨预测前分析

并发运行定性域研究（网络调研行业背景、风险因素）与定量数据诊断（趋势、季节性、平稳性、异常值），融合为驱动后续模型选择的分析报告。

🎯

技能文件审核

Planner 基于分析报告生成结构化技能文件，含适用条件、参数搜索空间与风险警告。人类确认通过后才进入实验阶段，避免盲目跑模型。

💰

实验预算管理

通过 CAST.md 或默认值设定最大实验次数、连续无改善阈值与崩溃阈值。预算追踪实时更新，防止资源浪费。

🔒

约束文件（CAST.md）

项目级约束自动注入每个智能体上下文：禁用模型列表、资源限制、评估偏好、领域说明。使用 /cast-creation 交互式生成。

📦

30+ 模型族支持

涵盖经典统计模型（ARIMA、ETS、Theta）、主流深度学习架构（PatchTST、iTransformer、TimesNet 等）及基础预训练模型（Chronos、TimesFM、Moirai）。

运行时工具箱

CastClaw 将数据科学中的分析方法论、机器学习中的特征工程实战经验，以及经典时序模型与前沿大模型的架构思想，深度沉淀并封装为高性能的运行时工具集（Runtime Toolkit）。

该工具集不仅能直接赋能于各类具体的预测任务，提供即插即用的计算能力，还支持通过 MCP（Model Context Protocol）等标准协议实现能力的动态扩展与持续迭代。由此，CastClaw 构建了一个面向时序预测、可继承、可组合、且具备自我演进能力的工程化工具箱，为复杂场景下的时序分析提供坚实的运行时支撑。

实验执行类

负责把智能体决策落到可复现的训练与评估过程，强调环境隔离、自动执行与失败收敛。

实验执行沙盒

CastClaw 的 Python 后端以独立的 uv 虚拟环境运行，与宿主系统完全隔离。generate_model 工具以标准化接口触发训练与评估，结果自动写回 .forecast/runs/；崩溃或超时由沙盒捕获，不影响主智能体上下文。所有模型调用均无需研究者手动干预。

🔒

环境隔离

uv 虚拟环境与宿主隔离，依赖版本锁定，跨机器可复现。

⚡

自动触发

Forecaster 通过 generate_model 调用沙盒，训练日志与评估指标自动归档。

🛡️

崩溃隔离

训练崩溃或超时由沙盒捕获，不中断智能体主流程，失败记入实验历史。

预测辅助工具

将数据分析、时序特征诊断与模型资产封装成可组合的能力层，支撑技能生成、路线筛选与不同模型族的系统探索。

数据分析工具

在进入时序特征诊断之前，CastClaw 也可以调用通用数据分析工具，对数据集完成基础画像与探索性分析，为后续特征工程、技能生成和模型选择提供更稳固的分析基础：

描述性统计字段画像缺失值分析分布统计相关性分析分组聚合滚动窗口分析异常样本初筛数据切片对比

特征分析能力

Planner 在预测前分析阶段调用数据诊断能力，全面刻画数据集统计特征，为技能生成和模型选择提供量化依据：

趋势检测季节性分析平稳性检验（ADF）波动率分析异常值识别 ACF / PACF 缺失值诊断分布统计 WebSearch 定性研究

经典时序预测模型

统计模型

ARIMA ETS Theta

深度学习模型

Informer PatchTST TSMixer++ TiDE ConvTimeNet 等

时序基础模型

Chronos（Amazon） TimesFM（Google） Moirai（Salesforce）

时序推理模型

TimeReasoner Time-R1 MemCast

智能体设计理念

核心思路： CastClaw 不只是“调用训练脚本”的外壳，更是一套围绕动作空间（Action Space）组织起来的智能体工作台。不同智能体会调用不同能力模块完成特征分析、技能生成、实验反思与报告整理；其中高频、结构化、短上下文的任务适合交给轻量模型处理，复杂整合与关键决策则交给主智能体和人类审核。

🗂️

Planner Action Space

任务解析、目标列/时间列确认、特征分析、趋势与季节性诊断、异常值识别、WebSearch 定性研究、技能草案生成与约束注入。

🔬

Forecaster Action Space

读取实验历史、选择技能与配置、调用 generate_model、预算检查、失败归因、forecast_reflect 反思记录，以及 HITL 暂停与反馈融合。

📊

Critic Action Space

聚合结果、按时序特征拆解性能、对比模型族表现、生成可视化脚本、整理结论和输出最终 Markdown 报告。

Agentic Workflow

🧭

流程自主编排

CastClaw 遵循严格的 Agentic Workflow，阶段转换由 forecast_state 工具强制执行——不可跳过任何阶段，确保每次实验过程可追溯、可复现。

Planner

初始化（Init）

定义预测任务：数据集路径、目标列、时间列、预测步长（Horizon）、回看长度（Look-back）、训练/验证/测试分割比例、评估指标与考虑的模型族。Planner 调用 forecast_state init 创建 .forecast/ 目录，forecast_task 冻结 task.json。可选使用 /cast-creation 生成项目约束文件。

Planner

预测前分析（Pre-forecast Analysis）

Planner 并发启动两个子智能体：定性轨道网络调研预测领域（行业背景、关键事件、风险因素）；定量轨道分析数据集统计特征（趋势、季节性、平稳性、波动率、异常值）。双轨结果融合为 .forecast/reports/pre-forecast.md，驱动后续所有模型选择决策。

Planner · 人类审核

技能审核（Skill Audit）

基于预测前分析，Planner 生成 2–4 个结构化技能文件，每个文件包含：适用条件、参数搜索空间、特征模板（配置 JSON）及针对当前数据集的风险警告。人类审核并确认后，阶段正式过渡到实验循环。

Forecaster · HITL

预测迭代

Forecaster 使用已确认技能迭代实验：读取当前最佳结果与近期失败历史 → 选取模型与配置 → generate_model 训练评估 → forecast_reflect 反思记录 → 预算检查 → 循环。停滞时触发 HITL 暂停，等待并融合人类领域反馈后继续。

Critic

后置报告（Post-forecast Report）

Critic 读取全部实验产物，生成：各模型族最佳结果对比、按时序特征（趋势/季节性/平稳性）的性能分解、可视化脚本（时序图、误差分布图），以及结构化最终预测报告，输出至 .forecast/reports/final-report.md。

使用指南

模型与运行环境

CastClaw 通过主力模型与轻量 LLM 的分层协作完成不同复杂度的任务，同时依托 Bun、Python/uv 与 Vercel AI SDK 组成跨 TypeScript 与 Python 的运行环境。

基础模型选用指南

CastClaw 在基础模型接入上保持开放，不预设唯一供应商路线。无论是国外主流大模型，还是国内可部署模型与推理服务，都可以根据你的算力条件、成本预算和合规要求灵活接入系统。

国际模型 Claude 系列 GPT 系列 Gemini 系列

国内模型 DeepSeek 系列 Qwen 系列 GLM 系列

部署方式国外主流大模型 API 国内可部署模型 API 自建推理服务昇腾算力部署 API

我们鼓励研究者根据自身实验环境选择最合适的模型来源，尤其欢迎结合昇腾算力部署 API 进行本地化或机构内落地，以兼顾性能、成本和可控性。

运行时依赖

🟡

Bun ≥ 1.3.11

CLI 运行时与包管理器，驱动 TUI 界面与智能体编排层。

🐍

Python ≥ 3.10 + uv

ML 后端运行环境，uv sync 一键安装全部依赖，无需手动管理虚拟环境。

🔌

Vercel AI SDK

LLM 提供商抽象层，支持 20+ 提供商（Anthropic、OpenAI、Google、OpenRouter 等），格式 provider/model-id。

样例数据集

Sample Dataset

为了方便快速体验 CastClaw，我们在页面中提供了一份可直接下载的电力负荷样例数据集 load.csv。该文件包含约 1.5 万条小时级样本，可用于初始化一个典型的短期负荷预测任务。

需要注意的是，这份样例数据集的实际字段名为 TIMESTAMP（时间列）和 LOAD（目标列）。如果你直接使用这份样例文件，请在 Planner 中按真实字段名建立任务，而不是使用下方演示里的 date / OT 占位写法。

下载 load.csv 频率：1 小时时间列：TIMESTAMP 目标列：LOAD

演示视频

Product Demo

下面的视频展示了 CastClaw 在真实终端工作流中的使用方式，包括任务建立、智能体协同切换，以及预测流程中的关键交互环节。你也可以直接下载原始压缩版演示文件 castclaw-demo.mp4。

安装

# 方式一：npm 全局安装（推荐）
npm install -g castclaw

# 方式二：从源码构建
git clone https://github.com/SkyeGT/CastClaw.git
cd CastClaw
bun install
cd python && uv sync && cd ..
bun run --cwd packages/castclaw build
bun link --cwd packages/castclaw  # 可选：全局链接

验证安装

castclaw --version
cd python && uv run python -c "from castclaw_ml import runner; print('OK')"

配置 LLM

# Anthropic（默认）
export ANTHROPIC_API_KEY=sk-ant-...

# 或 OpenAI / Google / OpenRouter
export OPENAI_API_KEY=sk-...
export GOOGLE_GENERATIVE_AI_API_KEY=...

# castclaw.json 配置
{
  "model": "anthropic/claude-sonnet-4-6"
}

开始预测

# 进入数据集所在目录，启动 TUI
cd /path/to/your/dataset
castclaw

# 或指定模型
castclaw --model anthropic/claude-sonnet-4-6

TUI 启动后，在 Planner 标签页（Ctrl+1）中输入任务描述：

# 示例：初始化一个能源消耗预测任务
为 data/etth1.csv 初始化预测会话。目标列：OT，时间列：date，
预测步长：96 步，回看长度：336。采用 70/20/10 分割，使用 MSE 和 MAE 评估。

使用样例展示

下面给出一个电力负荷预测任务的完整示例，展示如何在 Planner 中描述任务，以及如何通过 CAST.md 预先写入实验约束。

Planner 输入示例

在 Planner 标签页中，可以直接输入如下任务描述，让 CastClaw 建立预测任务并进入后续分析与技能审核流程：

我有一个电力负荷数据集 ./load.csv，频率为 1 小时，目标列是 OT（电力负荷），时间列为 date。
请帮我建立预测任务。

要求：
- 训练集:验证集:测试集 = 7:1:2
- lookback_window = 96（即 4 天历史数据）
- predicted_window = 96（即预测未来 4 天）
- label_len = 96
- 评估指标使用 MSE 和 MAE
- 模型族包含 statistical, deep_learning, foundation 三个家族
- 具体模型：ARIMA, DLinear, TimeXer, PatchTST, iTransformer, Chronos
- 澳大利亚冬季（6-8 月，UTC）日照时间短，整体功率低；夏季（12-2 月）峰值高，具有明显的日周期（24 小时）和周周期（168 小时）特征
- 夏季和冬季用电高峰，春秋季为低谷

角色	成员
团队骨干	Tian Gao · Xiaoyu Tao
指导教师	Mingyue Cheng · Qi Liu · Enhong Chen