GeoMind & MA-GRPO — Agentic Lithology Classification

TL;DR： GeoMind 把测井岩性分类从“单次前向映射”改写为可验证的多步 Agentic Workflow：先由 Planner 选择工具与执行路径，再由 Executor 汇聚数值、邻域与语义证据，最后由 Reflector 在地层约束下做一致性裁决。为了让这个多模块工作流稳定训练，论文提出 MA-GRPO，以模块级过程奖励替代只看最终结果的粗粒度轨迹反馈。在 4 个 benchmark 上，GeoMind 持续优于强基线，并实现 最高 27.9% 的 stratigraphic fragmentation 降低。

项目简介

GeoMind 聚焦的是地球科学中的一个典型时间序列决策任务：根据多通道测井曲线沿深度轴推断岩性标签。这类数据既有明显的顺序结构，又受噪声、边界模糊和地层连续性约束影响，因而既不能只依赖局部模式匹配，也不能只依赖泛化模糊的语义推理。

论文的核心思路是把“岩性分类”从静态分类器问题，重新定义为一个工具增强的序列推理问题： GeoMind 负责把数值证据、邻域先验和地层约束组织成透明决策链， MA-GRPO 则负责以模块级目标去优化这条决策链的中间步骤，而不是只在轨迹末尾给一个结果奖励。

Planner / Executor / Reflector
三阶段工作流

感知、推理、分析
七类工具模块

SEAM / Facies / FORCE / GeoLink
公开基准数据集

27.9%

相较 XGBoost
最高 fragmentation 降低

核心挑战

论文指出，现有方法的主要问题并不只是准确率不足，而是推理结构与地质决策过程不对齐。经典数值模型、纯 LLM 推理和单步分类范式各自都有明显短板。

经典 ML / TS 模型

擅长拟合局部数值模式，但容易过拟合局部噪声，对 stratigraphic consistency 缺乏显式约束。

Standalone LLM 方法

语义推理能力更强，但对多通道连续数值信号不敏感，难以处理边界模糊和细粒度测井变化。

单步静态映射

缺少“取证-验证-修正”的中间环节，无法像专家那样调用外部证据、检查冲突并执行自我修正。

GeoMind 的回应

把原始 well log 先转成结构化趋势叙述，而不是直接丢给单一判别器。
引入邻域检索、相似样本投票、神经预测解释与语义推理，形成多源证据组合。
通过 conflict scan 和 stratigraphic validation，对不一致决策进行反思与纠偏。

GeoMind Workflow

GeoMind 采用 Planner–Executor–Reflector 的层级式工作流。 Planner 决定当前窗口需要调用哪些工具；Executor 负责从感知、推理和分析模块收集证据； Reflector 负责在冲突、置信度和地层约束共同作用下输出最终标签与解释。

GeoMind Planner Executor Reflector workflow — GeoMind 通过 Planner 选路、Executor 取证、Reflector 纠偏，把多源证据组织成可追踪的岩性分类决策链。

三阶段职责

P

Planner：动态规划执行路径 根据信号波动、深度连续性和局部复杂度，决定当前窗口应如何调用 perception、reasoning、analysis 工具。
E

Executor：多源证据协同分析 包括 trend pattern extractor、case retriever、neighbor vote aggregator、neural probability interpreter、semantic reasoning engine 等模块。
R

Reflector：冲突仲裁与地质一致性修正 综合 neighbor、neural predictor、LLM reasoning、conflict report 与 sequence validation 信号，做最终裁决。

代表性工具

工具	作用
Case Retriever	检索相似历史窗口及其标签，构建局部邻域证据。
Trend Pattern Extractor	把多变量测井曲线转成自然语言趋势描述，连接数值模式与语义推理。
Neighbor Vote Aggregator	将邻域样本按相似度加权投票，输出经验先验置信度。
Consensus Conflict Scanner	比较邻域投票、神经预测和语义推理结果，定位冲突与不确定区间。
Stratigraphic Sequence Validator	利用地层转移模型检查低概率跳变，过滤不合理的“salt-and-pepper”切换。

MA-GRPO

标准 GRPO 在 agentic workflow 上仍然主要依赖轨迹级 outcome reward，这会把 Planner、Trend、Reasoning、Reflector 混在同一个稀疏回报里，导致 credit assignment 很差。 MA-GRPO 的关键点是：把不同模块的交互事件拆开，用模块自己的过程奖励做局部 group-relative optimization。

Trend Analysis Reward

奖励趋势叙述是否真正提升后续分类质量，而不是只追求表面流畅描述。

LLM Accuracy Reward

直接监督语义推理模块的中间分类输出，使 reasoning step 不再只受最终反射结果间接影响。

Reflection Correction Reward

奖励 Reflector 在候选结果冲突时完成有效纠偏，并惩罚错失本可修正的错误决策。

K-Fold Stacking

通过 out-of-fold 预测构造 RL 观察空间，避免 agent 只在训练期看到过于理想化的 base predictor 信号。

为什么比标准 GRPO 更适合 GeoMind

模块局部优势把奖励直接绑定到生成对应中间证据的模块，显著缓解 sparse reward credit assignment。
过程奖励使训练信号更密，MA-GRPO 在 validation 上约 100 steps 就到达 0.35 return，而 GRPO 超过 250 steps 才接近这一水平。
梯度更平滑、振荡更小，论文报告 actor gradient norm 明显低于标准 GRPO。
在理论内存复杂度上，可把峰值开销从 sum(len(o_i)) 降到近似 max(len(o_i)) 的模块级形式。

实验结果

论文在 SEAM、Facies、FORCE 和 GeoLink 四个公开数据集上验证 GeoMind。结果显示，GeoMind 并不是在某一个模型家族上偶然获胜，而是持续优于传统 ML、深度时序模型与 LLM-based baselines。

GeoMind benchmark results across four datasets — GeoMind 在 4 个基准上的 Weighted F1 持续领先，并在复杂地层与边界模糊场景下展现更稳定的优势。

Weighted F1 对比

方法	SEAM	Facies	FORCE	GeoLink
XGBoost	0.8355	0.4086	0.3612	0.3644
InceptionTime	0.8537	0.4062	0.3614	0.4116
GPT4TS	0.8425	0.4155	0.3453	0.4130
GeoMind Best	0.8584	0.4431	0.3678	0.4245

进一步观察

移除 Agentic Workflow RL 会导致大幅退化，说明性能提升主要来自多步工作流学习，而非单纯 backbone 增强。
去掉 Process Rewards 或把 MA-GRPO 替换为标准 GRPO，四个 benchmark 上都会明显下降。
GeoMind 在 fragmentation analysis 中达到最低碎片化率，说明它不是简单平滑，而是在地层约束下减少不合理跳变。
GeoMind 对不同 lightweight predictor 都是 plug-and-play 增强器，在 XGBoost、InceptionTime、GPT4TS 上都能带来稳定提升。

数据集规模

Dataset	# Wells	# Samples	# Classes	Interval
SEAM	5	7,092	7	10m
Facies	7	3,164	9	0.5m
FORCE	11	52,766	5	0.15m
GeoLink	128	580,205	11	0.125m

引用

如果这个项目页或论文内容对你的研究有帮助，可以引用：

@article{zhou2026geomind, title={GeoMind: An Agentic Workflow for Lithology Classification with Reasoned Tool Invocation}, author={Yitong Zhou and Mingyue Cheng and Jiahao Wang and Qingyang Mao and Qi Liu}, year={2026} }

关联视角

从方法上看，GeoMind 展示了 Agentic Workflow 如何落到真实地球科学时序场景；从训练上看，MA-GRPO 则把过程奖励和模块级信用分配明确化，与站点中的 StepPO、Agent-R1 一起构成了从基础算法到垂直应用的连续脉络。