Harness Research 第一讲:定义及工具的配置

Jun 23, 2026·
Yn Lo
Yn Lo
· 2 min read
blog
Quote

Harness Research = Harness Engineering + Research Workflow

以驾驭工程的方法论构建科研 Agent 的完整运行环境,让 LLM 在约束、工具和反馈回路的支撑下,可靠地完成科研全流程。

1. 课程介绍

这个系列课程基于 Harness Engineering 的理念去完成科研任务,取名为 Harness Research (HR)

核心定义

Harness Engineering(驾驭工程) 指的是除 AI 模型本身之外,支撑 Agent 完成生产任务的全部基础设施与工程体系。

核心公式:Agent = LLM + Harness

其中 Harness 包括:

  • 系统提示词
  • 工具调用
  • 文件系统
  • 沙箱环境
  • 编排逻辑
  • 反馈回路
  • 约束机制

它不优化模型能力,而是通过环境设计、规则约束和执行机制让 AI 智能输出稳定、可预期。

类比理解

操作系统与 CPU:Harness 之于 Model,如同操作系统之于 CPU——无论 CPU 多强大,如果操作系统频繁崩溃,实际体验依然很差。

马与缰绳:Model 是马,Harness 是缰绳和马鞍,工程师是骑手——马有力量但没有方向,缰绳将力量引导为可控的行进。

关键洞察

OpenAI 实验表明,使用相同模型、相同数据和相同提示,仅改变运行时环境(即 Harness),编程基准测试成功率可从 42% 跃升至 78%

模型能力往往不是瓶颈,Harness 的设计质量才是决定性因素


2. 为什么选择 Trae

当前主流的 AI 编程工具有几种形态:命令行(如 Claude Code)、IDE 集成(如 Cursor/Windsurf)、独立客户端(如 Codex)。

Trae 的选择理由

对比维度Trae 的优势
vs Claude Code有可视化面板,文件编辑、终端输出、MCP 调用结果都可以直接看到,对非程序员更友好
vs Codex可以更清晰地了解每个文件的状态,方便追踪科研产出
vs Cursor/Windsurf对中文用户更加友好,界面和交互更符合国内用户习惯
扩展机制同时支持 MCP 和 Skill 两种扩展机制,生态兼容性好

简言之:Trae 在"功能完整"和"上手简单"之间找到了较好的平衡点,适合作为科研人员构建 Harness 的起点。


3. Trae 的能力边界

Trae 提供了大脑 LLM 和执行环境,但它主要是用来进行编程的。它提供了基本的 txt、md 等文本文件读写,以及代码文件的读写、运行、debug 等环境。

核心逻辑

一切需要在屏幕前解决的工作(电脑解决的问题),都可以使用编程的方式进行处理。

因为编程可以操作电脑,而 Trae 等工具提供了 AI 进行编程的能力,所以 AI 理论上可以完成电脑能够完成的任何问题

科研工作大部分是在电脑上完成的,故而 AI 可以帮助完成科研工作。

为什么需要 Harness

虽然有了大脑和环境,但如果没有对 AI 的约束和指导,AI 就如同一匹脱缰的野马,输出是随机的、不稳定的,甚至南辕北辙。

这就是为什么我们需要 Harness——通过工具、约束和反馈回路来引导 AI 的行为。


4. Trae 上下文的组成

一个关键前提:AI 没有记忆

LLM 本身是无状态的(stateless)——它不存储任何对话历史,每次请求都从零开始。

你在 ChatGPT/Claude/Trae 中感受到的"记忆",其实是应用层在每次发送新消息时,将之前所有对话历史(系统提示 + 历史消息 + 你的新问题)重新组装成一个完整的输入发给模型。

类比:就像跟一个失忆的人说话,但你每次都先把之前的聊天记录念给他听——他不是记住了,而是刚读完。

这意味着什么

  • 对话越长,每次发送的 token 越多,成本越高、速度越慢
  • 当对话超出上下文窗口限制时,最早的内容会被截断,AI 就"忘了"
  • 上下文的质量直接决定了 AI 的输出质量——这就是为什么我们需要精心管理上下文

上下文的组成

上下文(Context)就是每次组装给 AI 的全部"背景资料"。Trae 通过 # 符号在对话中引用上下文,分为两大类:

项目内上下文(IDE 内的信息)

类型说明
当前编辑器文件AI 默认能看到当前打开的文件,无需手动添加
终端输出选中的终端输出可作为上下文(如报错信息)
#Code引用特定函数、类或代码片段
#File引用整个文件的内容
#Folder引用整个文件夹的内容(依赖代码索引)
#Workspace引用整个工作空间,AI 自动检索最相关内容(依赖代码索引)

外部上下文(IDE 外的信息)

类型说明
#Doc上传个人文档集(支持 URL 抓取或本地 .md/.txt 文件),矢量化后本地存储
#Web联网搜索或指定网页读取内容

辅助上下文

类型说明
#Problems引用"问题"面板的诊断信息
#Rule引用项目级规则(如 .trae/rules/ 下的文件)
#Past Chats引用历史对话内容

科研场景中的典型用法:用 #Doc 上传领域知识文档,用 #Web 检索最新文献信息,用 #Folder 引用项目代码——这些组合让 AI 具备科研所需的领域背景。


5. Trae 功能的扩展

我们需要给 LLM 配置可以进行科研工作的"眼睛"和"手"。目前最需要配置的就是科研相关的 MCPSkill

检索渠道

  • 技能检索网站skillsmp.com(按 stars 排序,优先选择高星 + 近期更新的项目)
  • GitHub:搜索 “MCP server” 或 “claude skills” + 关键词,按 stars 排序

推荐 MCP(科研工具插件)

名称Stars功能GitHub
paper-search-mcp1.9k20+ 学术源检索(arXiv/PubMed/bioRxiv/Semantic Scholar),免费无需 API keyopenags/paper-search-mcp
zotero-mcp1.6k连接 Zotero 文献库,支持语义搜索、PDF 标注提取、引用分析54yyyu/zotero-mcp
scholar-sidekick-引用格式化(APA/IEEE 等 10000+ 样式)、文献验证(检测 AI 伪造引用)、撤稿检查scholar-sidekick.com

推荐 Skill(科研技能包)

名称Stars功能来源
AcademicForge-学术写作技能整合包(类似 Minecraft Forge 模组加载器),集成 247+ 个科研 Skills:scientific-agent-skills(133 个,覆盖 15+ 学科)/ AI-research-SKILLs(82 个,AI 研究方向)/ paper-polish-workflow(论文翻译润色审稿)/ humanizer-zh(中文去 AI 味)/ scientific-visualization(出版级图表)。支持在线选配站按需安装,Trae 友好HughYau/AcademicForge
medical-research-skills-550+ 医学研究专用 Skills,覆盖四大领域:Evidence Insights(文献检索与证据图谱)/ Protocol Design(实验方案与统计设计)/ Data Analysis(R/Python 生信代码生成)/ Academic Writing(SCI 论文撰写与投稿)。专为生物医学研究设计,包含临床队列设计、生物标志物分析、Meta 分析等专业化流程aipoch/medical-research-skills

6. MCP + Skills 的检索和配置

详见实操环节。


教学目标

完成本讲学习后,你应该能够:

  1. 理解 Harness Engineering 的核心概念:能够解释 Agent = LLM + Harness 的含义,区分 Model 与 Harness 的职责边界
  2. 理解 HR(Harness Research)的定位:知道如何将驾驭工程的理念应用于科研场景,明白"给 LLM 配置科研的眼睛和手"的含义
  3. 掌握 Trae 中 MCP 和 Skill 的检索与配置方法:能够独立在 skillsmp.com 等平台检索所需工具,并在 Trae 中完成安装配置
  4. 完成科研基础工具链的搭建:成功配置 paper-search-mcp 和 academic-research-skills,并验证其可用性

课后练习

1. 概念理解

用自己的话解释"为什么同一模型,仅改变 Harness 设计,输出质量可以大幅提升",并举一个具体的科研场景说明。

2. 工具检索

skillsmp.comGitHub 上搜索一个你研究领域的相关 MCP 或 Skill,记录其名称、功能描述、stars 数和最后更新时间。

3. 实操配置

在 Trae 中完成 paper-search-mcp 的配置,使用它搜索一篇你研究方向的论文,截图搜索结果。

4. 实操配置

在 Trae 中完成 academic-research-skills 的配置,尝试使用 deep-research 模块对你研究方向做一次快速文献调研。

5. 思考题

如果让你为 LLM 设计一个"科研 Harness",除了文献检索和论文写作,还需要哪些工具或约束?列出至少 3 项并说明理由。


Yield Nursing Logic, Optimized.

Weibo
Douban
Yn Lo
Authors
Yn Lo (Yield Nursing Logic, Optimized)
硕士 | 主管护师 | 程序员
护理界的极客,代码圈的男丁格尔。