AI 数据构建师 · Data Architect

我训练 AI, 让它真正读懂业务。

专注大模型训练数据的设计与构建 —— 从 SFT、RLHF 到 RAG 知识库, 用高质量、可审核的数据,把模糊的业务需求翻译成 AI 能理解的语言。

02 核心项目
22K+ 标注数据
96% 交付合格率
01

关于我

Wille
AI Data Architect

我是 Wille,一名 AI 数据构建师,工作的核心是为大模型打造它赖以学习的"教材"。 模型的能力上限,往往不取决于算法,而取决于数据的质量。

我擅长把不规范、碎片化的业务知识,转化为结构清晰、标准统一、可量化审核的训练数据。 从训练数据的采集清洗、标注规则制定,到标注团队的统筹管理与质量复核,我把控数据生产的每一个环节。

我相信,好的数据工程是 AI 落地的真正门槛。 一个能用的 AI 产品背后,是无数次对数据边界、标注一致性和评测指标的反复打磨。

// 专业技能
SFT 数据构建 RLHF RAG 知识库 数据标注规范 语义切片 混合检索 + Rerank 质量审核 标注团队管理 模型评测
02

工作经历

2024.12 — 2026.04
AI 数据构建师
中山路荣进出口公司 · 大模型数据团队
  • 主导 SFT 训练数据全流程:数据采集、清洗、标注及质量审核,保障数据合规与一致性。
  • 参与 RAG 知识库全流程数据构建,支撑企业级 AI 问答能力落地。
  • 统筹标注团队的任务排期、培训考核与质量复核,建立标准化标注流程,持续提升标注效率与数据合格率。
03

项目展示

外贸智能问答助手训练项目
PRJ_01

为适配跨境外贸业务,搭建智能问答助手,解决询盘响应慢、业务话术不规范、新人上手周期长等痛点。 构建 SFT + RLHF 高质量训练数据集,用于模型微调。

职责 统筹 8 人标注团队,制定标注规则、培训考核、人效管控及奖惩制度。
成果 优化模型外贸业务表达能力,显著提升询盘回复的专业性与规范度。
22,000
中英双语训练数据
96%+
交付合格率
8 人
标注团队规模
SFTRLHF 双语标注模型微调
RAG 知识库搭建项目
PRJ_02

弥补通用大模型的外贸业务知识短板,针对性解决模型幻觉问题,搭建企业专属 RAG 知识库, 支撑 AI 对产品、报价、物流、售后等客户咨询的精准应答。

职责 主导知识库数据全流程构建 —— 业务场景梳理、采集清洗、语义切片、结构化整理,并制定数据入库规范。
成果 建成标准化外贸业务知识库,配合混合检索 + rerank 策略,有效降低模型幻觉。
标准化
知识库体系
↑ 检索精准度
混合检索 + Rerank
↓ 幻觉率
问答准确率显著提升
RAG语义切片 混合检索Rerank 模型评测
04

我对 AI 未来的看法

数据 · Data
数据,才是大模型时代真正的护城河

算法在快速趋同,开源模型触手可及。未来企业之间的差距,将由谁拥有更高质量、更贴合场景的专有数据来决定。

阅读全文
协作 · Human-AI
人类不会被 AI 取代,而是与 AI 重新分工

AI 擅长规模化执行,人类擅长定义问题与判断价值。真正的生产力跃迁,发生在两者边界被重新设计之时。

阅读全文
落地 · Deployment
能用的 AI,比"很强"的 AI 更重要

幻觉、不一致、不可控,是 AI 落地的真正障碍。RAG 与严谨的评测体系,正在让 AI 从"惊艳"走向"可靠"。

阅读全文