AI 数据构建师 · Data Architect

我训练 AI，让它真正读懂业务。

专注大模型训练数据的设计与构建 —— 从 SFT、RLHF 到 RAG 知识库，用高质量、可审核的数据，把模糊的业务需求翻译成 AI 能理解的语言。

查看项目 → 联系我

02 核心项目

22K+ 标注数据

96% 交付合格率

关于我

Wille

AI Data Architect

我是 Wille，一名 AI 数据构建师，工作的核心是为大模型打造它赖以学习的"教材"。模型的能力上限，往往不取决于算法，而取决于数据的质量。

我擅长把不规范、碎片化的业务知识，转化为结构清晰、标准统一、可量化审核的训练数据。从训练数据的采集清洗、标注规则制定，到标注团队的统筹管理与质量复核，我把控数据生产的每一个环节。

我相信，好的数据工程是 AI 落地的真正门槛。一个能用的 AI 产品背后，是无数次对数据边界、标注一致性和评测指标的反复打磨。

// 专业技能

SFT 数据构建 RLHF RAG 知识库数据标注规范语义切片混合检索 + Rerank 质量审核标注团队管理模型评测

工作经历

2024.12 — 2026.04

AI 数据构建师

中山路荣进出口公司 · 大模型数据团队

主导 SFT 训练数据全流程：数据采集、清洗、标注及质量审核，保障数据合规与一致性。
参与 RAG 知识库全流程数据构建，支撑企业级 AI 问答能力落地。
统筹标注团队的任务排期、培训考核与质量复核，建立标准化标注流程，持续提升标注效率与数据合格率。

项目展示

外贸智能问答助手训练项目

PRJ_01

为适配跨境外贸业务，搭建智能问答助手，解决询盘响应慢、业务话术不规范、新人上手周期长等痛点。构建 SFT + RLHF 高质量训练数据集，用于模型微调。

职责统筹 8 人标注团队，制定标注规则、培训考核、人效管控及奖惩制度。

成果优化模型外贸业务表达能力，显著提升询盘回复的专业性与规范度。

22,000

中英双语训练数据

96%+

交付合格率

8 人

标注团队规模

SFTRLHF 双语标注模型微调

RAG 知识库搭建项目

PRJ_02

弥补通用大模型的外贸业务知识短板，针对性解决模型幻觉问题，搭建企业专属 RAG 知识库，支撑 AI 对产品、报价、物流、售后等客户咨询的精准应答。

职责主导知识库数据全流程构建 —— 业务场景梳理、采集清洗、语义切片、结构化整理，并制定数据入库规范。

成果建成标准化外贸业务知识库，配合混合检索 + rerank 策略，有效降低模型幻觉。

标准化

知识库体系

↑ 检索精准度

混合检索 + Rerank

↓ 幻觉率

问答准确率显著提升

RAG语义切片混合检索Rerank 模型评测

我对 AI 未来的看法

数据 · Data

数据，才是大模型时代真正的护城河

算法在快速趋同，开源模型触手可及。未来企业之间的差距，将由谁拥有更高质量、更贴合场景的专有数据来决定。

阅读全文→

协作 · Human-AI

人类不会被 AI 取代，而是与 AI 重新分工

AI 擅长规模化执行，人类擅长定义问题与判断价值。真正的生产力跃迁，发生在两者边界被重新设计之时。

阅读全文→

落地 · Deployment

能用的 AI，比"很强"的 AI 更重要

幻觉、不一致、不可控，是 AI 落地的真正障碍。RAG 与严谨的评测体系，正在让 AI 从"惊艳"走向"可靠"。

阅读全文→