从林俊旸离职谈起高质量数据集的困境

数据交易网

发布于 2026-03-09

数据人才数据集

当AI行业不再只盯着模型的参数和算力的大小，而是沉下心来打磨数据这个基础，这个行业才能真正走出泡沫，走向扎实的产业化发展。

（穆帅先）最近阿里Qwen团队的大新闻，相信关注AI圈的朋友都刷到了——灵魂人物林俊旸突然离职，一时间各种猜测满天飞。

有人说是人事变动闹的，周浩入职接手后训练团队，绩效考核也改了；也有人说是团队发展理念不合。但扒开表面原因，核心就一个：Qwen团队要从原来的垂直整合体系，拆成预训练、后训练、文本图像语音各管一摊的水平团队。

说白了，就是整个团队的核心逻辑变了，从围着模型转的业务流，变成了围着数据转的业务流。

这事儿看着是阿里内部的团队调整，实则戳中了整个AI行业发展到现在的核心痛点：高质量数据集的建设，早就成了大模型往前走的最大坎儿。

林俊旸的离职，不过是这个行业困境的一个缩影而已。今天就借着这个事儿，跟大家好好聊聊AI行业的数据集难题，以及这背后藏着的行业逻辑变化。

两种业务流，其实是AI发展的两个阶段

聊数据集之前，得先把这次Qwen团队调整的核心——垂直体系和水平体系说清楚，这俩词儿听着玄乎，其实掰开了特简单。林俊旸掌舵的Qwen团队，之前走的就是垂直整合的路子。啥意思？就是从预训练、后训练到文本、图像、语音这些多模态融合，全流程都在一个团队里，所有环节都围着模型的迭代来转。比如预训练时发现数据有偏差，后训练环节能立马调整；多模态数据融合的效果不好，团队内部能快速沟通优化，整个流程的协同性拉满。

这种模式的好处太明显了，小而精，效率高，特别适合大模型的探索期。毕竟那会儿大家都在拼技术突破，Scaling Law的红利慢慢退了，预训练、后训练和底层基建必须咬得特别紧，才能搞出点新东西。

Qwen能在开源大模型里快速杀出重围，靠的就是这套垂直体系，数据全程服务于模型，一切以提升模型性能为目标，不搞花里胡哨的。

而这次要改成的水平分工体系，思路完全不一样。

把预训练、后训练、各模态数据处理全拆成独立团队，每个团队就干自己那摊专业活儿，比如预训练团队只管海量数据的清洗标注，图像团队就深耕图像数据的质量提升。核心是把数据做成标准化的“产品”，不是为某一个模型服务，而是为公司所有的AI业务兜底。

为啥阿里要做这个调整？其实是行业发展的必然。现在大模型早就不是实验室里的玩意儿了，要落地到AI云、各种AI App这些商业场景里，单一模型的突破已经满足不了需求了。

你想啊，做金融大模型需要金融数据，做医疗大模型需要医疗数据，要是每个模型都单独建一套数据体系，纯属浪费资源。只有把数据标准化、规模化，才能支撑起全场景的应用，这是平台型企业做AI的必经之路。

当然，这俩模式没有绝对的好坏，就是适配不同的发展阶段。垂直体系赢在灵活和协同，适合技术探索；水平体系赢在专业和规模，适合产业落地。

林俊旸的离职，本质上就是技术探索的理念和产业落地的逻辑撞了车，大公司做AI，终究要从“拼技术”往“拼落地”倾斜，只是这个过程里，总会有理念的碰撞。

别再幻想“万能数据集”了，AI不同阶段要不同的料

聊完团队架构，再说说核心的数据集问题。很多人对AI数据有个误区，觉得找个“高质量数据集”就能解决所有问题，其实大错特错。

AI领域的数据集分好多种，原始数据、预训练数据集、向量数据集、合成数据集、后训练数据集，还有文本图像语音这些模态数据集，各自有各自的用处，在AI研发的不同阶段，需求完全不一样，痛点也天差地别。

首先是原始数据，这是所有模型的基础，相当于做饭的原材料。它的核心痛点就是规模和质量的平衡。

原始数据就是网上扒的各种文本、图片、语音，胜在量大、种类多，能给大模型搭个基础的认知框架，但里面的“垃圾”也多——错字、重复内容、带偏见的信息，全是噪声。现在行业里的通病就是，要么为了凑数不管质量，海量低质数据喂进去，模型训练半天没效果；要么想精细化清洗，结果成本高到离谱，最后数据量又不够。

更头疼的是合规问题，公域数据都大同小异，没啥新鲜的，私域数据有价值但不敢随便用，活生生陷入“公域不够用，私域用不了”的尴尬。

然后是预训练数据集，这是把原始数据加工后的“半成品”，用来让大模型学会基本的“说话和思考”。

它的痛点是标准化和代表性的矛盾。预训练数据得覆盖语言、知识、逻辑各个维度，样本得有代表性，不然模型练出来就有认知偏差；同时还得标准化，不然训练起来忽快忽慢，不稳定。

但现在行业里没有统一的标准，每个团队都有自己的标注和分类方法，你做的数据集我用不了，我做的你也用不上，大家都在重复造轮子，资源浪费得厉害。尤其是专业领域，比如化工、生物医药，咱们自己的标准化数据集特别少，还得依赖国外的，这也是专业大模型发展慢的重要原因。

接下来是后训练和向量数据集，这俩是给大模型“做专项培训”的，相当于“成品调料”。后训练数据集是让模型学专业技能的，比如金融大模型学财报分析，医疗大模型学诊疗知识，核心需求不是“多”，而是准和贴合场景。

但现在的问题是，这类场景化的高质量数据太少了——专业数据都攥在头部企业和科研机构手里，不轻易开放；而且标注这些数据需要专业知识，普通标注团队干不了，专业标注又贵，最后很多企业只能用通用数据微调，模型的专业能力自然上不去。

向量数据集是支撑模型语义理解的，痛点是维度和效率的平衡，维度高了理解得准，但检索速度慢；维度低了速度快，精度又下来了，怎么找平衡点，至今都是个难题。

最后是合成数据集和多模态数据集，这俩是现在的热门，也是难点。

合成数据集是用大模型自己生成的数据，弥补真实数据的缺口，比如一些小众场景的真实数据少，就用合成数据凑数。但它的问题是真实性不够，生成的数据跟现实场景有偏差，用多了模型就会“脱离实际”；而且生成数据的多样性全看母模型的能力，母模型有偏差，合成数据也跟着歪。

多模态数据集则是要把文本、图像、语音揉到一起，让模型能跨模态理解，比如看张图片能说出内容，听段话能生成文字。它的核心痛点是跨模态融合，不同模态的数据格式、逻辑都不一样，怎么把它们捏合得自然，让模型能顺畅理解，这也是为啥之前Qwen的垂直体系有优势——内部协同快，能快速调优跨模态数据。

说白了，AI的研发就像做饭，从买菜（原始数据）、洗菜切菜（预训练数据）、调酱（后训练/向量数据）到创新菜式（合成/多模态数据），每个步骤需要的食材和处理方式都不一样，想靠一种“万能食材”做出满汉全席，根本不可能。

AI研究靠天才，数据工作靠工厂，这是天生的分野

林俊旸离职这件事，还有一个深层的原因，就是AI行业里两个完全不同的工作逻辑撞在了一起：AI研究靠“超级个体”，数据工作靠“工厂化”。这俩逻辑天生不一样，磨合不好就容易出问题。

先说说AI研究的超级个体逻辑。AI发展到现在，最核心的突破从来都不是靠堆人堆资源来的，而是靠少数“天才式”的人物踩出一条新路子。

从Transformer架构的提出，到Scaling Law的发现，再到多模态融合的创新，这些都是前沿探索，没有现成的路可以走，需要的是前瞻性的思维、极致的技术追求，还有把创意落地的能力。

林俊旸就是典型的“超级个体”，非科班出身却能带领Qwen团队杀出重围，靠的就是跨学科的视野和对技术的敏感度。这类超级个体，需要的是宽松的研发环境、高度的自主权，还有跨环节的协同能力。

为啥林俊旸坚持垂直体系？因为只有打破各个环节的壁垒，他的技术创意才能最快落地，不用走层层审批的流程，不用跟不同的团队反复沟通。AI的技术探索期，就是需要这样的模式，把人的创意发挥到极致，毕竟方向找对了，比啥都重要。

再说说数据工作的工厂化逻辑。跟AI研究的“创意驱动”不一样，数据工厂的核心是流程、标准和规模。不管是数据采集、清洗、标注，还是数据集的构建和复用，本质上都是重复性的工作，需要的不是天才创意，而是标准化的流程和高效的团队协作。

这就像传统的工厂，把生产过程拆成一个个标准化的工序，每个工人干好自己的活，最后就能大规模生产出产品。现在AI行业的“数据工厂”已经越来越多了，比如有些地方的智能数据工厂，靠专业设备每天能产出几十万条高质量数据，效率比人工高多了。为啥数据工作一定要走工厂化？因为大模型产业化后，对数据的需求是海量的。

一个模型可能需要几亿甚至几十亿条数据，靠原来的小团队手工处理，根本不可能满足。只有工厂化生产，才能把数据的成本降下来，把效率提上去，实现标准化和复用，让数据真正成为企业的资产。

阿里把Qwen团队拆成水平分工，本质上就是要打造自己的“数据生产线”，让数据工作工厂化。但问题在于，很多企业容易走极端，要么只看重超级个体的创意，忽略了数据工厂的建设；要么一味追求数据的工厂化，打压了技术创新的活力。

其实这俩逻辑根本不是对立的，而是AI行业发展的一体两面。没有超级个体的技术突破，数据工厂生产的东西就没有核心目标，再多的数据也只是一堆数字；没有数据工厂的规模化生产，超级个体的技术突破就只能停在实验室，落不了地，成不了产业。

林俊旸离职的遗憾，就在于这次调整暂时偏向了工厂化逻辑，忽略了超级个体对技术探索的重要性。

破解数据集困局，核心就两个字：平衡

聊到这里，大家应该能看明白，林俊旸离职背后的数据集困局，根本不是某一家企业的问题，而是整个AI行业从“技术探索期”向“产业化期”转型的必然阵痛。这个阵痛里，藏着三个核心矛盾：业务流逻辑的失衡、对数据需求的认知偏差、超级个体和工厂化的逻辑冲突。而破解这些困局的核心，就两个字：平衡。

首先，企业要做好业务流的平衡，把模型驱动和数据驱动融合起来，而不是非此即彼。阿里的水平分工调整本身没问题，是适应产业化的需要，但不能把数据团队和模型团队完全割裂。最好的模式，应该是“水平分工的标准化生产+垂直协同的定制化优化”。企业层面搭好水平的数据团队，把通用数据集做标准化、资产化，降低整体成本；而模型研发的小团队，保留垂直协同的模式，根据技术创新的需求，把标准化数据做定制化优化，让数据精准匹配模型。同时还要建个高效的沟通机制，让数据团队知道模型需要什么，模型团队知道数据能提供什么，别让两边变成“各干各的”。

其次，行业要做好数据建设的平衡，建立统一标准，打破数据孤岛。现在行业里的重复建设、复用率低，核心原因就是没有统一的数据集标准。大家各玩各的，自然没法互通有无。所以行业层面得赶紧制定统一的标准，包括数据的分类、标注、质量评价，让不同企业的数据集能互相复用。同时还要建开放共享机制，比如让科研机构的高质量数据开放出来，培育数据交易流通平台，让数据的持有者和需求者能对接上。当然，合规和安全也得跟上，在保证数据隐私的前提下，让私域数据也能合法流通，解决“数据不够用”的问题。对于化工、生物医药这些专业领域，还得靠政府引导、企业和科研机构参与，共建行业级的数据集，别再依赖国外的了。

最后，整个产业要做好创新和效率的平衡，让超级个体和工厂化生产成为双轮驱动。AI产业的发展，既需要天才式的超级个体来开疆拓土，也需要工厂化的生产来夯实基础。这就要求产业生态能包容两种不同的逻辑：一方面，企业和资本要给超级个体足够的空间和试错成本，别用产业化的KPI去逼技术探索，毕竟真正的技术突破，从来都不是靠打卡加班来的；另一方面，也要重视数据工厂的建设，加大对数据基础设施的投入，培养专业的数据人才，让数据生产的效率和质量都提上去。

同时，还要培养既懂AI技术又懂数据生产的复合型人才，让两边的团队能顺畅沟通，消除思维壁垒。

说到底，林俊旸的离职，只是AI行业转型中的一个小插曲，但它给整个行业提了个醒：大模型的热潮褪去后，AI行业终于要回归本质了——数据是基础，算法是核心，应用是目标。高质量数据集的建设，从来都不是一蹴而就的事，不是找一堆数据、建几个团队就能搞定的，它需要企业找好业务流的平衡，需要行业搭好标准和共享的框架，需要整个产业包容创新、尊重规律。AI的未来，从来不是模型和数据的对立，也不是超级个体和工厂化的矛盾，而是模型和数据共生，创新和效率双赢。

林俊旸的离开或许让人遗憾，但这件事带来的行业思考，远比一个人的去留更重要。当AI行业不再只盯着模型的参数和算力的大小，而是沉下心来打磨数据这个基础，这个行业才能真正走出泡沫，走向扎实的产业化发展。

而这，才是AI真正的未来。

从林俊旸离职谈起高质量数据集的困境

为您推荐

评论 0