从林俊旸离职谈起高质量数据集的困境
(穆帅先)最近阿里Qwen团队的大新闻,相信关注AI圈的朋友都刷到了——灵魂人物林俊旸突然离职,一时间各种猜测满天飞。
有人说是人事变动闹的,周浩入职接手后训练团队,绩效考核也改了;也有人说是团队发展理念不合。但扒开表面原因,核心就一个:Qwen团队要从原来的垂直整合体系,拆成预训练、后训练、文本图像语音各管一摊的水平团队。
说白了,就是整个团队的核心逻辑变了,从围着模型转的业务流,变成了围着数据转的业务流。
这事儿看着是阿里内部的团队调整,实则戳中了整个AI行业发展到现在的核心痛点:高质量数据集的建设,早就成了大模型往前走的最大坎儿。

林俊旸的离职,不过是这个行业困境的一个缩影而已。 今天就借着这个事儿,跟大家好好聊聊AI行业的数据集难题,以及这背后藏着的行业逻辑变化。
两种业务流,其实是AI发展的两个阶段
聊数据集之前,得先把这次Qwen团队调整的核心——垂直体系和水平体系说清楚,这俩词儿听着玄乎,其实掰开了特简单。 林俊旸掌舵的Qwen团队,之前走的就是垂直整合的路子。啥意思?就是从预训练、后训练到文本、图像、语音这些多模态融合,全流程都在一个团队里,所有环节都围着模型的迭代来转。比如预训练时发现数据有偏差,后训练环节能立马调整;多模态数据融合的效果不好,团队内部能快速沟通优化,整个流程的协同性拉满。
这种模式的好处太明显了,小而精,效率高,特别适合大模型的探索期。毕竟那会儿大家都在拼技术突破,Scaling Law的红利慢慢退了,预训练、后训练和底层基建必须咬得特别紧,才能搞出点新东西。
Qwen能在开源大模型里快速杀出重围,靠的就是这套垂直体系,数据全程服务于模型,一切以提升模型性能为目标,不搞花里胡哨的。
而这次要改成的水平分工体系,思路完全不一样。
把预训练、后训练、各模态数据处理全拆成独立团队,每个团队就干自己那摊专业活儿,比如预训练团队只管海量数据的清洗标注,图像团队就深耕图像数据的质量提升。核心是把数据做成标准化的“产品”,不是为某一个模型服务,而是为公司所有的AI业务兜底。
为啥阿里要做这个调整?其实是行业发展的必然。现在大模型早就不是实验室里的玩意儿了,要落地到AI云、各种AI App这些商业场景里,单一模型的突破已经满足不了需求了。
你想啊,做金融大模型需要金融数据,做医疗大模型需要医疗数据,要是每个模型都单独建一套数据体系,纯属浪费资源。只有把数据标准化、规模化,才能支撑起全场景的应用,这是平台型企业做AI的必经之路。
当然,这俩模式没有绝对的好坏,就是适配不同的发展阶段。垂直体系赢在灵活和协同,适合技术探索;水平体系赢在专业和规模,适合产业落地。
林俊旸的离职,本质上就是技术探索的理念和产业落地的逻辑撞了车,大公司做AI,终究要从“拼技术”往“拼落地”倾斜,只是这个过程里,总会有理念的碰撞。
别再幻想“万能数据集”了,AI不同阶段要不同的料
聊完团队架构,再说说核心的数据集问题。很多人对AI数据有个误区,觉得找个“高质量数据集”就能解决所有问题,其实大错特错。
AI领域的数据集分好多种,原始数据、预训练数据集、向量数据集、合成数据集、后训练数据集,还有文本图像语音这些模态数据集,各自有各自的用处,在AI研发的不同阶段,需求完全不一样,痛点也天差地别。
首先是原始数据,这是所有模型的基础,相当于做饭的原材料。它的核心痛点就是规模和质量的平衡。
原始数据就是网上扒的各种文本、图片、语音,胜在量大、种类多,能给大模型搭个基础的认知框架,但里面的“垃圾”也多——错字、重复内容、带偏见的信息,全是噪声。现在行业里的通病就是,要么为了凑数不管质量,海量低质数据喂进去,模型训练半天没效果;要么想精细化清洗,结果成本高到离谱,最后数据量又不够。
更头疼的是合规问题,公域数据都大同小异,没啥新鲜的,私域数据有价值但不敢随便用,活生生陷入“公域不够用,私域用不了”的尴尬。
然后是预训练数据集,这是把原始数据加工后的“半成品”,用来让大模型学会基本的“说话和思考”。
它的痛点是标准化和代表性的矛盾。预训练数据得覆盖语言、知识、逻辑各个维度,样本得有代表性,不然模型练出来就有认知偏差;同时还得标准化,不然训练起来忽快忽慢,不稳定。
但现在行业里没有统一的标准,每个团队都有自己的标注和分类方法,你做的数据集我用不了,我做的你也用不上,大家都在重复造轮子,资源浪费得厉害。尤其是专业领域,比如化工、生物医药,咱们自己的标准化数据集特别少,还得依赖国外的,这也是专业大模型发展慢的重要原因。
接下来是后训练和向量数据集,这俩是给大模型“做专项培训”的,相当于“成品调料”。后训练数据集是让模型学专业技能的,比如金融大模型学财报分析,医疗大模型学诊疗知识,核心需求不是“多”,而是准和贴合场景。
但现在的问题是,这类场景化的高质量数据太少了——专业数据都攥在头部企业和科研机构手里,不轻易开放;而且标注这些数据需要专业知识,普通标注团队干不了,专业标注又贵,最后很多企业只能用通用数据微调,模型的专业能力自然上不去。
向量数据集是支撑模型语义理解的,痛点是维度和效率的平衡,维度高了理解得准,但检索速度慢;维度低了速度快,精度又下来了,怎么找平衡点,至今都是个难题。
最后是合成数据集和多模态数据集,这俩是现在的热门,也是难点。
合成数据集是用大模型自己生成的数据,弥补真实数据的缺口,比如一些小众场景的真实数据少,就用合成数据凑数。但它的问题是真实性不够,生成的数据跟现实场景有偏差,用多了模型就会“脱离实际”;而且生成数据的多样性全看母模型的能力,母模型有偏差,合成数据也跟着歪。
多模态数据集则是要把文本、图像、语音揉到一起,让模型能跨模态理解,比如看张图片能说出内容,听段话能生成文字。它的核心痛点是跨模态融合,不同模态的数据格式、逻辑都不一样,怎么把它们捏合得自然,让模型能顺畅理解,这也是为啥之前Qwen的垂直体系有优势——内部协同快,能快速调优跨模态数据。
说白了,AI的研发就像做饭,从买菜(原始数据)、洗菜切菜(预训练数据)、调酱(后训练/向量数据)到创新菜式(合成/多模态数据),每个步骤需要的食材和处理方式都不一样,想靠一种“万能食材”做出满汉全席,根本不可能。
AI研究靠天才,数据工作靠工厂,这是天生的分野
林俊旸离职这件事,还有一个深层的原因,就是AI行业里两个完全不同的工作逻辑撞在了一起:AI研究靠“超级个体”,数据工作靠“工厂化”。这俩逻辑天生不一样,磨合不好就容易出问题。

先说说AI研究的超级个体逻辑。AI发展到现在,最核心的突破从来都不是靠堆人堆资源来的,而是靠少数“天才式”的人物踩出一条新路子。
从Transformer架构的提出,到Scaling Law的发现,再到多模态融合的创新,这些都是前沿探索,没有现成的路可以走,需要的是前瞻性的思维、极致的技术追求,还有把创意落地的能力。
林俊旸就是典型的“超级个体”,非科班出身却能带领Qwen团队杀出重围,靠的就是跨学科的视野和对技术的敏感度。这类超级个体,需要的是宽松的研发环境、高度的自主权,还有跨环节的协同能力。
为啥林俊旸坚持垂直体系?因为只有打破各个环节的壁垒,他的技术创意才能最快落地,不用走层层审批的流程,不用跟不同的团队反复沟通。AI的技术探索期,就是需要这样的模式,把人的创意发挥到极致,毕竟方向找对了,比啥都重要。
再说说数据工作的工厂化逻辑。跟AI研究的“创意驱动”不一样,数据工厂的核心是流程、标准和规模。不管是数据采集、清洗、标注,还是数据集的构建和复用,本质上都是重复性的工作,需要的不是天才创意,而是标准化的流程和高效的团队协作。
这就像传统的工厂,把生产过程拆成一个个标准化的工序,每个工人干好自己的活,最后就能大规模生产出产品。 现在AI行业的“数据工厂”已经越来越多了,比如有些地方的智能数据工厂,靠专业设备每天能产出几十万条高质量数据,效率比人工高多了。为啥数据工作一定要走工厂化?因为大模型产业化后,对数据的需求是海量的。
一个模型可能需要几亿甚至几十亿条数据,靠原来的小团队手工处理,根本不可能满足。只有工厂化生产,才能把数据的成本降下来,把效率提上去,实现标准化和复用,让数据真正成为企业的资产。
阿里把Qwen团队拆成水平分工,本质上就是要打造自己的“数据生产线”,让数据工作工厂化。但问题在于,很多企业容易走极端,要么只看重超级个体的创意,忽略了数据工厂的建设;要么一味追求数据的工厂化,打压了技术创新的活力。
其实这俩逻辑根本不是对立的,而是AI行业发展的一体两面。没有超级个体的技术突破,数据工厂生产的东西就没有核心目标,再多的数据也只是一堆数字;没有数据工厂的规模化生产,超级个体的技术突破就只能停在实验室,落不了地,成不了产业。
林俊旸离职的遗憾,就在于这次调整暂时偏向了工厂化逻辑,忽略了超级个体对技术探索的重要性。
破解数据集困局,核心就两个字:平衡
聊到这里,大家应该能看明白,林俊旸离职背后的数据集困局,根本不是某一家企业的问题,而是整个AI行业从“技术探索期”向“产业化期”转型的必然阵痛。这个阵痛里,藏着三个核心矛盾:业务流逻辑的失衡、对数据需求的认知偏差、超级个体和工厂化的逻辑冲突。而破解这些困局的核心,就两个字:平衡。

首先,企业要做好业务流的平衡,把模型驱动和数据驱动融合起来,而不是非此即彼。阿里的水平分工调整本身没问题,是适应产业化的需要,但不能把数据团队和模型团队完全割裂。最好的模式,应该是“水平分工的标准化生产+垂直协同的定制化优化”。企业层面搭好水平的数据团队,把通用数据集做标准化、资产化,降低整体成本;而模型研发的小团队,保留垂直协同的模式,根据技术创新的需求,把标准化数据做定制化优化,让数据精准匹配模型。同时还要建个高效的沟通机制,让数据团队知道模型需要什么,模型团队知道数据能提供什么,别让两边变成“各干各的”。
其次,行业要做好数据建设的平衡,建立统一标准,打破数据孤岛。现在行业里的重复建设、复用率低,核心原因就是没有统一的数据集标准。大家各玩各的,自然没法互通有无。所以行业层面得赶紧制定统一的标准,包括数据的分类、标注、质量评价,让不同企业的数据集能互相复用。同时还要建开放共享机制,比如让科研机构的高质量数据开放出来,培育数据交易流通平台,让数据的持有者和需求者能对接上。当然,合规和安全也得跟上,在保证数据隐私的前提下,让私域数据也能合法流通,解决“数据不够用”的问题。对于化工、生物医药这些专业领域,还得靠政府引导、企业和科研机构参与,共建行业级的数据集,别再依赖国外的了。
最后,整个产业要做好创新和效率的平衡,让超级个体和工厂化生产成为双轮驱动。AI产业的发展,既需要天才式的超级个体来开疆拓土,也需要工厂化的生产来夯实基础。这就要求产业生态能包容两种不同的逻辑:一方面,企业和资本要给超级个体足够的空间和试错成本,别用产业化的KPI去逼技术探索,毕竟真正的技术突破,从来都不是靠打卡加班来的;另一方面,也要重视数据工厂的建设,加大对数据基础设施的投入,培养专业的数据人才,让数据生产的效率和质量都提上去。
同时,还要培养既懂AI技术又懂数据生产的复合型人才,让两边的团队能顺畅沟通,消除思维壁垒。
说到底,林俊旸的离职,只是AI行业转型中的一个小插曲,但它给整个行业提了个醒:大模型的热潮褪去后,AI行业终于要回归本质了——数据是基础,算法是核心,应用是目标。 高质量数据集的建设,从来都不是一蹴而就的事,不是找一堆数据、建几个团队就能搞定的,它需要企业找好业务流的平衡,需要行业搭好标准和共享的框架,需要整个产业包容创新、尊重规律。AI的未来,从来不是模型和数据的对立,也不是超级个体和工厂化的矛盾,而是模型和数据共生,创新和效率双赢。
林俊旸的离开或许让人遗憾,但这件事带来的行业思考,远比一个人的去留更重要。当AI行业不再只盯着模型的参数和算力的大小,而是沉下心来打磨数据这个基础,这个行业才能真正走出泡沫,走向扎实的产业化发展。
而这,才是AI真正的未来。



















评论 0