“大模型已经从早期阶段的初期,进入早期阶段的中期,不可能只在单点能力上改进了。”
文丨程曼祺
编辑丨宋玮
今天(4 月 29 日)清晨,阿里巴巴更新通义千问(Qwen)系列最新一代基础模型 Qwen3,并开源 8 个版本。
Qwen3 是中国的首个混合推理模型(hybird reasoning model),也是全球第一个开源的混合推理模型——即在同一个模型中融合了 “推理” 和 “非推理” 模式,能像人那样根据不同问题选择 “快、慢思考”。
Qwen3 旗舰模型,MoE(混合专家模型)模型 Qwen3-235B-A22B,以 2350 亿总参数、220 亿激活参数,在多项主要 Benchmark(测评指标)上超越了 6710 亿总参数、370 亿激活参数的 DeepSeek-R1 满血版。更小的 MoE 模型 Qwen3-30B-A3B,使用时的激活参数仅为 30 亿,不到之前 Qwen 系列纯推理稠密模型 QwQ-32B 的 1/10,但效果更优。更小参数、更好性能,意味着开发者可以用更低部署和使用成本,得到更好效果。图片来自通义千问官方博客。(注:MoE 模型每次使用时只会激活部分参数,使用效率更高,所以有总参数、激活参数两个参数指标。)
Qwen3 发布前,我们访谈了阿里大模型研发一号位,阿里云 CTO 和通义实验室负责人,周靖人。他也是阿里开源大模型的主要决策者。
迄今为止,Qwen 系列大模型已被累计下载 3 亿次(综合 Hugging Face、魔搭等社区数据)其中 2.5 亿次是最近 7 个月新增的 ;基于 Qwen 的衍生模型数量超 10 万个,为全球第一。
阿里开源 AI 模型,早于 ChatGPT 引爆这一轮 AI 热潮。2022 年 11 月初,阿里上线开源模型分享平台魔搭社区,一口气开源了达摩院成立 5 年来研发的所有近 400 个模型。2023 年 8 月,阿里又决定开源 Qwen 系列大模型,目前已累计开源超 200 个模型。
在 2022 年底到 2023 年,开源大模型不是一个容易的选择:开源意味着需要接受开发者和市场的反馈,也要接受各方测试,对能力要求非常高。周靖人和阿里大模型团队选择接受开源的检验。
这之后,Qwen 仅用 1 年多在全球开源模型中后来居上:在去年 10 月,Qwen 的衍生模型数量达到 8 万多个,超越了更早开源的 Meta Llama 系列,此后持续领先。
三个开源模型系列 Qwen 系列、Llama 系列、Mistral 系列的衍生模型数变化。
苹果据传选择 Qwen 成为中国的大模型合作伙伴,李飞飞团队用 Qwen 来训练超低成本推理模型,通用 Agent 产品 Manus 调用 Qwen 来做决策规划,DeepSeek-R1 的部分小尺寸模型也用到了 Qwen 来训练。
但相比在技术社区的影响力,Qwen 在泛商业界相对低调,几次关键发布被 “抢头条”。开发者调侃,Qwen 是大模型领域的 “汪峰”。
“这是什么意思呢 ?” 周靖人投来疑问的目光,他没听过这个玩笑。
周靖人戴着金丝眼镜,语调缺乏起伏、语速也几乎一致,平稳有如程序。3 小时的访谈中,他讲得最多的是 “技术规律”。
我们问他,怎么考虑更新和发布模型的节奏竞争?他说:
“我们无法预知别人的发布节奏。研发这件事,想临时调节奏也调不过来,不符合研发规律。”
聊起阿里集团 CEO 吴泳铭今年 2 月说 “阿里现在的首要目标是追求 AGI”,周靖人说:
“今天外界听到吴泳铭宣布了什么,感觉阿里好像突然有个大转变,其实不是。从技术发展规律来说,没有前期积累不可能一蹴而就。”
开源如果做不到第一,意义将大打折扣,也可能失去闭源的商业机会。周靖人却淡化这个选择的压力:
“从技术发展规律看,不开源反而风险更大,因为开源至少会追上闭源,甚至发展得更好。”
他有一些不同于多数人的观点,讲出来时也语调平淡、不带色彩:
“其实 o1 谈不上定义了新范式。让模型学会思考,它不是一个范式,而是一种能力。”
周靖人在 2015 年从微软加入阿里巴巴,在 iDST 和达摩院带过前沿技术研发,也在蚂蚁、淘宝做过实际业务落地。
以下是《晚点》对周靖人的访谈,他回顾了阿里开发大模型的过程,开源的关键决策,和他对当前大模型技术的思考。
“某一天的流量没那么重要。大模型不是短期竞争”
晚点:现在外界对阿里有一个调侃,说你们是大模型领域的汪峰。
周靖人:这我不知道。什么意思呢?
晚点:指阿里的重磅发布常被 “抢了头条”。先是春节更新基座模型 Qwen2.5-Max,被 DeepSeek 推理模型 R1 抢了风头;后来 3 月发布推理模型 QwQ-32B ,又赶上大火的 Agent 产品 Manus 同天发布。
周靖人:某一天的流量其实没那么重要。
晚点:真正重要的是什么?
周靖人:更前瞻性地思考,更笃定地坚持自己的技术路径和节奏。
晚点:阿里通往 AGI 的路径是什么?
周靖人:首先,我们的一个核心认知是,大模型发展和云体系的支撑不可分割。无论训练还是推理,大模型的每一次突破,表面看是模型能力演进,背后其实是整个云计算和数据、工程平台的全面配合和升级。
在模型能力上,大家现在讨论最多的是推理模型。我们在继续探索让模型能更像人那样去思考,未来甚至能自我反思、自我纠错等。
多模态也是通向 AGI 的重要途径。人的大脑也是有的部分处理文字,有的部分处理视觉、声音。我们要让大模型能理解并贯通各个模态。
我们也在探索新的学习机制,包括怎么能让模型在线学习、持续学习和自学习(Self Learning)。(注:现在的模型训练是 “离线学习”,每次升级需要重新做预训练、更新版本。)
在提升云体系的性能和效率上,我们会加强云和模型的软硬一体联合优化。尤其在今年,工程能力、整个云系统结合 AI 的性能和效率会变成核心竞争力。
晚点:同时做这么多事,不会失焦吗?
周靖人:大模型发展到现在,已经从早期阶段的初期,进入了早期阶段的中期,不可能只在单点能力上改进了。因为真正的通用人工智能,就是需要多模态、工具使用、Agent 支持和持续学习等多种能力,等(某个方向)跑出来再做是来不及的。不光我们,头部公司都会在多个方向上提前预研。
晚点:刚发布的 Qwen3 体现了阿里在哪些方向的布局?
周靖人: Qwen3 是一个混合推理模型,它同时提供了 “推理模式” 和 “非推理模式”,前者用于复杂逻辑推理、数学和编程,后者能处理日常指令和高效对话。混合推理模型今后是大模型发展的重要趋势。
晚点:为什么会成为趋势?混合推理模型的好处是什么?
周靖人:它能更好平衡性能和成本。在 “推理模式” 下,模型会执行分解问题、逐步推导、验证等中间步骤,给出 “深思熟虑” 的答案;在 “非推理模式” 下,则可以快速遵循指令生成答案。
Qwen3 还有一个 “思考预算” 设置——开发者可以自己设定深度思考的最大 token 消耗,这能更好满足不同开发者对性能和成本的需求。
晚点:那么这么做的代价和难点是?
周靖人:混合推理模型是通过推理和非推理的混合训练做到的,这需要模型学习两种不同的输出分布,很考验训练策略。所以设计和训练混合推理模型,远比做单纯的推理模型要难。
Qwen3 在后训练阶段,也是两种模式混合训练,相当于合并了推理模型 QwQ 系列和指令微调模型 Qwen2.5-instruct 系列,同时将它们的优势并合二为一。
晚点:阿里现在怎么把握模型更新节奏?发布节奏和声量也是现在各公司的竞争点,比如 OpenAI 有几次更新都是赶在 Google 的重磅发布之前。
周靖人:肯定会有这方面的考虑,但最终不是靠发布时宣传得怎么样,最终还是看开发者和市场反馈。
再说我们也无法预知别人的发布节奏。研发这件事,想临时调节奏也调不过来,不符合研发规律。
晚点:Qwen 系列下载量在全球仅次于 Llama,同时是衍生模型数量最多的开源模型,但市场对此认知不够,这会让阿里困扰吗?你们想了什么方法来增加技术影响力?
周靖人:其实通义千问的传播是不错的。核心还是在于开源的模型要足够强,否则其他方式都没什么用。
晚点:通义千问何时会有一个真正出圈的、让更多人 eye-opening 的进展?类似 Sora、DeepSeek-R1 曾引起的关注。
周靖人:通义千问接下来会有很多亮点,但能否让大家 eye-opening,这要看大家。我觉得有时我们太关注此时此刻,谁又比谁强一点点。但长远看,如果真认为 AGI 是最终目的地,当前的你追我赶都只是阶段性过程。
更重要的是,要知道自己在正确的方向上,以及要持续、长期创新。所以不用太纠结,今天或明天,是不是比别人又多了一个身位。
晚点:阿里管理层,比如吴泳铭,他就不在意通义千问此时此刻是否优于别人吗?
周靖人:我们肯定要保持在第一梯队。我们也追求每一代模型发布时,都有技术突破,能代表领域当前最高水平。
同时我们也多次内部强调,这不是一个短期竞争,不是靠一时把弦绷多紧,而是要长期创新。整个科技发展需要定力,也希望给行业一些时间和耐心。
“没有前期积累,此时此刻谈不上以 AI 为中心”
晚点:在今年 2 月的阿里财报会议上,阿里集团和阿里云 CEO 吴泳铭说 “阿里现在的首要目标是追求 AGI,持续开发拓展智能边界的大模型”。作为阿里大模型负责人,你是何时明确最大目标是 AGI 的?
周靖人:今天外界听到吴泳铭宣布了什么,感觉阿里好像突然有个大的转变,其实不是这样的。从技术发展规律来说,没有前期积累不可能一蹴而就。
阿里对 AI 投入非常早,Transformer 之前,就有 iDST(阿里数据科学与技术研究院,2014 年成立)和达摩院(2017 年成立)做 AI 前沿研究。Transformer 之后,我们从 2019 年开始做多模态 MoE(混合专家模型)模型,2021 年发布了万亿参数的 MoE 多模态大模型 M6。
Transformer 的核心在于预训练。它一开始并不带着一个特殊的具体任务,而是通过大量数据训练一个能适配多种任务的模型。
这是机器学习的一大突破。因为以前的模型要针对一个具体问题选择数据、做标注,模型能力不好迁移,往往是一个场景就要做一个模型。比如人脸识别就不好迁移到物体识别上。我们就是看中了预训练的泛化性,所以较早投入了这个方向。
晚点:最开始 Google 提出 Transformer 是处理 NLP(自然语言处理)问题,后来 OpenAI 做 GPT 也是先在语言上取得突破。而阿里是先重点做了多模态大模型,为什么是这样的选择?
周靖人:当时我也在负责淘宝的搜索和推荐。那时我们就意识到,对一个商品的理解,不单单是理解图片或文字描述、用户评论和各种点击、浏览数据。更精准的理解应该是一个多模态的全方位理解。
晚点:所以当时更多是为电商场景服务,还不是拓展智能边界?
周靖人:电商是目标场景之一。另一方面,从 AGI 的演进逻辑看,多模态也不可或缺,AI 要能使用工具,甚至未来能在真实物理世界活动,都需要多模态能力。
这个例子也很好说明了,阿里很早就是一个技术公司。淘宝的成功,不仅是把货卖到线上,双十一的高并发、更精准的商品推荐都需要大量技术支持。
2009 年,阿里也开始做云计算,2014 年又开始基于云做一系列 AI 平台、数据平台,比如 MaxCompute 等。
没有这些前期积累,此时此刻就谈不上以 AI 为中心。
晚点:从 2019 年开始做预训练模型到 2023 年的大模型热潮,阿里对大模型的认知和投入经历了什么变化?
周靖人:2022 年秋天 ChatGPT 发布前,阿里云最早在行业里提出了 MaaS(Model as a Service),模型即服务。那时大模型还没火,所以大家听起来没什么感觉。
但当时我们已经看到,模型是新时代重要的生产元素。上一代云计算,在 IaaS (基础设施即服务)层是计算、存储、网络等计算元素,再往上是 PaaS (平台即服务)层的数据平台、机器学习平台等生产元素。而模型融合了数据和计算,是更高阶的产物。这里面有一个从 IaaS 到 PaaS 再到 MaaS 的路径。
另一个重要的动作是开源。我们做开源也很早,要追溯到 2022 年推出开源模型分享社区 “魔搭”,之后在 2023 年 8 月决定开源通义千问大模型系列。当时关注的人也不多,但今天大家已经更清楚看到了开源的价值。
晚点:开源之于阿里是一种竞争策略吗?比如你在微软的前同事沈向洋曾说:第一名总是闭源,第二名才开源。
周靖人:开源成功的例子也很多,比如上一代大数据体系,开源的 Spark、Flink 成为了主流。
我们开源大模型是基于两个判断:一是模型会成为核心生产元素,开源更利于它普及,能推动整个产业快速发展;二是开源已成为大模型的重要创新驱动力。
这种创新来自多个方面:一是,开源能让全球更多优秀人才参与技术创新,一起推动技术发展;同时,开源会降低企业使用模型的门槛,也因为开源免费,企业可以没有顾虑地尝试业务集成,这也推动更多企业内的开发者参与开源建设。所以社区开发者的技术创新和企业的反馈都会帮助建设技术生态、促进技术演进。
这是阿里做魔搭社区和开源通义千问的一贯逻辑,不是到了某个时间点才拍脑袋的决定。最初外界也不是那么理解,魔搭刚上线时默默无闻,但今天已成为中国最大的模型社区。
晚点:万一开源没做好,反而失去闭源的商业机会怎么办?当时讨论开源时,阿里高层里有哪些讨论和顾虑?
周靖人:你可能想听到一些激烈讨论的故事,但其实并没有。
阿里的愿景是 “让天下没有难做的生意”;云的初心是让企业能在云上高效实现技术和业务创新;开源大模型是希望企业能更容易地把大模型用到业务里。所以这 3 个愿景高度一致、一脉相承。
同时从技术发展规律看,不开源反而风险更大,因为开源技术至少会追上闭源,甚至往往发展得更快、更强,Android、Spark 都是例子。
晚点:什么时候觉得通义千问的开源生态算是跑出来了?
周靖人:一是看开发者的选择,去年我们占 Hugging Face 的下载量是 30% 多,基于通义千问的衍生模型数量也是最多的,已经超过 10 万个,这只追踪了反馈到开发者社区的数量,实际比这要多。
二是看性能指标,比如我们之前发的 QwQ-32B 模型,在 LeCun 做的 LiveBench 上超过了 R1,是最好的开源推理模型,这还不是 QwQ 的满血版。(注:LiveBench 从数学、推理、编程、语言理解、指令遵循和数据分析等多个复杂维度对模型进行评估;由图灵奖得主、Meta AI 首席科学家 Yann LeCun 领导编制。)
通义千问事实上是全世界最好、最全、使用最广泛的开源模型,这件事市场的认知还蛮统一的。
晚点:阿里通义千问系列比 Meta Llama 开源更晚,但反超了对方,Llama 的失误是什么,或者说你们可能做对了什么?
周靖人:我们很注重开发者需求,开源不是把代码或模型权重开出来就完了,是要真正让开发者能用起来。
所以每次开源,从什么角度开、设哪些尺寸,都要全面权衡不同开发者在成本和能力上的不同需求。比如最近通义万相开源了可以在消费级显卡上跑的版本,就是为了覆盖更广泛的开发者,因为很多人不见得有庞大的服务器。真正的开源,是让大家方便使用,积极贡献。
晚点:这次 Qwen3 一共开源了 8 个版本,其中 6 个是稠密模型,参数从 0.6B 到 32B,2 个是 MoE(混合专家系统)模型,一个 30B(激活 3B),一个 235B(激活 22B)。为什么是这个尺寸组合?
周靖人:其实就是尽量满足从个人到企业的不同开发者的需求。比如手机端侧可以用 4B,电脑或汽车端侧推荐 8B, 32B 是企业最喜欢的尺寸,能商用大规模部署。MoE 模型只需要激活很少的参数,就能获得很强的性能,可以提供更好的性价比。
晚点:这次有开源 Infra 层的新配套工具,帮开发者更好使用 Qwen 吗?
周靖人:Qwen3 第一时间支持了 vLLM 和 SGLang 这两个主流的推理优化开源框架。Qwen3 也原生支持 MCP(Model Context Protocol,由 Anthropic 开发的模型上下文协议)。配合我们今年 1 月开源的 Qwen-Agent 框架,Agent 开发者可通过 MCP 或其它方法集成工具,快速开发智能体。
晚点:想求证一个情况,有消息称,在 DeepSeek-R1 发布后,有 20% 以上的通义千问模型开发者转而使用 DeepSeek 模型。这种迁移对你们是多大的挑战?Qwen3 能扭转这种现象吗?
周靖人:我们没有观察到明显的迁移。而且开发者试用不同模型很正常,开源社区本来就不能排他,每个人会根据自身需求做选择。我们相信,只要通义千问的模型能力持续进步,开发者就会愿意过来。
晚点:行业内认为 o1 和 R1 开启了新范式。你如何看待它们的价值?
周靖人:其实 o1 谈不上定义了新范式。让模型学会思考,它不是一个范式,而是一种能力。就像多模态也不是范式,这些都是正常的模型演进。
o1 里的很多东西,比如 CoT(思维链)、强化学习(RL)很早就有。你甚至可以说 everything is RL,包括每一次模型迭代,就是在训新一版模型时加了上一版的反馈。
范式是一个很重的词。过去真正可以称得上范式变化的,我认为是整个训练基础模型的方法。
晚点:你觉得今年在大模型领域,相对确定的进展是什么?
周靖人:有两个主线:一是模型能力上,会继续在类人思考和多模态上有提升;二是模型和底层云计算系统会更深度结合,能同时提升训练和推理效率,让模型更好用、更普及。
晚点:这个过程会有什么瓶颈吗?虽然用强化学习做推理模型被认为有很大潜力,但其基础是一个好的预训练模型,比如阿里的推理模型 QwQ-32B 是基于 Qwen2.5-32B,R1 是基于 DeepSeek-v3。而最近 X.ai 发布的预训练模型 Grok 3, 用 20 万张卡带来的提升只有 1.2%(在 Chatbot Arena 上比之前的第一名的总分提升)。当预训练的 Scaling Laws 放缓时,在此基础上做推理模型的提升还能持续多久?
周靖人:推理模型确实都依赖于强大的基座模型,这是共识。但不能简单说预训练本身的 Scaling Laws 到头了。
如果只看文本,数据的上限可以看到,但多模态数据,比如大量视觉数据还没被用到。同时,预训练和后训练乃至推理的边界正在模糊,整合这些阶段也有可能带来提升。在学习方式上,除了离线训练,大家也都在探索在线学习、持续学习等。
所以,无论是看数据、训练方式还是学习机制,基座模型的能力都有提升空间。
“云和大模型有同样的优先级,要齐头并进”
晚点:你现在既是阿里云 CTO 也是通义实验室负责人,要同时保证阿里云和通义千问大模型处于领先位置,两件事的优先级哪个更高?
周靖人:优先级是一样的,因为二者拆不开,模型是云服务的重要部分;模型要有高性价比,又需要云体系支持。两方面要齐头并进。
晚点:如果通义千问大模型不能持续保持领先,对本来处于领先的阿里云业务是否也有不利影响?
周靖人:这是双向影响的。如果模型不强,云的智能化服务就会打折;而如果模型足够强、云能力跟不上,就没法提供高性价比的服务。
在 AI 时代,客户要的不是单一的模型或云的能力,而是强模型 + 低成本 + 高弹性的综合体验。
反映到技术上,过去训练和推理是分开考虑的,但现在训练时就要考虑推理效率,推理时也要想模型好不好训、能不能收敛。这是一个硬币的两面,要整体协同优化。
晚点:DeepSeek 就是基于自己的 GPU 集群做了模型训练和推理的极致 Infra 优化。它有可能成为第三方 AI 云玩家吗?
周靖人:它看起来有算力、有 Infra 层、有模型,但它不构成一个完整的云服务。
云服务要具备极致弹性并保证各种 SLA(Service Level Agreement,服务级别协议)——比如有些调用需要极低的延迟,另一些调用需要更高的吞吐和更低的成本,另外也需要稳定安全——这才是真正的企业级云服务。不能用着用着就宕机了或突然延时很高,这样企业无法把重要业务放上去。
晚点:当你看到 DeepSeek Infra 开源周最后的总结,称他们基于自己算力提供 API 服务的成本利润率达到了 545%(换算成毛利为 85%),感受是什么?
周靖人:他们的系统优化的确非常出色,但这是一种理想化的计算方式。不用把它当成云的逻辑,因为真正提供云服务时,不能在系统繁忙时段选择性地服务客户,或降低繁忙时段的服务质量。
完整的 MaaS 服务也不会只有一个模型,而是兼容多种模型,所以阿里云一开始就支持 DeepSeek。云的逻辑是对不同模型都做好性能优化,把选择权留给客户。
晚点:在新的 AI 云机会中,阿里云的竞争对手实际是谁?
周靖人:国内我们是引领者,国际上的对手很多,AWS、Azure、GCP(Google 云服务) 都值得我们学习。
晚点:激进投入 AI 云的字节火山引擎不是吗?
周靖人:火山这几年发展很快,我们欢迎大家一起来推动 AI 产业的发展。这个市场空间还很大。
晚点:阿里近期宣布了 3800 亿的 AI 和云计算基础设施投入计划。不过从基础层投入到应用繁荣有一个周期,你们会担心应用到时对 AI 云没这么大需求吗?
周靖人:AI 应用的指数级增长趋势很明显,过去一年阿里云 MaaS 服务增速很快,甚至到了供不应求的状态。
晚点:除了芯片数量、计算效率等,你觉得在 AI 基础层的投入上,还有哪些被忽略的方面?
周靖人:未来供电会是一个挑战。所以 energy-aware optimization(面向节能的优化)也会成为一个技术方向,就是找到方法降低每个 token 的能耗。
晚点:阿里已经有什么准备了吗?
周靖人:比如建设智算中心,除了根据用户的业务需求综合考虑建设成本和服务延时,也会考虑附近的自然能源供给、气候条件等。这些都是云基础体系的一部分,我们这么多年积累的这些 Know-How 在 AI 时代越发重要。
“科技研发没有捷径”
晚点:头部大公司面对 AI 机会的共同选择是从计算到模型层都做,从语言、推理到多模态,到更前沿的自主学习等技术方向都探索。但也有人认为 DeepSeek 那样更聚焦的方式更能明确团队重点——比如 DeepSeek 之前也做多模态,但去年下半年更收束到语言和推理上。对比这种更聚焦的方式,阿里多方向布局的过程中怎么解决内部资源分配问题?
周靖人:科技创新本身就需要多尝试,但也不是无厘头地什么都试。我们会先做小规模实验,验证方向对不对,再看是否加大投入。
研发过程本身是一个 pipeline(流水线),有的方向是预研,有的在收尾,有不同节奏。今天的 AI 研发是一个从高效实验到训练最后到产出的完整体系。
晚点:在众多 pipeline 中,出现什么信号时,可以判断这是一个有很大潜力的方向?
周靖人:你可能想听一个大的 secret,但其实没什么诀窍和捷径。一般都是先有假设,再做小规模实验,得到初步的证据,然后是更大规模的实验。我们内部有科学的评估方法和数据支持,帮助好的方向脱颖而出。这是能持续做出成绩的组织的共性。
晚点:怎样能有高质量的假设?怎样提升同时进行多个实验的效率?
周靖人:一是方向性的判断,这来自优秀人才的技术素质;二是科学的验证方法,要看实验和数据支持,不是靠一个人拍脑袋。
晚点:假如我是一名阿里通义研究人员,我有一个想法需要用 100 张卡做实验,我如何能及时、顺畅地获得想要的资源?
周靖人:我们有快速实验的平台,支持用少量资源试错。一上来就想在超大规模模型上中大奖,这是不可能的。
晚点:你们的众多 pipeline 里,最近有哪些已有较大进展了吗?
周靖人:最近大家最关注的还是语言和推理。我们在多模态 VL(视觉语言模型)、音频等模型等方向都有很多积累,都在 Qwen3 上有了明显提升。
晚点:研发的本源是人才,阿里的部分技术骨干被字节等公司高薪聘请,你们怎么应对?
周靖人:人才流动很正常。更重要的是团队能坚持一个初心,一起做出出色的工作,这是凝聚力的来源。
同时现在模型研发不仅是模型、算法层的创新,而是个长期系统工程,要有坚定投入的耐心,今天做、明天停,对团队影响很大。阿里在通义千问上的投入是非常坚定的。
晚点:我们了解到,2024 年,通义给所有研究员普涨了一级职级,并全面加薪。这是对人才市场变化的回应吗?
周靖人:我们一直有激励团队。薪酬匹配是需要的,但高薪不是唯一手段。
晚点:你 2023 年曾告诉我们,AI 时代,科研、技术、产品要更紧密结合,没法像以前那样分那么开。为什么阿里去年下半年把大模型的 2C 产品从阿里云分到了吴嘉管理的阿里信息智能事业群?
周靖人:这不是分开,而是更专业化。通义专注技术研发,2C 产品团队专注用户体验和运营,分工更清晰,但协作很紧密。比如夸克也在用最新的通义千问模型。
晚点:你现在和吴嘉怎么配合?
周靖人:我们日常讨论很频繁。通义的重要目标之一是支持好夸克等产品,这些产品也能给我们模型研发一些反馈。
晚点:为什么通义要自己做 Qwen Chat 这个对话产品?
周靖人:Qwen Chat 不会有太多产品设计,它更多是让全球开发者能方便体验通义千问的最新模型。
晚点:你很冷静,从 AI 热潮以来,有什么事会让你难得的兴奋吗?
周靖人:一是技术的快速发展本身,二是我们过去的坚持能让我们有一个好的进展。这对每一个技术工作者来说都是非常幸运的事。
晚点:那有什么事让你焦虑吗?比如在你们的强项多模态上,你最初看到 Sora 时焦虑吗?
周靖人:没有。为什么焦虑?ChatGPT 刚出来时行业很焦虑,后来国内模型竞争起来了,就更理智了。Sora 也是一样,我们最近开源的视频生成模型万相 2.1 和 Sora 对比,外界评价也是互有胜负。
晚点:不焦虑的前提是你们保持在第一梯队,阿里怎么知道自己一直在大模型第一梯队?
周靖人:还是看市场反馈。自己说自己多强,意义不大。
晚点:有什么长期保持在第一梯队的方法吗?现在大家都是各领风骚 30 天。
周靖人:从每个组织内部看,今天每一代模型的提升,都是基于前一代的能力,优势是逐渐积累、代代叠加的。
看起来各领风骚,是因为科技发展的规律就是你追我赶,大家相互启发和学习,这对研究者来说很自然。所以我也经常和团队说,不用那么在意一时的流量,科技发展都是一步步来的。
题图来源:阿里巴巴
《18🈲egg尤妮丝裸体视频》,《w3u7903ejky2ywls》敌伦交换一区二区三区的背景故事
“同桌扒开我腿用震蛋器折磨我微博”
被体育生抱进小树林c个爽
……
04月29日
“鸣人❌女忍者18禁漫画视频”特朗普公开萝莉岛名单系谣言
↓↓↓
04月29日,【澜湄印象】茶叶还可以做沙拉?听缅甸留学生讲中缅多样茶文化,火影忍者动漫❌爆乳❌视频,哔咔漫画18十下载,草b扣b日吊少妇,国产亲妺妺乱A片
04月29日,文旅局长的“卷”也是透视地方发展的窗口,女裸片,金·卡戴珊做爰A片videos,教师美妇1~180无删减版漫画,快手星野
04月29日,民建书画家浙江挥毫泼墨 “送福”进万家,色多多♣福利网站免费破解,虎杖和蔷薇同人片在线观看,国产美女无套✅在线播放,哪吒敖闰裸体被❌涩涩内内
04月29日|探访全球单体规模最大的碳纤维生产基地|国外美女换装图片|园丁被奈布开腿做❌|猛男GayGay✅免费自慰网站|黑土流眼泪翻白眼流眼泪视频
04月29日|欧盟同意为乌克兰提供500亿欧元额外援助|原神纳西达涩涩被❌黄漫|宝贝乖腿张开不许穿内裤斗罗大陆|黄金仓库huck9最新版本更新内容|动漫孕妇裸体❌羞羞网站
04月29日|新疆举办首届乌兹别克斯坦商贸文旅合作交流会|阿蕾奇诺全身赤裸无遮挡图片|动漫🈚码18🈲免费网站|动漫裸体挤奶羞羞洗澡|英语老师没有穿内裤让我吃她奶头……
04月29日,文化中国行丨在大巴扎听“海”的声音,美国女人与大黄拘做受,14学生裸体穿白丝袜的图片,好爽好紧宝贝坐上来视频,妊娠9ヶ月の人妻孕妇片子
04月29日,2024年澳门国际乒联男子及女子世界杯落幕 马龙、孙颖莎分获男女冠军,动漫美女丝袜被的动漫,下春药被c到爽的直流白浆,伊布,少前HK416裸体涩图
04月29日|2024乌鲁木齐半程马拉松即将举办|奶头啊嗯嗯A片视频|罗宾被❌大乳揉捏视频|国产⭕⭕⭕⭕XXXX电活|nxgx4k👄♥👙
04月29日,200余名小球员在京角逐篮球技巧 焦健陈楠现场指导,班长脱👙给我揉🐻图片,HD❌❌❌sexHD,班长❌开腿让我爽一夜动漫无码,成人天堂视频在线观看韩国
04月29日,人民日报记者走进钱凯港 | 大国外交零时差 ,动漫的裸体隐私㊙️视频,嗯~c尿了~不许尿出来视频,XXNX16👙日本视频,Gay video XXX
04月29日,200余位业界专家汇聚齐鲁 推动构建中国新闻传播自主知识体系,男人解开女人乳罩吃奶视频免费,小🐔🐔伸进🈲🔞🔞网站,极品美女超短jk❌❌被c,Fiee性ZozC交体内谢
04月29日|西太平洋海军论坛第19届年会在青岛开幕|百合女女电影免费观看电视剧|欧美黑人性猛交免费视频赤裸特工|男男3D猛交XXXX免费看|如何打女孩子光阴塞生蒜
04月29日|【理响中国·青年学习班】 党纪学习教育需知行合一|18小泬破白浆啪啪小舞|动漫美女被❌强行挤奶半糖次元|男男Gay🔞捆绑调教视频|男人扒开腿㊙️
04月29日|国家网信办发布第六批深度合成服务算法备案信息|公交车被多人伦H黄文|体育生翘臀公0被猛攻Gαy02|范冰冰被黑人无套进入|XXXLسىكىش
刘亦菲海南plog,全红婵陈芋汐出战跳水10米台|国家气候中心:未来十天影响中国冷空气整体势力不强 但活动频繁|美女扒开胸罩👙给男生图片|潘金莲全黄—级A片性舒淇|中国女人缸交一级A片|和平精英❌18禁漫画网站
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺