在新加坡人工智能发展进程中,一项重要合作引发全球关注。阿里云与新加坡国家人工智能计划(AISG)携手,共同带来重大成果:新加坡最新国家级大语言模型“海狮”(Sea - Lion v4),摒弃了此前采用的美国技术路线,转而全面基于阿里的通义千问Qwen3 - 32B开源模型构建。
这一合作成果意义非凡,是在全球AI竞争格局下的又一重要突破。此前,硅谷知名人士Chamath Palihapitiya宣布用Kimi取代OpenAI作为生产力工具,美国Vercel、Windsurf等编程平台接入智谱模型,爱彼迎CEO称阿里Qwen比美国模型更好用,而此次新加坡国家人工智能计划的认可,进一步证明中国开源模型在全球市场不断拓展影响力。在“主权AI”和“多语言适配”领域,中国开源大模型已展现出替代甚至超越硅谷巨头的潜力。
回顾过往,2023年12月,新加坡启动了一项价值7000万新元(约5200万美元)的计划,旨在提升多模态大型语言模型(LLM)的研究和工程能力,其中就包括开发Sea - Lion(东南亚语言一体化网络)。然而,东南亚这片拥有6亿人口、数字经济规模向万亿美元迈进的市场,长期以来却是西方AI的“盲区”。
数据匮乏是首要问题。在Sea - Lion诞生之前,meta Llama 2等主流模型中,东南亚语言内容占比仅0.5%。这种以英语为中心的训练逻辑,让以Llama2训练的早期Sea - Lion模型出现严重问题。在测试中,该模型竟将南美洲的委内瑞拉列为东盟成员国,这种缺乏区域常识的“幻觉”,暴露出西方通用模型在本地化应用上的巨大短板。
语言文化隔阂也给当地开发者带来诸多困扰。东南亚地区盛行“语码转换”,即在英语中夹杂方言,像新加坡式英语(Singlish)或马来西亚式英语(Manglish)。面对这种复杂的混合语境,标准的美式AI模型往往难以理解其中的细微差别和文化梗。
而且,Llama虽在开源模型中性能领先,但“英语中心主义”的基因难以改变,处理泰语、缅甸语等非拉丁语系文字时效率极低。AISG逐渐意识到,使用硅谷开源模型并非东南亚国家的最佳选择,他们需要的是真正懂多语言、懂亚洲语境的模型底座。
于是,在发布v4版本时,AISG将目光投向中国,选用阿里的Qwen3 - 32B作为新一代Sea - Lion的基座模型。与西方模型不同,Qwen3的基础模型在预训练阶段就通过36万亿个token的数据训练,覆盖全球119种语言和方言。这种“原生多语言能力”使Qwen不仅“懂”印尼语、马来语,还能从底层逻辑理解这些语言的语法结构,大大降低了AISG后续训练的难度。
为解决东南亚语言独特的书写习惯问题,Qwen - Sea - Lion - v4摒弃西方模型常用的“句子分词器”,采用更先进的字节对编码(BPE)分词器。鉴于泰语、缅甸语等语言通常没有明显词间空格,BPE技术能更精准切分非拉丁语系字符,不仅提高翻译准确度,还大幅提升推理速度。
商业落地现实考量也是阿里胜出的关键因素。东南亚有大量中小企业,无力承担昂贵的H100 GPU集群。Qwen - Sea - Lion - v4经过优化,可在配备32GB内存的消费级笔记本电脑上流畅运行。这意味着普通印尼开发者仅凭一台高配电脑就能在本地部署这个国家级模型,这种“工业级能力,民用级门槛”的特性,精准切中了该地区算力资源稀缺的痛点。
此次合作并非简单的“单向技术输出”,而是深度双向融合。根据协议,阿里提供强大通用推理底座,AISG则贡献珍贵的、经过清洗的1000亿个东南亚语言token。这些数据无版权风险,且东南亚内容浓度高达13%,是Llama2的26倍。阿里运用“高级后训练”技术,将这些区域知识注入Qwen,使其能精准捕捉当地文化神韵。效果立竿见影,在Sea - Helm评估榜单上,搭载阿里“心脏”的Sea - Lionv4迅速在同量级开源模型中占据榜首。
从新加坡Sea - Lion项目从AWS转向阿里云,从Llama转向Qwen的演变,可以看出全球AI格局正发生微妙变化。长期以来,全球技术基础设施几乎被美国垄断。但在大模型时代,中国企业凭借对多语言环境的深刻理解和极致的性价比优化,正成为“全球南方”国家构建主权AI的首选合作伙伴。