沃资讯
科技 财经 汽车 游戏 数码 资讯 商业

焱融科技张文涛:大模型时代,高性能全闪存储如何破解AI训练难题?

2025-10-03来源:快讯编辑:瑞雪

在QCon全球软件开发大会(北京站)上,焱融科技CTO张文涛分享了高性能全闪并行文件系统YRCloudFile的设计与实践,深入探讨了AI训练场景中的存储挑战与解决方案。张文涛指出,深度学习领域中,数据与算力是模型训练的核心要素,但数据规模和模型复杂度的快速增长导致存储性能成为制约训练效率的关键瓶颈。

张文涛通过meta的存储增长数据和某大客户的实际案例,揭示了AI时代存储需求的爆发式增长。他提到,2022年ChatGPT发布后,国内大模型厂商的数据量年均增速从20T跃升至60T,存储容量与性能需求同步激增。AI全流程中,数据采集、处理、训练、推理和归档各环节均面临不同挑战,其中训练环节对存储性能的要求最为严苛。

针对AI训练场景,YRCloudFile通过多项技术创新解决了高并发、海量小文件、带宽峰值等核心问题。系统采用静态数据路由算法,在文件创建时即确定存储位置,避免访问时的元数据查询开销,同时利用多磁盘并行提升带宽利用率。Multi-Channel技术通过网卡聚合突破单网卡带宽限制,NUMA亲和性优化避免跨节点内存访问,RDMA单边编程模式减少内存拷贝,共同将单节点吞吐量提升至480GB/s。

在海量小文件处理方面,YRCloudFile采用基于Dentry Hash的元数据分布策略,通过根目录固定、子目录哈希选择和本地性优化,确保元数据操作均匀分布且具备高效预取能力。测试数据显示,YRCloudFile在1亿至100亿文件规模下,元数据OPS性能稳定,远超开源CephFS的衰减表现。同时,系统通过弱化POSIX语义、异步close操作等技术,将小文件访问性能提升10倍以上。

为满足大规模集群需求,YRCloudFile设计了汇聚式心跳上报机制和UDP推拉结合的事件同步方案,支持200余个全闪节点和10万个客户端的扩展能力。智能数据分层功能通过时间和大小策略,自动将冷数据下沉至对象存储,同时保持业务透明无感。在AI训练中,数据预热功能确保GPU快速访问热点数据,避免冷启动延迟。

在运维层面,YRCloudFile提供多租户管理、访问权限控制、日志审计和回收站等安全特性,支持弹性数据网络打通多网络平面。针对单流业务,系统通过缓存预取优化性能;针对小模型训练,设置Cache HardLimit避免延迟抖动;针对IB网络拥塞,实施客户端限速保障整体吞吐量。

张文涛还介绍了YRCloudFile在推理场景的优化方案。系统为KVCache提供PB级缓存空间,单个节点支持40GBps带宽和低延迟访问,使长上下文场景的TTFT延迟降低13倍,高并发场景性能显著提升。DataInsight解决方案支持百亿级数据秒级检索,通过多维度组合查询和增量数据感知,帮助企业快速构建知识库平台。

张文涛毕业于华中科技大学计算机专业硕士,拥有15年分布式存储领域经验,主导了YRCloudFile从研发到落地的全过程。该系统已广泛应用于AI及高算力场景,具备丰富的架构设计和性能优化经验。

SAP中国战略升级:以云服务、行业深耕与本地化助力中小企业数字化腾飞
在全球经济数字化浪潮与中国“新质生产力”发展的双重驱动下,SAP作为全球企业管理软件与解决方案提供商,正持续深化其在中国市场的战略布局——近年来,中小企业数字化转型的需求愈发迫切,SAP的战略重心也日益向广阔…

2025-10-03

湖北建院2025级新生初体验:在大数据与AI世界开启科技逐梦之旅
在大数据创新工作室,“武汉建工施工云项目”让新生们惊叹不已,这个智慧工地的“大脑”正是大数据专业“数字住建”特色的生动体现。 从物联网的“技能匠心”到大数据与人工智能的“科技前沿”,信息与设备工程学院用一场场…

2025-10-02

丽水街头现共享轮椅:以科技之便融入日常,为城市添一抹温暖关怀
共享轮椅并不算一个全新的概念,但它在丽水的落地方式和实际作用,却反映出公共服务领域一些细微而积极的变化。今天就想和大家一起看看,这些共享轮椅是如何运作的,又为哪些人提供了便利。 除了提升使用效率,共享轮椅在外…

2025-10-02

10月1日起一批重要国家标准实施,涵盖机器人、云计算、养老等多领域
10月1日起,工业机器人动态稳定性试验方法、云计算超融合系统、湿巾及类似用途产品、养老机构康复辅助器具基本配置、全国一体化政务大数据共享交换等一批重要国家标准开始实施,将为规范新兴产业及未来产业健康发展、营造…

2025-10-02

iPhone16升级iOS18.7.1体验:续航提升、信号优化,相机与发热表现均有改善
苹果iOS18.7.1大概率就是iOS18最后一个版本了,很多用户都给予了高度评价,升级都后都表示更省电了,其他方面优化也超预期,综合体验远比iOS18.6.2更好,那么具体带来了哪些优化呢? 以上就是iPh…

2025-10-01

2025阿里云大数据AI产品矩阵:全链路能力闭环,赋能多行业数字化转型
本文聚焦2025年阿里云大数据AI产品手册核心内容,系统梳理了其一体化产品矩阵、核心产品能力、技术优势及应用场景,展现了阿里云在大数据与AI融合领域的综合布局。整体而言,阿里云大数据AI产品以开放兼容的生态…

2025-10-01

巧用双矽源特ChipSourceTek-CST8337,20W立体声方案省电高效又实惠
这一特性充分满足了双声道功率的要求,确保在驱动高阻抗负载时也能保持稳定的电压供应,避免因电流不足导致的音频信号削波失真现象。在消费类电子产品方面,如蓝牙音箱、智能音箱等,它为用户带来了高品质的立体声享受;在车…

2025-10-01

抖音旗下火山引擎全资设立深圳深空引擎科技公司 注册资本达千万
天眼查工商信息显示,近日,深圳坪山深空引擎科技有限公司成立,法定代表人为陈恺豪,注册资本1000万人民币,经营范围含计算机系统服务、数据处理服务、社会经济咨询服务、企业管理咨询、组织文化艺术交流活动、计算机软…

2025-10-01

Steam注册人机验证难题破解指南:从基础操作到专业工具助你顺利注册
一键优化网络连接:UU加速器通过全球加速节点,优化网络路由,让Steam验证服务器的连接更加稳定免费加速Steam:UU加速器支持Steam免费加速,无需担心额外费用问题智能切换IP:通过UU加速器的区服切…

2025-09-30

iPhone 5G设置全攻略:支持机型盘点、耗电问题解决及模式调整指南
若想使用5G 网络,除了要先向电信业者申办5G 资费外,当然最重要的就是手上的iPhone 要能够支持5G 网络,基本上只要是iPhone12 系列以后推出的机型都支持5G 网络,也就是说以下这13 款i…

2025-09-30