沃资讯
科技 财经 汽车 游戏 数码 资讯 商业

摩根大通云迁移启示录:三大目标、五大策略助力高效运维与性能提升

2026-01-08来源:快讯编辑:瑞雪

在当今数字化时代,金融机构的云迁移与分布式系统扩展面临着诸多挑战与机遇。摩根大通旗下的Chase.com在云迁移过程中积累了丰富的经验,其围绕三大核心目标展开的策略,为大规模系统管理提供了极具价值的参考。

在规划系统扩展时,人们往往只能预估两到三倍的负载增长。然而,互联网环境下,入站流量的规模、时间和使用模式难以控制。无论是合法业务增长带来的流量,还是恶意攻击者的行为,都可能引发巨大的负载激增。安全控制措施虽能阻止恶意流量,但市场波动引发的真实客户需求激增却需要系统具备应对能力。此时,多个组件可能同时故障,网络设备、负载均衡器、应用程序和数据库连接都可能中断。

Chase.com的云迁移聚焦于三大核心目标:以高成本效益和高效的方式实现弹性扩展、确保高韧性以及提供卓越性能。对于金融机构而言,高韧性尤为重要,而卓越性能则能防止用户因系统迟缓而转向其他服务。

在实现高效扩展方面,分析客户使用模式和行为是关键。组织需在保持弹性扩展能力的同时,发展预测能力。整体容量管理也不容忽视,单纯增加服务器并非成功之道,还需权衡成本因素。流量模式是高效扩展的基础,平均流量是日常处理的基准,可预测模式如工资入账等周期性事件会促使客户查询账户余额,全年还有季节性高峰。而突发事件如DDoS攻击会带来不同挑战,其流量可能远超正常负载。基于已知模式进行容量规划可预防运维问题,但弹性扩展存在局限性,应用程序启动和建立连接需要时间,大量请求在此期间涌入会导致资源争用。因此,预留计算容量十分必要,它能保证资源在需要时可用,尤其在多租户共享资源池出现争用时,还能带来成本节约。同时,成本管理需持续关注,定期应用FinOps流程。

扩展不应局限于增加服务器。当发生扩展时,要判断应用程序是否因真实客户需求而扩展,还是因上游服务排队导致响应变慢。线程等待响应会使CPU和内存压力上升,触发弹性扩展。这要求在设计中考虑容错,并将断路器整合到扩展策略中。当上游服务变慢或失败时,断路器可防止应用无限期等待响应,强制设置超时限制,避免线程耗尽、减少不必要资源消耗,防止错误触发扩展。

韧性要求为系统故障做好准备,早期检测和随时执行故障转移程序至关重要。但为所有组件实现100%的可用性既不现实也无必要。基础设施可根据关键性分为四个层级。关键类组件如DNS,必须尽可能接近100%可用;可管理层组件在故障时可通过故障转移维持运行,目标为“四个九”的可用性;可容忍层组件具备内置韧性,如缓存长期数据的令牌服务;可接受层组件允许有限数据丢失,如某些日志系统,韧性目标由影响严重程度决定。

性能会显著影响用户体验和基础设施成本。通过部署接入点(PoP)可提升用户体验,尤其对网站延迟敏感的移动设备。速度能建立用户信任,搜索引擎已将速度纳入排名算法。在网络连接受限场景下,移动端性能尤为关键。从基础设施角度看,客户完成任务时间越少,运营成本越低。Chase.com通过实施全面性能策略,系统延迟降低了71%,这些策略可适配其他业务场景。

其架构方法围绕五个重点领域展开。多区域部署通过隔离和分段实现功能化解耦,有助于管理区域、可用区和网络故障,限制故障爆炸半径。实现多区域架构需解决DNS管理问题,协调不同区域独立负载均衡器,确定区域间和区域内流量调度策略。可用区故障时,若应用未将依赖系统状态纳入健康检查,负载均衡器会继续路由流量导致应用失败,解决方案包括将依赖系统健康状态反馈给负载均衡器或采用基于代理的重路由机制。区域性故障时,依赖统一的区域健康脉搏检查,根据应用分段情况决定是否故障转移,但故障转移可能引发“惊群效应”。跨区域的数据复制与确保数据一致性是主要关注点,客户分片是一种可行方案。状态管理需为活跃会话维护会话亲和性并支持故障转移。

高性能对用户体验至关重要,边缘计算是实现性能目标的主要手段。可将静态内容卸载至靠近客户的入网点,源服务器处理动态操作和关键服务。流量整形可对流量分类,关键服务资源必须始终保持运行。地理分布影响性能,在PoP缓存内容可提升性能并带来安全收益。“最后一公里连接”问题值得关注,边缘计算改变了通信模式,移动应用也有优化空间。

自动化是关键战略元素,在流水线各阶段实施全面自动化可带来巨大收益,涵盖部署、基础设施供应、环境配置、健康检查和流量管理。创建“带有倾向性的”架构模板可帮助团队构建自动继承架构标准的应用,应用通过基于清单定义进行自动化部署。基础设施“重铺”是高效实践,定期自动重建环境可消除配置漂移,增强安全性,更新补丁。自动化故障转移需考虑活跃会话,防止故障转移循环,根据场景和延迟容忍度决定处理方式。

可观测性要求对观测到的事件进行自动化响应。云环境产生大量事件,自动化通过无服务器函数与可观测性集成,根据预设条件切换执行区域。数据库问题、维护活动等可触发相应函数。健康检查需在多个层级进行,应用内健康检查向上传播至各层级,通过简单布尔指标实现自动化健康评估,支持快速决策。在不同场景中,根据告警信息决定流量重定向或服务降级等决策。

安全需采用零信任模型的分层实现,每一层独立运作,假定其他层可能失效。客户端设备、边界安全、内部网络、容器安全、应用安全和数据安全各层都要采取相应措施,各层之间互相强化。

文化转型是成功迁移的基础,云运维与企业自建系统差异大,需持续适应。 “谁构建、谁拥有、谁部署”的所有权模型将责任赋予应用团队,自动化可确保一致性。公司开发的TrueCD CI/CD方法论类似航空业飞行前安全检查。从企业自建环境向云迁移会影响应用架构,抽象层可减少影响,Dapr是支持多云架构的开源框架。大型应用迁移需逐步进行,先在内部用户群体中验证系统,拆分系统为离散应用集,逐步迁移客户群体。

这些策略的实施带来了显著成果,成本显著降低,性能指标大幅提升,平台在对比分析中名列前茅。在实施策略时,需权衡成本与性能,不损害其他需求。多区域架构中要评估缓存复制策略,降低运维复杂性,减少人工干预,自动化是关键。控制故障爆炸半径至关重要,建立面向行动的可观测性并与自动化操作紧密关联。所有决策应以客户为中心,确保关键组件在流量激增时保持运行,核心系统维持响应能力,客户获得即时响应。

高德扫街榜上线百天再升级:“飞行街景”与动态榜单能否实现流量平权?
此次升级中,高德上线了全球首个“飞行街景”功能,依托高德在国际权威评测基准WorldScore上综合得分第一的自研世界模型,用户在出发前即可沉浸式了解商家门头、店内环境、停车位、包厢布局等细节,在到达之前就进…

2026-01-08

成都睿芯行全球首创:免训练工业具身拣选机器人引领仓储新变革
同时,测试现场有多台物流配套机器人在协同工作,从而完成不同零件的精准拣选与高效配送……这是记者1月6日在成都高新区企业成都睿芯行科技有限公司(以下简称“睿芯行”)的睿芯行机器人测试中心,见到的一幕机器人工作场…

2026-01-08

CES2026展风采:“具身天工”机器人秀实力 开启智能作业新体验
来源:新浪科技 新浪科技讯 1月7日晚间消息,今日北京人形机器人创新中心,携“具身天工2.0”、“具身天工Ultra”等多款机器人亮相CES2026。 展会现场,“具身天工2.0 ”展示全自主分拣零部件并与…

2026-01-07

2026人形机器人产业新篇:量产加速、场景拓展与技术突破共启新程
开源证券分析认为,2025年人形机器人产业完成从“0-1”到“1-10”的跨越,核心驱动力在于“技术收敛”;展望2026年,行业将突破“1-10”关键拐点,向“10-100”规模化迈进,核心主题切换为“量产…

2026-01-07

智算浪潮下AIDC的变革之路:超越极限,重构未来数字新基建
互联网巨头则依托自身强大的研发实力和业务需求,倾向于自研硬件(如AI芯片、交换机)和软件,构建软硬一体的超大规模智算集群,其优势在于技术的快速迭代和极致的性能优化,以支撑自身海量AI应用并对外输出算力服务。同…

2026-01-07

罗永浩“科技春晚”遇小插曲,中国移动5G保障显实力引关注
中国移动此次为罗永浩大会提供的保障,其实已是行业内大型活动网络保障的常规操作,但即便如此,仍难以完全满足所有用户的即时需求,这也足以说明大型密集场所网络保障的复杂性。 罗永浩从曾经吐槽网络服务到如今信赖中国移…

2026-01-07

百度旗下昆仑芯筹备赴港IPO 拟募资20亿美元 2025年二季度或递表
知情人士透露,该芯片公司由百度于2021年拆分,专注于昆仑系列AI加速芯片研发与商业化,2024年出货量已超30万颗,客户覆盖云计算、自动驾驶及智慧城市等领域。 此前,有报道称,知情人士透露,昆仑芯在过去六…

2026-01-07

杨元庆与黄仁勋CES 2026上携手,共推联想人工智能云超级工厂新计划
快科技1月7日消息,近日,2026 年国际消费电子展(CES 2026) 正式启幕,联想同期举办创新科技大会,英伟达创始人兼 CEO黄仁勋受邀出席并发表重磅演讲。 黄仁勋称,英伟达加速计算平台将为这一计划提…

2026-01-07