从流量枢纽到 Token 内核：F5重绘 AI 时代应用交付新图景

过去三十年，IT 产业几乎每一次大的技术浪潮，都伴随着“流量形态”的变化：PC 时代，流量意味着数据传输；互联网时代，流量变成连接与访问；移动互联网时代，流量承载的是实时应用体验；而进入 AI 时代，一个新的计量单位开始频繁出现——Token。它既是大模型推理的基本单位，也是 AI 成本、性能、体验乃至商业价值的新刻度。

在不少企业还在讨论 GPU、算力和模型的时候，F5 把视角落在了另一个位置：如果说 GPU 负责生产算力，那么谁来负责把这些算力真正变成生产力？答案仍然是它三十年来一直做的事情——应用交付。只是这一次，交付对象从 APP 变成了 Token。

F5 北亚区总裁黄彦文

“AI 时代的核心矛盾，早已不是算力资源的多寡，而是海量算力无法有效转化为真实生产力，这也是当下绝大多数企业陷入 AI 投入困境的核心原因。”F5 北亚区总裁黄彦文认为这一判断并非空穴来风，当前全球企业都在疯狂布局 AI 算力，新型 AI 数据中心加速落地，液冷技术替代传统散热、设备承重从 750 公斤提升至 1000 公斤，基础设施重构的背后，是算力资源的极度充裕。

但与之形成鲜明对比的是，大量企业的 AI 应用仍停留在局部试点阶段，算力闲置、模型沉睡、投入无回报成为普遍现象。“十五五” 规划中 “Token 经济” 被重点提及，中国市场每天产生的 Token 规模已达到 140 万亿，每秒约 16 亿Token，互联网企业将 Token 纳入内部激励、运营商从流量经营转向 Token 经营，Token 经济已经从概念落地为产业现实。可当海量 Token 在网络中高速流转，如何保障其高效调度、安全稳定、低成本运行，成为企业全新的核心挑战，而这恰恰是 F5 深耕三十年的能力边界。

F5 亚太区首席技术官 Mohan Veloo 用更直白的方式拆解了 AI 时代企业面临的三重生存困境：混合多云成为默认运行模式，94% 的企业在多环境部署应用，平均分布在近 19 个不同位置，环境分散带来管控一致性难题；AI 应用从训练全面转向推理，78% 的企业拥有自有推理能力，平均同时使用 7 种模型，智能体成为应用的核心 “使用者”，API 攻击面被无限放大；威胁形态彻底升级，攻击数量增长 77%，机器化攻击增加 150%，AI 能自主挖掘漏洞、生成攻击代码，防御还停留在人工阶段，“攻击靠机器、防御靠人工” 的不对称格局，让传统安全体系彻底失效。

F5 亚太区首席技术官 Mohan Veloo

更值得警惕的是，量子计算的逼近，让现有加密体系面临长期的 “量子末日” 风险，全球机构已开始批量收集加密数据，等待量子技术成熟后解密，这并非未来威胁，而是当下就需应对的产业挑战。

面对这样的复杂局面，单点工具早已无法解决问题，企业需要的是覆盖全链路的统一管控平台，这也是 F5 推出应用交付与安全平台 (ADSP )的核心初衷。在 Mohan 的解读中，一次完整的 AI 交互，从提示词输入到 Token 输出，存在三个不可失守的关键控制点，这也是 ADSP 平台的核心能力支撑。

第一个控制点是统一入口，作为 AI 应用与外部交互的第一道关卡，传统基于规则的 WAF 无法应对动态生成的语义攻击，F5 重构了 WAF 架构，融入神经网络智能层，在 CPU 上即可实现微秒级安全决策，无需占用 GPU 资源，实测将误报率从 28% 降至 1%，检测准确率从 64% 提升至 98%，真正实现以 AI 对抗未知威胁。

第二个控制点是编排与调度，这是 AI 应用的核心协同环节，提示注入、数据劫持等隐蔽风险都集中于此，F5 通过收购 CalypsoAI 打造了 “AI 红队 + AI 护栏” 的闭环防护体系，AI 红队主动挖掘漏洞，AI 护栏实时拦截风险，每月可生成 1 万条新攻击特征，支持公有云、SaaS、边缘全场景部署，兼顾数据驻留与跨境合规需求。

第三个控制点是模型推理，作为 Token 的核心生成环节，F5 将交付与安全能力前置到 DPU，在流量进入 GPU 前完成全流程处理，基于 NVIDIA BlueField DPU 运行 BIG-IP，让 Token 吞吐量提升 40%、首 Token 响应延迟下降 60%、端到端推理时间优化 30%，从性能、成本、能耗三维度实现 AI 算力的价值最大化。

如果说全球技术路线是 F5 的底层底座，那么本土化创新则是其扎根中国市场的核心底气。与全球市场不同，中国 AI 算力呈现出典型的异构特征，英伟达、AMD、华为昇腾、阿里平头哥等多品牌、多代际芯片混合部署，企业既想降低外部依赖，又想兼顾成本与兼容性，传统负载均衡只感知流量、不感知 Token 与算力状态，导致算力利用率极低、资源浪费严重。

针对这一中国市场独有的痛点，F5 中国团队原创研发了基于 Token 的负载均衡(TBLB)算法，这也是 F5“创新中国，链接全球” 战略的核心成果之一。该技术以 Token 为核心调度单元，实时感知推理请求的算力消耗，动态分配至最优 GPU 节点，彻底打破异构算力的调度壁垒。

从实际落地效果来看，某汽车行业客户在英伟达 A40 与 L20 混合算力环境中，Token 生成速度提升 30.3%，端到端响应速度提升 48%；某运营商基于华为昇腾 910B 的集群，并发用户数提升 75%，Token 生成速度近乎翻倍；某金融客户在阿里平头哥 PPU 与英伟达 H20 混合架构下，Token 生成速度提升 42%，在不增加任何算力投入的前提下，让存量算力的价值被彻底释放。

除了 TBLB 这项原创技术，F5 在中国的本土化创新还覆盖了产品、服务与组织架构全维度。为了适配中国市场的服务需求，F5 打造了本土化 ServiceGPT，将三十年行业技术经验融入大模型，可自动定位设备故障、网络异常、安全攻击等问题，问题研判效率提升 23%，平均定位时间缩短至 0.8 天，大幅降低客户运维成本。

同时，F5 正式成立全球 AI 应用工程部，中国团队在其中占据关键地位，专注于行业大模型、异构算力调度、中文场景 AI 安全等本土化需求研发，让中国创新能力反向输出全球。

例如，在 AI 安全的中文场景适配中，F5 采用清华大学发布的中文大模型安全数据集进行测试，在敏感内容识别、指令型攻击防御等维度表现领先，多语言环境下性能稳定无衰减，彻底打破了 “国际厂商不适配中文场景” 的行业质疑。

在安全范式全面重构的当下，F5 给出的解决方案，早已超越了传统的 “补丁式防御”，转向了运行时主动防御。Mohan Veloo 强调，AI 时代的漏洞修复窗口期已从过去的两个月压缩至 “负周期”，企业必须在漏洞曝光前完成防护部署，F5 通过Insight 实现漏洞常态化管理，支持 21.1 版本业务无中断热升级，满足金融、运营商等 7×24 小时不间断运行行业的需求。

作为开源生态的坚定参与者，F5 始终承担着行业责任，这也是其区别于其他厂商的重要特质。今年 K8s 入口控制器NGINX 宣布停止维护，暴露出开源生态 “用户海量、维护者稀缺” 的核心困境，大量企业面临安全裸奔风险。

F5 作为 CNCF 黄金会员，持续投入NGINX等关键开源组件的维护，提供漏洞修复与版本更新，同时 NGINX 始终保持开源版本迭代，全面兼容国内主流推理引擎与开发平台，让中国开发者能基于本土开源工具，无缝对接 F5 的 AI 创新能力。“开源不是‘甩手掌柜’，而是长期的责任与投入，F5 要做的，是为开发者与企业搭建稳定、安全的开源技术底座，避免开源项目停摆危及产业生态。”F5北亚区区域副总裁产及解决方案资深架构咨询师张振伦说。

写在最后

回望 F5 三十年的发展历程，从定义 ADC 标准，到引领混合多云交付，再到如今锚定 Token 经济重构 AI 应用交付与安全体系，这家企业始终在产业变革的关键节点，抓住最核心的需求。

黄彦文在分享中明确了 F5 的全新定位：不再是单纯的应用交付设备提供商，而是助力企业将算力转化为生产力的价值伙伴。F5 的 “双引擎” 战略清晰而坚定，一方面通过本地生态协同，深耕中国行业大模型与异构算力场景；另一方面依托全球部署能力，助力中国新能源汽车、高端制造、医疗等行业企业出海，解决跨境合规、安全交付、全球管控等核心难题。

在 AI 重构产业的今天，很多企业都在追逐大模型、算力集群这些光鲜的概念，却忽略了 AI 落地最核心的基础 —— 应用的稳定交付、高效调度与全链路安全。F5 用三十年的产业积淀证明，AI 时代的竞争，从来不是单一技术的比拼，而是全链路体系化能力的较量。

Token 经济的浪潮已经袭来，算力不再是稀缺资源，如何让每一颗 Token 都产生价值、每一份算力都不被浪费、每一次交互都安全可控，才是企业穿越 AI 周期的核心能力。而 F5，早已站在这个核心节点上，用从流量到 Token 的全栈能力，为全球企业搭建起 AI 时代的应用与安全底座。