摘要
大容量、高密度、高功率且经济高效的光链路无疑对数据中心基础设施至关重要。然而,光学路线图已经走到了岔路口:继续采用经过验证的可插拔模块路径是否正确,还是采用涉及共同封装光学的时候了?本文会对其中的一些权衡、支撑技术、方法路径以及对数据中心网络架构的潜在影响。
第一部分 引言
1)思科网络报告中显示,网络流量中东西向流量占比越来越大,其中数据中心设备之间的流量占71%,而数据中心之间的流量占14%。这样的增长趋势,说明东西向流量涉及到的光链路将会是一个庞大而快速增长的市场。该市场预计从2018年的$3B 增长到 2024 年的 $7B 以上。
2)随着带宽需求的增加,交换机及光模块在单位容量成本、带宽密度及能效方面也保持同步发展。从2010年至今,ASIC和光模块的容量都增加了40倍,ASIC从0.64Tb/到25.6Tb/s,光模块从10Gb/s到400Gb/s。
3)当前,800Gb/s可插拔光模块并未商用,采用8×100Gb/s Serdes技术实现时,电信号在信号完整性上遇到了巨大的挑战,导致Serdes功耗增加。因此,在整个光链路上的功耗增长迅速,大有超过交换芯片功耗的趋势。另外,功耗的增长,也约束了单台(1RU)交换机可部署的总容量。
4)单位容量成本也是一个重要问题。光模块的成本很大一部分在于组件和封装,和ASIC芯片不一样,不会因为半导体工艺技术提升而同步提升容量。因此,数据中心交换机在光模块上的投入成本也逐渐超过交换机本身。
5)带宽密度增长滞后:为了散热以及容纳数量更好的可插拔光模块,交换机高度增加一倍。下一步的发展,需要更高的通道速率、更多的通道数。
以上这些趋势,使得我们对光模块内部组件有更高的集成度及制造自动化的需求,进一步产生了对硅光技术的需求。进一步,交换机ASIC和光引擎的异构集成被认为是在解决集成密度、经济效益以及能效的好方法。
本文主要讨论了影响可插拔光模块转到共封装(CPO)技术的影响因素。尽管CPO还存在一些技术上的挑战,但采用CPO的主要障碍不是技术问题,而是如何克服整个行业对可插拔光模块使用的惯性。要推动该技术尽快落地,必须把CPO的显著优势讨论清楚,尤其是在能效 (pJ/bit) 和资本支出 ($/Gb/s) 方面实现显著收益(例如,50% 或更多),使得用户在总拥有成本TCO上获得收益。
第二部分 数据中心交换机路标
数据中心光模块路标与交换机的路标密不可分。商用芯片的兴起极大地撼动了过去主要基于专有硬件和软件的交换机市场。当前,很多网络设备基于第三方芯片供应商设计和销售的 ASIC芯片进行设计。商用芯片现在占以太网数据中心交换机的 56% 以上。
这催生了网络设备白盒供应商和 ODM(原始设计制造商),他们根据自己或客户的设计构建基于商业芯片的网络设备。这一特点也进一步推动了可编程性的发展,例如 OpenFlow和 P4 、更广泛的软件定义网络 (SDN) 运动和开源SONiC、FBOSS、ONOS等网络操作系统。
以上趋势创造了一个更加开放的生态系统,其中网络运营商有更广泛的选择来根据其功能和成本要求定制他们的网络。他们甚至可以设计自己的网络硬件。
以太网交换机 ASIC 的发展有一个显著的特点:交替增加 Serdes 通道数量和通道速率,容量大约每 2 年翻一番。
表 1 交换机ASIC演进
图1 交换机ASIC 演进
图1还显示了 Serdes 波特率和调制类型。12.8 Tb/s第一个采用PAM4信令而不是传统的NRZ信令的,用较低的信噪比换取较高的比特波特率。
交换机的发展将继续在电接口、带宽方面推动光学技术的发展。当交换机、光模块的电口、光口都使用相同的速率和模式时,就可以满足总体最优。然而,在过渡阶段,采用Gearbox进行转换是有意义,这个阶段就是采用成熟的技术、成熟组件保护现有投资。
为了进一步提高容量,下一代交换机 ASIC 将采用 56 GBd PAM4 Serdes。在总容量增加到 51.2 Tb/s 之前,我们可能会看到第二代 25.6 Tb/s 芯片,将 Serdes 数量减半 (256 × 100 Gb/s) 并调整电通道和光通道速率。
每通道 100 Gb/s serdes 的能耗非常重要:在 51.2 Tb/s 时,每增加 1 pJ/bit 就会为芯片增加 51.2 W 的功率。最近的研究显示,采用10 nm FinFET CMOS技术下, 112 Gb/s 传输和接收电路能耗分别为 2 pJ/bit 和 4 pJ/bit,还不包括 DSP。因此,如果我们假设一共至少为6 pJ/bit,那么Serdes 功耗将超过 300 W。Serdes 占芯片功耗的典型比例为 30%,整个 ASIC 可能会超过 1 kW。
在不久的将来,单芯片交换容量的趋势似乎将继续保持,但一些厂商已经采用了多芯片技术,这也叫小芯片架构,其中 Serdes 在与交换核心在不同的芯片上实现,从而能够使用不同的工艺技术节点。
超51.2 Tb/s 的发展是存在高度不确定性的,将通道数加倍会继续遇到LGA/BGA 封装尺寸和触点/引脚间距的限制;200Gb/s Serdes技术还在继续研究中。因此,对于100Tb/s的研究,可能还需要更多的方案研究。
第三部分 数据中心光学
面板可插拔 (FPP) 模块是当前数据中心主要部署的。本节讨论它的优势以及相关光、电和管理接口等在未来发展上存在的的障碍。
3.1 FPP优势
面板可插拔(FPP)光模块的流行主要是由于以下优点。
首先,FPP 将电接口和光接口解耦,将光接口的选择从交换机组装时推迟到部署时。这使得在将光学类型与实际用例相匹配或恢复到低成本 DAC 以用于短距离(机架内)链路方面具有很大的灵活性。可插拔设备还支持增量部署(“按需付费”),其中一部分端口最初保持空置,并根据需要购买和安装额外的光学器件。
此外,由于可以从前面板处理模块,因此可以相对轻松地进行现场维修和升级。
最后,MSA实现了互操作性,并为每种类型的模块创建了一个拥有众多供应商的生态系统,避免了单源依赖,并通过规模经济降低了成本。
一个相关的部署模型是采用有源光缆(AOC),它本质上是两个(或多个)可插拔模块及其互连光缆的预制组件。这些经常出现突破一端具有单个模块的配置,该模块分为多条光纤,每条光纤在另一端都有一个单独的模块。例如,一根电缆从一个 100 Gb/s 模块分出到另一侧的四个单独的 25 Gb/s 模块,例如允许四台服务器连接到单个交换机端口。这会增加交换机扇出数并消除一些常见的错误安装,但会组织重复使用已安装的光纤。对于光模块供应商而言,AOC 消除了光学方面的互操作性问题,因此他们可以选择具有宽松操作条件的专有、成本优化的解决方案。在 InfiniBand 等高性能计算网络中,AOC 占主导地位。由于所需的范围通常不超过 100m,因此它们可以基于多模光学器件进行设计。
3.2 光接口
物理介质(PMD) 层的光接口由 IEEE 802.3 以太网标准定义。然而,特别是对于 100G 以太网一代,IEEE 标准化过程中缺乏共识导致出现了几个多源协议(MSA),包括 PSM4、CWDM4(和 CWDM4-OCP)和 CLR4。对于 400G这一代,也已经形成了几个 MSA标准,包括 CWDM8、100GLambda 和 400G-BiDi。
表2列出了所有直接检测光学 400G PMD。光学介质选项包括并行多模光纤 (MMF)、并行单模光纤 (SMF) 和带波分复用 (WDM) 的双工单模光纤。
尽管该表仅显示了 400G PMD,但也定义了许多使用相同通道速率但通道更少 PMD,例如 200GBASE-DR4 (4×50 Gbps) 或 100GBASE-DR1 (1×100 Gbps) 到支持在单个 400G 模块中容纳4个100GBASE-DR1 端口的突破性应用。
由于其成本优势,基于 MMF 的链路对于从架顶 (TOR) 交换机到叶交换机的上行链路很有吸引力,但其有限的范围使其不适合叶脊架构连接。400G 数据中心内连接的重点 PMD 是 DR4 和 FR4。光接口在电接口之前就已经过渡到每通道 100 Gb/s,相对于八通道光接口(例如 FR8),PMD 的复杂性减半。
400GBASE-DR4 使用四对平行光纤,在长达 500 m 的范围内更具成本效益,并提供将链路分成四个 100GBASE-DR1 的选项。DR4 非常适合 TOR 到叶的连接以及具有突破的高基数叶脊连接。另一方面,400GBASE-FR4 利用粗波分复用 (CWDM) 将光纤数量降至最低,代价是需要四个不同的激光器和波长(解)复用器。FR4 通常最适合叶-脊椎和脊椎-核心连接。
距离超过 2 公里的数据中心之间的连接需要具有更密集信道间隔 (LAN-WDM) 的更长距离直接检测链路,例如 LR 和 ER,以及相干链路(ZR,未在表中显示)。
下一代以太网很可能会标准化 800G MAC 和 800G PMD。以太网技术联盟已经提出了一个预标准的 800G 以太网 PCS/MAC 方案,但仍需要几年时间才能达成一个稳定的标准草案,包括800G PMD。但是,800G 光模块将很快以 2×400G、4×200G 或 8×100G 配置的形式出现。
第一代 800G PMD 可能基于具有并行和双工 SMF 变体的八个电通道和八个光通道,即 800GBASE-DR8 和 -FR8。基于 WDM 的版本将需要比 20 nm (CWDM) 更密集的信道间隔,例如使用 LAN-WDM 目前在 400GBASE-FR8 和 -LR8 中使用。我们仍然可能会看到基于 MMF 的 PMD,尽管它们的覆盖范围可能≤50 m,从而降低了它们的效用。
第二代 800G PMD 将基于每通道 200 Gb/s 的光调制。目前正在研究实现的技术解决方案,包括高阶调制格式,如 PAM-6 和 PAM-8。
3.3 电气接口
电接口通常基于光互连论坛 (OIF) 定义的通用电接口 (CEI) 实施协议,该协议构成了 IEEE 802.3 标准(例如 CAUI 和 400GAUI(以前称为 CDAUI))的基础。由于预计 CPO 的市场准入将与具有 112G 电气 serdes 的交换机 ASIC 保持一致,我们将简要回顾五种不同的电气 OIF-CEI-112G I/O 变体,如表3所示 (从左到右按递减顺序排列)。
表 3. 光互联论坛定义的 OIF-CEI-112G 链路类型
IL = 插入损耗,DAC = 直接连接铜缆,C2C = 背板芯片到芯片,C2M = 芯片到模块,C2OE = 芯片到光学引擎,D2D = 芯片到芯片
LR serdes 使铜DAC 电缆成为服务器连接的最低成本选项。只要铜仍然是机架内连接的可行选择,就需要这种类型的 Serdes。在 112 G 时,将变得很困难,因为 2 m 的目标范围不再足以覆盖某些常见用例。此范围限制对机架内的设备放置施加了限制,以最大限度地减少电缆跨度,例如将架顶式交换机移至机架中间。
MR 旨在通过一个连接器在背板上实现芯片到芯片的连接。这种类型的链路解决了用例,例如在机箱交换机中连接线卡和光纤卡(或脊和叶卡)。
VSR 主要用于芯片到模块的连接,明确寻址交换机 ASIC 和面板安装的可插拔模块之间的通道。某些端口子集可能需要重定时器,尤其是那些位于面板边缘的端口。只要必须支持可插拔光学器件,交换机 ASIC 就需要提供至少具有 VSR 范围的 Serdes。
XSR 是 Facebook 和 Microsoft 发布的 CPO 协作文档中明确调用的接口。其主要用例是在最大约 100 mm × 100 mm 的封装基板上实现芯片到光学引擎的连接。
USR 旨在作为 2.5/3D 封装解决方案的芯片到芯片接口。它可以通过更宽的接口来实现,例如 CNRZ-5、高级接口总线或线束。USR 不适用于最初的 CPO 生成,但可能适用于未来基于小芯片的交换机实现,这些交换机将交换机内核和 serdes 分布在同一封装中的多个芯片上。
3.4 管理界面
光链路需要提供用于控制和管理目的的低速电接口,以提供配置和监控等功能。这通常是通过模块内部的嵌入式微控制器实现的,该微控制器提供两线接口,例如串行外设接口 (SPI) 或内部集成电路 (I2C)。QSFP 模块的管理协议在 SFF-8636 中定义,而 QSFP-DD 和 OSFP 采用了更新的通用管理接口规范 (CMIS) 。为了兼容性,CPO 引擎应遵守相同的标准。
3.5 外形
现在是存储网络行业协会 (SNIA) 的SFF委员会监督了可插拔光学器件的 MSA 外形规格的定义,最显着的是多代小型可插拔 (SFP) 模块和 Quad SFP (QSFP) ,它将 SFP 从一个通道扩展到四个通道。QSFP+ 和 QSFP28 分别是 40 和 100 Gb/s 模块的主要外形尺寸。
向 400G 模块的过渡需要将通道数增加一倍。为了满足这一要求,出现了两种相互竞争的 MSA,QSFP-DD(双密度)和 OSFP(八进制)。QSFP-DD 稍小,并提供与 QSFP28 的向后兼容性,而 OSFP 提供更好的集成热解决方案和更好的电信号完整性,但不向后兼容(尽管 QSFP 适配器可用)。QSFP-DD 通过引入第二排触点来保持与 QSFP 的向后兼容性,代价是向电通道添加层和过孔。另一方面,OSFP 在连接器的每一侧都有更多的触点以容纳额外的通道。
两种八通道封装的功耗已经达到20 W,其中 OSFP 比 QSFP-DD 更具优势,因为它的外壳和集成散热器稍大。一个 1RU 面板可以容纳 32 到 36 个 QSFP/OSFP 模块,使用当前的 400G 模块实现每个 RU 高达 14.4 Tb/s。
对于 800G 模块一代,升级后的 QSFP-DD800 规范已经发布,预计 OSFP 也会这样做。此外,800G 可插拔 MSA 联盟也在为 800G 光学器件制定规范。
3.6 Gearbox
理想情况下,光和电信号速率和调制格式将始终保持一致,因此不需要速率或调制格式转换(“Gearbox”)。但是,由于交换机 ASIC 和光学路线图发展并不总是同时发生,因此可能需要进行转换。新兴的 400G 模块就是一个例证:电接口包含 8 个通道,25 GBd PAM4,但主要的光 PMD 已经是 50 GBd PAM4 的四个通道,以避免更昂贵的八通道光 PMD。这意味着每波长 100G 的光 PMD 需要模块内部的 2:1 Gearbox来在光和电通道速率之间进行转换。每通道 100G 电 Serdes 的交换机 ASIC 一出现,100G 电气通道的模块就会随之而来,例如 400G QSFP112,相反是利用现有的、成熟的、大容量的光学器件和新一代的交换芯片。一个突出的例子是 Facebook 的 Minipack 架构,它结合了 25 GBd PAM4 交换机 Serdes 和 25 GBd NRZ 光学器件。Gearbox芯片将每对交换通道转换为四个模块通道,从而能够使用传统的 100G-CWDM4-OCP QSFP28 光学器件。Minipack 的模块化特性支持未来升级到 400G QSFP-DD 光学器件。
第四部分 数据中心光学:挑战
基于 FPP 模块的数据中心光学设备持续发展的主要障碍是缺少超800G的发展路线、高成本、电通道功耗大以及由于带宽密度有限而对机架空间需求不断增加。本节更详细地讨论这些方面。
4.1 超800G
目前还没有支持超800G的可插拔模块。就所需的电连接器和光连接器密度而言,在相同尺寸内将通道数量增加或超过8个极具有挑战性。
超800G 的可插拔模块可能需要更大的外形尺寸来应对散热问题,这种尺寸的增加会对带宽密度产生负面影响。
更高的通道速率不可避免,≥200 Gb/s 的直接检测光学技术已经证明可行,但用于FPP光模块的200 Gb/s 电 Serdes 的实际可行性尚不确定。
尽管这种 Serdes 可能在 PCB、连接器和封装得到显著改进的情况下有一定可行,但芯片到模块的通道可能需要 LR 型(30 dB 插损)。交换机 ASIC 和模块功耗的相应增加,是未来可能考虑CPO技术的强大动力。
4.2 成本
在过去 10 年中,光模块的单位容量平均成本大幅下降,见图 2a。工艺技术、集成度和制造技术的改进是主要原因。然而,在很大程度上,这种极端的价格下降也归因于一小群强大的用户“超大规模数据中心运营商”,他们对成本有高度的敏感性。
图2 2010-2023年以太网交换机和光模块成本趋势;2020-2023 年的值是预测值。
然而,交换机 ASIC 单位容量成本下降的速度比光学器件的成本下降得更快。这导致光学器件在交换机的总成本中所占的相对成本增加。如图2b所示,这个比率在从 10G 到 400G 的增加很快。对于 400G 一代,预计光学器件将占总成本的 50% 以上。
主要原因是交换机ASIC在这一时期充分受益于摩尔定律,而光模块则没有。传统(非硅光子)光学模块是复杂的微光学系统,由许多分立元件制成,通常是手工组装,并以相对较高的封装成本进行低密度封装。为了迎头赶上,需要提高集成和制造自动化水平。为了保持光学器件的相对成本恒定,光学器件的单位容量成本需要与交换机 ASIC 的成本和总容量(的倒数)保持同步。硅光是实现这一目标的关键技术。
图3将 400G 收发器模块的成本分解为收发器子组件、接收器子组件、机械组件(PCB、微控制器、无源器件、连接器、外壳等)以及最终组装和测试。大约 40% 的成本与组装和测试有关。CPO 可以通过消除大部分与封装相关的分立部件和组装步骤来大幅降低这一份额,同时通过晶圆级集成、封装和测试降低发射和接收子组件的制造成本。
图 3 400Gb/s可插拔收发器的成本结构细分
4.3 密度
带宽密度是另一个重要的限制因素。表4总结了带宽密度的发展。对于 1.28 和 3.2 T 交换机,1RU标准设备可分别容纳 32 个 40G 和 100G 的 QSFP 模块。6.4T(64×100G)则需要采用2RU,因为密度更高的光模块当时并没有准备好。对于 12.8 T 代,交换ASIC和光学器件再次对齐:8通道 QSPF-DD/OSFP 400G 模块的可用性使得在 1RU 盒体中容纳12.8T成为可能。
表 4 带宽密度
采用50G Serdes速率的25.6T芯片要容纳64×400G QSFP-DD光模块需要2RU空间。而当速率转换到100G Serdes时,又采用1RU(32×800G)就可以实现。然而,散热也成为一个问题。400G FR4和DR4模块的功耗在10-12W左右,所以单个盒体在640-768W。加上主交换机ASIC、控制CPU、风扇和电源,整机最终在 1.5-2 kW之间。由于对散热器尺寸、面板通风率和风机性能的情况,这需要一个很强的散热解决方案,而该解决方案可能难以在1RU中解决。
当交换机达到51.2T时,2RU空间可以容纳64×800G模块,如果散热可行,采用可插拔模块似乎可以达到51.2T这一代。
但是,超800G到底该如何?是必须要解决的问题。板载和共封装解决方案的优点是面板侧仅需要无源光连接器即可。他们尺寸很小,在面板侧可以容纳更多的通道,也可以留出更多的通风面积。而且这些无源器件没有热量,不需要考虑自身的散热。
板载光学联盟 (COBO) 定义了一种 16 通道板载模块,支持800 Gb/s,100G Serdes,每个模块还可以达到1.6T,但目前似乎没有朝这个方向继续努力。尽管 COBO 模块释放了面板空间,但它们占用了主 PCB 上的大量空间(COBO 模块宽 20 毫米,长 60 毫米),且需要自己的散热器,而且还不能堆叠。
总而言之,在 51.2 T这一代之后,外形尺寸的变化是不可避免的,无论是新的可插拔、板载或共同封装技术下,都不可避免。这给新的一些方案提供了机会。
4.4 功耗
可插拔模块的主要挑战是功耗。问题的核心在于在 ASIC 和模块之间的电通道中信号完整性遭受到了挑战。这使得模块和交换机 ASIC 的功耗不断升高。图4显示了随着交换机发展,Serdes功耗在ASIC芯片上功耗占比的增加情况,对于25.6T这一代芯片,Serdes功耗占比超过30%。
图 4 Serdes功耗占比
可插拔模块的额定功耗从 SFP 模块的 2 W 增加到 QSFP 模块的 3.5 W,现在 QSFP-DD(功率等级 8)超过 14 W,OSFP(功率等级 8)超过 21.1 W。当前 400G 收发器的额定功耗约为 10-12 W 。
7nm DSP 芯片可以支持基于 100G (<20 pJ/bit)电 Serdes 的下一代 400G 和 800G 模块。但对于单个800G模块,也是轻松超过OSFP 和 QSFP-DD 额定功耗限制。这意味着 51.2T交换机仅光模块功耗就大约1kW。
光模块功耗的最大贡献者是模块和ASIC之间的电传输通道。在当前的 400G 光模块中,这通常是一个分立的芯片,在八个电通道和四个光通道之间执行时钟和数据恢复 (CDR)、数字信号处理 (DSP) 和Gearbox等功能。图5是代表性400G光模块的功耗分解图,分别光学引擎(激光器、调制器/驱动器、检测器/TIA)、电气 I/O(CDR/DSP/Gearbox)、微控制器(uCtrl)和电源转换(DC/DC)等。
图 5 400 Gb/s 可插拔光模块功耗细分
随着信号速率的增加,通道上的电损耗一直在增加。从 NRZ 到 PAM4 的转变以较低的信噪比为代价提供了数据速率的增长,因此需要使用FEC将信号加倍至 56 Gbd 以获得 112 Gb/s速率,对于给定长度的低损耗 PCB 走线,插损(以 dB 为单位)大约会加倍;即使使用先进的 PCB 材料,12″ trace在28G Nyquist频率下的插损也为 15–20 dB ,这显然超出了VSR预期。电通道越短,转换越少,信号完整性问题就越容易管理,这促使将光学器件移到内部,尽可能靠近ASIC。
另外,散热正在成为密度方面的一个限制因素,包括交换机散热器的尺寸、面板所需的最小开孔率、盒体机箱内的气流和风机等。
原则上,CPO 不仅可以简化模块,还可以简化ASIC,例如通过用 XSR Serdes 替换 LR serdes。然而,这是以牺牲灵活性为代价的。即使采用 CPO,LR 也有两个明确的方案,即一方面用于服务器连接的铜质 DAC,另一方面用于数据中心间链路的相干光学 (ZR)。由于相干光学在短期内不太可能适合共封装技术,因此此类端口仍然需要支持可插拔。
另一种方法是利用强大的ASIC能力来大幅简化光引擎(消除 CDR)。CPO 供应商需要与交换机供应商密切合作,共同设计最高密度和最低功耗的整体解决方案。
第五部分 光学器件向内迁移
有几种方法可以拓展面板可插拔方案的可行性,包括在主 PCB 上使用Retimer芯片,通过高度优化的低损耗 PCB 材料减少走线损耗,或用线缆代替 PCB 走线。后一个方案增强了电信号,并且与Retimer不同,不会增加更多功耗。然而,这些方法都增加了可插拔解决方案的系统级复杂性和成本。
毫无疑问,我们会在实践中看到此类解决方案的实际推进和部署,尤其是在灵活性仍然很重要的用例中,或者CPO还不可行的用例中。对于所有其他情况,将光学元件从面板移入盒体、主 PCB(OBO)、芯片封装(CPO),他们都是缩短电通道,尽可能地减少转换次数。
图6显示了从传统铜DAC 和可插拔光模块到完全 3D 集成光学器件的潜在发展路线。这些方案涵盖了从当前流行的面板安装到PCB安装、2.5D 集成、3D 集成(芯片上芯片),再到完全单片集成的过程。
图 6
CPO 发展路线说明了光学器件和交换机 ASIC 的集成水平不断提高。此图表示侧重于光学器件和 ASIC 之间的线性距离,但请注意,CPO 解决方案的关键指标之一是交换机的带宽密度。
5.1 板载光学器件
板载光模块在需要比可插拔光模块所能提供的带宽密度更高的特定场景中已经有所部署。在高性能计算 (HPC) 系统中可以找到案例,例如 IBM Power775 和 Atos/Bull BXI。其他商用的场景还有用于光学 PCIe 的中板光学引擎。
最近,COBO 联盟完成了板载光学器件的 MSA规范,包括每通道高达 56 Gb/s 的 8 通道和 16 通道板载光模块的规范。然而,COBO技术尚未规模应用,重点已转移到相干光学 (Co OBO) 和 CPO。板载技术的主要障碍之一是:尽管将模块从面板移到主 PCB 上,但相对于 FPP 模块,从ASIC到模块的电通道并没有得到足够的改善,没有实现显著的功耗降低。
5.2 共封装光学
共封装光学器件的几个实际实施案例已经得到证明。为了支持CPO开发,并与数据中心运营商的需求保持一致,微软和 Facebook 发起了 Co-Packaged Optics Collaboration并已经发布了一些文件来收集潜在 CPO 供应商的意见。
许多问题仍在争论中:什么时候必须使用 CPO ?什么是正确的电接口,ASIC 将实际提供哪种接口?就每个引擎的容量而言,实际应该是多少?激光是进入 CPO 引擎内部还是外部?什么是正确的封装方法?CPO 如何解决对FPP的一些优势?通道数比可插拔收发器多得多的 CPO 引擎仍然可靠吗?商业模式是什么样的——谁卖什么给谁?什么是最好的光子集成平台,哪些类型的光子设备最适合 CPO?光子制造流程能否维持所需的数量?关键指标的有效改进会有多大?
显然,在将一个行业从一个完善的、经过验证的模式转变为一个仍然充满不确定性的模式时,需要克服相当大的惯性。这都需要由CPO技术支持者克服技术障碍并为上述问题找到可接受的答案。
5.3 发展路径
为了最终能得到广泛应用,CPO 解决方案必须解决与可插拔优势的丧失或减少相关的问题。
5.3.1 铜
可插拔模块的主要优点之一是可以选择在不需要光学器件提供的范围的端口上部署无源铜缆。增加serdes速率的一个重要后果是这些铜链路的有效范围急剧缩小,从而降低了它们的效用。对于每通道 100 Gb/s,目标范围为 2 m (IEEE 802.3ck),这限制了单个机架内的设备放置。尽管如此,DAC 仍然具有吸引力,例如用于服务器连接或有线背板。相应地,TOR 交换机可以同时配备用于下行链路的可插拔端口和用于上行链路的 CPO 端口。
5.3.2 光学PMD
可插拔提供了不同光学 PMD 之间的选择,包括适用于各种范围的 MMF 和 SMF 选项。在某些铜缆范围不足的用例中,MMF 范围 (<100 m) 可能就足够了,例如将 TOR 上行链路连接到交换矩阵。由于基于 VCSEL 的 MMF 链路通常比基于 EML 的 SMF 链路便宜,因此这提供了降低成本的选择。然而,这种成本差距将缩小,因为基于 SiPh 的集成降低了单模光学器件的成本,该光学器件可以覆盖长达 2 公里的任何距离,随着光通道速率的增加,多模光学器件的覆盖范围将缩小。尽管如此,CPO 外形和电气接口的标准化将能够在单个交换机外壳内混合光学PMD,在很大程度上保留了部署时可插拔的灵活性。
5.3.3 现场可维护性
增量部署和可维护性都依赖于在现场安装和插拔光模块的能力。FPP 模块可从面板轻松访问。OBO 模块需要从机架上卸下机柜才能访问模块。
为了通过 CPO 支持现场服务,光引擎需要一个电气可分离接口(连接器),而不是焊接。这对于在制造和测试期间进行维护也很重要。然而,在现场,包括光学引擎的开关组件另外需要至少部分地拆卸(例如移除散热器和将引擎保持在适当位置的夹具)。
5.3.4 生态系统
集成光学领域不乏活跃的公司,从成熟的参与者到初创公司。纵向关系可能会发生变化;过去几年出现了一系列投资和收购活动——一些主要的网络设备和芯片制造商已经收购了光公司,以确保内部光集成能力。与此同时,代工厂也投资建立(硅)光子产品。
光子集成和光电子集成正在模糊代工厂、光学元件制造商、模块制造商、芯片制造商、盒子制造商和系统公司之间的界限。CPO 的成功取决于光子学供应商、模块制造商、商业芯片供应商、网络设备供应商和数据中心运营商之间的有效合作,以在解决用户需求、技术可行性和经济可行性方面保持一致。以 MSA 等形式的早期共识将是最重要的。此外,制造流程需要从研发阶段转向批量生产。
生态系统需要达成一个可以从多个供应商处获取的可互操作的解决方案——任何单一来源的解决方案都可能是非启动项。
5.3.5 成熟度
可插拔作为一种部署模型是成熟且低风险的。然而,它们的组件仍然需要发展和进步,以便收发器跟上所需的性能和成本。硅光子学已经进入这个领域,作为通过集成提供一些必要进步的技术。据报道,基于 SiPh 的收发器比传统收发器具有显着的可靠性改进。
下一个合乎逻辑的步骤是利用硅光子学进一步提高集成度,以创建 CPO 光学引擎。尽管仍有许多 CPO 特定的技术挑战需要解决,但我们将开始在试验部署中看到演示平台,从 25.6 T 交换机开始,开始证明不同的概念并解决挑战性问题。
5.4 标准化
标准化是实现类似于可插拔光学系统的多供应商生态系统的先决条件。数据中心运营商不太可能接受没有多源、标准化或至少MSA的解决方案。
在光学方面,CPO 将基于 IEEE 802 和 MSA 定义的以太网 PMD,以确保与来自不同供应商的可插拔设备和 CPO 引擎的互操作性。高速电接口最初将利用 OIF CEI-112G实施协议。
为了向后兼容,管理接口将基于现有的两线接口,例如物理层的 SPI 或 I2C,以及通用管理接口规范 (CMIS)定义的协议。
需要解决的主要开放问题是 CPO 引擎(和外部激光源)外形、封装、散热、可靠性和连接器(光学和电气),这些都由 CPO 协作解决。然而,重要的是要允许足够的自由度以实现创新以推动产品差异化。换句话说,只要确保互操作性,标准化就不应妨碍 CPO 供应商优化他们的解决方案。
随着 CPO 获得认可并且解决方案初始部署形成,将有机会联合优化交换机 ASIC和CPO引擎进行优化,包括可能对整体解决方案进行重新分析。
5.5 CPO 要求
尽管 CPO Collaboration 文档严格来说不是规范,但它们很好地概述了系统要求。包括光学引擎、外部激光源和 CPO 模块组件。
首选的初始 CPO 架构基于图6所示的 2.5D 集成方法 ,其中多个插槽式 CPO 引擎围绕基板周边组装,交换ASIC 芯片安装在中间。
目前倾向于使用安装在面板上的外部激光源,以解决对激光可靠性和热环境的普遍担忧,代价是提高激光功率以克服从激光器到调制器的路径中的额外光损耗,以及额外的面板空间和激光封装成本,包括额外的光纤和连接器。
这些外部激光源可以利用现有的外形尺寸,例如 QSFP-DD 和 OSFP,即使高速电连接器将不被使用。为了减少激光器所需的面板面积,CPO Collaboration还要求新的解决方案在激光器模块的背面具有光连接器,以便不需要外部跳线(和额外的输入连接器)。
为了减少激光模块的数量和提供光输入功率的光纤数量,每个激光模块通过使用更高功率的激光器结合光引擎发射器芯片上的功率分配来为多个通道供电是有利的。
由于CPO大批量应用的目标是在 51.2 Tb/s 这一代交换机,因此集成密度必须足以容纳高达 512×100G 通道以及尺寸为 100 mm × 100 mm 至 150 mm × 150mm 的基板上的交换芯片。为了能够使用 XSR serdes,基板尺寸不应超过 100 mm × 100 mm。
光引擎位于四个侧面,这种基板尺寸转化为 200 Gb/s/mm 的双向边缘带宽密度,适用于 51.2 Tb/s 交换机,这意味着 TX 和 RX 组件间距≤ 250 微米。每个引擎的最大容量为 12.8 Tb/s(128 个通道),但出于产量和模块化的原因,具有 16-32 个通道的引擎可能更具吸引力。
基板尺寸主要由电连接器决定,即电触点间距和布局。每个引擎的典型节距为 400-800 μm,并且有数百个触点,引脚阵列对引擎的宽度施加了下限。引擎的长度限制较少,因为引擎的 PIC 可以伸出基板边缘。引擎和 ASIC 之间更大的间距改善了热条件,并为基板上的信号突破提供了更多空间。
为了最大限度地利用基板边缘,具有宽而浅的连接器布局可能是有利的,因为这可以最大限度地减少在基板角部损失的边缘长度,从而放宽通道和光纤间距要求。例如,带有 16 × 3.2 T 引擎的 51.2 T 组件,每个边缘有四个,可以采用 20 毫米 × 4 毫米的连接器布局,引擎间距为 2 毫米,总基板宽度为 94 毫米。使用这种,250 μ m的典型通道间距 就足够小了。由于额外的光功率输入光纤,光纤间距可能会受到更多限制。
正如在3.3中讨论的那样。尤其是高速电接口面临一个难题:只要需要支持基于铜的 PMD 和可插拔光学器件,主交换机 ASIC 就需要包含具有相应功能的 serdes。例如,如果交换机仅提供 XSR serdes,那么它实际上只能与 CPO 一起使用。因此,CPO 最初可能会与仍提供 LR serdes 的交换机 ASIC 配对。从长远来看,我们可能会看到同一ASIC 的不同版本,根据它们提供的 serdes 类型来区分。这可能与转向基于小芯片的交换机架构相吻合,在这种架构中,一个交换机核心芯片被 MCM 上的几个 serdes 芯片包围,这样内核就可以与不同的 serdes 小芯片一起使用。
与可插拔光学器件相比,为了实现 25%–50% 的功率降低(预计<20 pJ/bit),第一代 CPO 引擎(包括激光功率)的目标功率效率应在 10–15 pJ/bit(DR4 链接)。下一代可以推动更高的能源效率,特别是通过技术改进来提高激光效率,从而降低传输 PIC 和光纤附件上的光损耗。
为了保持整体 pJ/bit 低,激光功率应限制在 20 dBm 或更低,因为激光器在更高的功率水平上变得越来越低效。保持激光功率低于此值也有利于更高的激光可靠性。根据我们的 CPO 技术演示及后续技术开发和系统建模的经验,我们估计总体能效水平远低于 10 pJ/bit。
仅降低功率可能不足以推动 CPO 的广泛应用。因此,CPO 的目标应该是相对可插拔模块方面实现大幅成本降低。光学引擎的平均售价 (ASP) 应明显低于当前对 400G-DR4 光学器件的 ASP 预测,从 2021 年的 < 1.20 美元/Gbps 降至 2024 年的 < 0.60 美元。请注意,这些是最终用户 ASP,因此这些数字应构成收发器和 CPO 供应商自上而下的成本目标设置的基础,同时考虑到利润和管理费用。
我们估计,与可插拔光学器件相比,单位容量成本在系统级降低 50% 是可行的,这是由于高度集成的多通道 PIC 具有集成波导、调制器、检测器、多路复用器和用于被动对准光纤连接的 V 型槽。此外,除了更高的集成度之外,推动更高的 PIC 制造良率也至关重要。
CDR 芯片的取消也产生了显著的成本节约。此外,CPO 端口不需要传统的模块外壳、笼子、连接器、Retimer、昂贵的高级超低损耗 PCB 板材或电缆解决方案。
5.6 光子集成
CPO 将主要通过光子集成的进步实现。这可以在各种平台(如二氧化硅)来实现(平面光波电路),磷化铟(InP),绝缘体上硅(SOI /硅光子),硅氮化物(氮化硅) 、铌酸锂 (LiNbO3) 、玻璃和聚合物 。
在许多方面,这些平台具有互补的优势和劣势;然而,除了光子密度、功能和性能之外,关键方面是该平台是否适合 (a) 不同材料系统的集成和 (b) 大批量制造。第一个方面确保在为每个功能单元选择最佳材料时具有最大的多功能性,第二个方面对于满足批量需求和实现规模经济至关重要。
长期以来,硅光子学被认为有潜力同时提供广泛的光子器件功能、非常高水平的光子集成和电子-光子协同集成,以及通过利用成熟的、大晶圆 CMOS 处理 。对于数据中心光学应用,基于上述标准,与 CMOS 的单片集成可能不是最合适的方法,因为硅光子工艺与用于实现交换ASIC的最先进的 CMOS 节点不兼容。相反,对于电子和光子学使用不同工艺的异构集成方法可能更合适。这需要一个技术平台,能够在硅光子 PIC 上实现 III-V 族材料的高通量和低损耗集成。
基于 SiPh 的光子集成电路已经在 100G 和 400G 收发器模块和相干光学中取代传统的微光学器件。然而,要更快地降低成本,就需要从分立模块转向更密集集成的光学器件。通过将更多渠道整合到单个 PIC、消除封装级别、共享激光器和控制器以及利用批量制造流程,可以实现更大的节省。
第六部分 网络架构演进
各种文献中已经详细研究了如何利用交换机构建块给定大小的网络。对于大型数据中心,Clos架构的变体。最小化给定逻辑拓扑的物理实现成本需要评估交换机基数与端口速度以及电互连与光互连的关键权衡。
有关网络发展这些主题的更深入讨论,读者可以深入学习。光学发展路线图背景下的关键要点是:随着单一 ASIC 容量的不断增长以及基于铜缆和基于光纤的链路之间的成本差距不断缩小,可以通过重新考虑新的网络架构来节省成本和能耗。
图7说明了 CPO 部署的潜在增量路径。CPO 的一个潜在切入点是叶脊结构中的主干交换机,因为这些交换机在其所有下行链路上都需要单模光学器件,并且可以部署完全填充光学器件。这表明,每个引擎提供 4 到 8 个 400GBASE-DR4 和 -FR4 链路的光引擎将是与 51.2 T 交换机结合使用的初始 CPO 浪潮的理想目标。根据网络架构,主干上行链路可能需要相干光学,这推动了混合封装和可插拔光学的交换机架构。
图 7 逐渐采用 CPO 和网络架构演进齐头并进
下一步,来自叶交换机的上行链路可以迁移到 CPO,再次使用 400GBASE-DR4 或 -FR4 PMD。这些交换机还可以从混合实施中受益,其中只有部分端口(上行链路)装有 CPO 引擎,而下行链路则坚持使用可插拔光学器件。CPO 与可插拔端口的比率将取决于叶交换机需求。
请注意,与 FR4 相比,DR4 有一个关键优势:它允许将一个 400G 端口拆分为四个单独的 100G 端口,从而将交换机基数增加了四倍。反过来,这在两层应用时,可将整体网络可扩展性显着提高多达 16 倍,但代价是布线复杂性要高得多。这可以使用分支电缆或通过高密度光连接器来实现。因此,DR 型接口更适合高基数网络架构(每个交换机 64-128 个端口),而 FR 更适合低基数架构。
接下来,叶交换机下行链路可以从可插拔光学器件(通常基于并行 SMF)迁移到 CPO。这可能会导致交换机具有两种类型的 CPO 引擎(例如,用于上行链路的 FR4,用于下行链路的 DR4)。此外,CPO 可以部署在 TOR,首先在上行链路上。另一方面,只要无源铜线提供足够的覆盖范围来连接机架的服务器,TOR 下行链路很可能仍然基于铜线。
TOR-spine-leaf 架构的一个重要缺点是网络边缘(即 TOR)的基数受到铜 DAC 范围的严重限制。这意味着 TOR 层不会从交换机容量的持续进步中受益;以 3:1 的收缩比和每台服务器100Gb/s 的速度,51.2 T 交换机可以连接 384 台服务器,即 12 个机架中的 32 个服务器,而单个机架内可用的最大容量约为6.4T。
在架构、设备数量、运营和管理方面的网络简化可以提供强大的动力,将许多小型 TOR 交换机整合为一个大型交换机。这将导致网络中交换机的总数大幅减少,从而减少网络设备所需的机架空间,简化网络管理,降低网络总成本和功耗,并可能由于更大的一级服务器而提高工作负载性能池(即更多的服务器连接到第一网络层中的同一交换机)。
这种大型交换机由高度先进的交换机芯片支持,这需要交换机架构创新以实现如图1 所示的持续扩展 。
根据目标网络的大小,如果使用这种大型交换机 ASIC 的完整基数,则可以完全消除 TOR 层 [ 78 ]。显然,这将需要部署光纤到服务器 (FTTS),这只有在基于 FTTS 的解决方案的总成本与传统架构相当时才会发生。这代表了短距离 CPO 链路的重要机会,它可以基于 MMF 或降低了距离和成本的 SMF PMD,可能在突破 AOC 配置中。
在服务器端,将多个通道整合为一个光引擎的机会并不多,降低了CPO的吸引力。尽管如此,如果采用 FTTS,那么集成光链路的以太网网络接口卡 (NIC) 将有可能降低成本。
初代CPO可能基于商用交换机芯片,该芯片并未专门针对 CPO 进行设计,即片上 serdes 尚未针对较短 (XSR) 范围进行优化。下一代将受益于交换ASIC 和光引擎的联合优化,以充分发挥联合封装的潜力。
第七部分 总结
面板可插拔模块是迄今为止部署最广泛的数据中心光学器件,因为它们提供了卓越的灵活性、互操作性和丰富的多供应商生态系统。然而,面板可插拔设备的前进道路存在疑问:随着带宽需求持续增长,FPP 模型开始遇到功率、成本和密度的限制。
这引发了将光学器件从面板移入内部、更靠近交换机ASIC的尝试。板载光学已经被用于带宽密集型场景,例如高端路由器和高性能计算系统,现在已经发展到拥有专用 MSA,COBO。然而,板载只是实现更接近主交换ASIC 的第一步。共封装的光学器件最终是最具吸引力的,因为它可以实现高达50%的成本和功率降低。CPO 协作计划现在正在积极协调 CPO 供应商和数据中心运营商,以开始应对CPO的商用挑战。标准化,或者至少是一个共同的实施协议,至关重要,需要建立一套明确的要求,确保互操作性,并实现多源。ASIC和CPO供应商迫切需要融合的电气接口。目前,CPO 的实现更多地受集成光学市场接受度、标准和制造能力的限制,而不是技术挑战。
第一代CPO专为100Gb/s电和光通道而设计,目标是51.2T交换机一代。所有必需的光子器件和电路的技术可行性已经得到证明。实现所需的PIC带宽密度 (≥200 Gb/s/mm) 和功能需要紧凑且高性能的调制器和检测器技术。
将PIC和IC集成在一起,同时满足性能、功率密度、成本和散热方面的关键指标,需要先进的封装解决方案。这包括在芯片级集成不同的光子材料系统、电子驱动器/TIA IC 和 PIC 的3D集成、将高密度光纤阵列耦合到 PIC、连接电气接口以及管理热环境。