基于融合以太网的RDMA

✍ dations ◷ 2025-01-31 22:46:18 #CS1 maint: Multiple names: authors list,以太网路,操作系统技术,并行计算

基于融合以太网的RDMA(英语:RDMA over Converged Ethernet,缩写RoCE)是一个网络协议,允许在一个以太网网络上使用远程直接内存访问(RDMA)。RoCE有RoCE v1和RoCE v2两个版本。RoCE v1是一个以太网链路层(英语:Link layer)协议,因此允许同一个以太网广播域中的任意两台主机间进行通信。RoCE v2是一个网络层协议,因而RoCE v2数据包可以被路由。虽然RoCE协议受益于融合以太网网络(英语:数据中心桥接)的特征,但该协议也可用于传统或非融合的以太网网络。

网络密集型应用程序(如网络存储或群集计算)需要具有高带宽且低延迟的网络基础架构。RDMA相比其他网络应用程序接口(诸如Berkeley套接字)的优势是更低的延迟、更低的CPU占用,以及更高的带宽。RoCE协议有着比其前身iWARP(英语:iWARP)协议更低的延迟。现有的RoCE HCA(主机通道适配器)的延迟低至1.3微秒,而在2011年已知的最低的iWARP HCA的延迟为3微秒。

RoCE v1协议是一个以太网链路层协议,Ethertype为0x8915。它要符合以太网协议的帧长度限制:常规以太网帧为1500字节,巨型帧为9000字节。

RoCEv2协议构筑于UDP/IPv4或UDP/IPv6协议之上。UDP目标端口号4791已保留给RoCE v2。因为RoCEv2数据包是可路由的,所以RoCE v2协议有时被称为Routable RoCE或RRoCE。虽然一般不保证UDP数据包的传达顺序,但RoCEv2规范要求,有相同UDP源端口及目标地址的数据包不得改变顺序。除此之外,RoCEv2定义了一种拥塞控制机制,使用IP ECN位用于标记,CNP帧用于送达通知。软件对RoCE v2的支持在不断涌现。Mellanox OFED 2.3或更高版本支持RoCE v2,Linux内核v4.5也提供支持。

RoCE定义了如何在以太网上执行RDMA,InfiniBand架构规范则定义了如何在一个InfiniBand网络上执行RDMA。RoCE预期为将主要面向群集的InfiniBand应用程序带入到一个寻常的以太网融合结构。有人认为,InfiniBand将会继续提供比以太网更高的带宽以及更低的延迟。

RoCE与InfiniBand协议之间的技术差异:

相比RoCE协议定义了如何使用以太网和UDP/IP帧执行RDMA,iWARP协议定义了如何基于一个面向连接的传输(如传输控制协议,TCP)执行RDMA。RoCE v1受限于单个广播域,RoCE v2和iWARP封包则可以路由。在大规模数据中心和大规模应用程序(即大型企业、云计算、Web 2.0应用程序等)中使用iWARP时,大量连接的内存需求,以及TCP的流量和可靠性控制,将会导致可扩展性和性能问题。此外,RoCE规范中定义了多播,而当前的iWARP规范中没有定义如何执行多播RDMA。

iWARP中的可靠性由协议本身提供,因为TCP/IP为可靠传输。相比而言,RoCEv2采用UDP/IP,这使它有更小的开销和更好的性能,但不提供固有的可靠性,因此可靠性必须搭配RoCEv2实现。其中一种解决方案是,使用融合以太网交换机使局域网变得可靠。这需要局域网内的所有交换机支持融合以太网,并防止RoCEv2数据包通过诸如互联网等不可靠的广域网传输。另一种解决方案是增加RoCE协议的可靠性(即可靠的RoCE),向RoCE添加握手,通过牺牲性能为代价提供可靠性。

两种协议哪种更好的问题取决于供应商。英特尔和Chelsio建议并独家支持iWARP。Mellanox、Xilinx以及Broadcom推荐并独家支持RoCE/RoCEv2。思科同时支持RoCE与自家的VIC RDMA协议。网络行业中的其他供应商则同时提供两种协议的支持,这些供应商如Marvell、微软、Linux和Kazan。

两种协议都经过了标准化,iWARP是IETF定义的基于以太网的RDMA,RoCE是InfiniBand贸易协会(英语:IBTA)定义的基于以太网的RDMA 

支持RoCE的设备的主要供应商包括:

相关

  • 关节痛关节痛(英语:Arthralgia,源自希腊文 arthro- 即关节 + -algos 即痛)字面上的意义就是“关节”“疼痛”。具体而言,创伤、感染、疾病(特别是关节炎)、药物过敏等原因都可能出现关节
  • 手指手指是人或一些灵长类动物(例如猿)的手上的指头。人的手指虽然非常灵活,但也非常纤细,原因是因为活动手指的肌肉不位于手指内,而位于下臂,这些肌肉通过长的腱来指导手指的运动。有
  • 无尾目无尾目(学名:Anura)是两生纲的一个目,其下生物即蛙或蟾。该目的生物成体基本无尾,卵一般产于水中,孵化成蝌蚪,用鳃呼吸,经过变态,成体主要用肺呼吸,但多数皮肤也有部分呼吸功能。无尾
  • 多格拉语多格拉语(डोगरी / ڈوگری ‬),巴基斯坦常称为帕哈里语(पहाड़ी / پہاڑی‬),是印度-雅利安语支的语言,大约有500万人作为母语。多格拉语分布于印度和巴基斯坦,主
  • A11A·B·C·D·G·H·QI·J·L·M·N·P·R·S·VATC代码A11(维生素)是解剖学治疗学及化学分类系统的一个药物分组,这是由世界卫生组织药物统计方法整合中心(The WHO Collaboratin
  • 扎伊多纳拉赞·扎伊图娜(英语:Razan Zaitouneh,阿拉伯语:رزان زيتونة‎,1977年4月29日-),叙利亚女性人权律师。在2011年叙利亚反政府示威中担任地方协调委员会(LCC)的负责人,她因受到
  • 浙江行中书省浙江等处承宣布政使司,简称浙江布政司,是明朝在太湖平原南部、钱塘江流域、曹娥江流域、甬江流域、椒江流域、瓯江流域等地的一级行政区名,下辖11府1散州75县。布政使司衙门驻
  • 欧洲呼吸学会欧洲呼吸学会(英语:European Respiratory Society)是一个欧洲非营利专业组织,主要研究呼吸医学。 1990年成立于瑞士洛桑,在布鲁塞尔和谢菲尔德有办事处。每年都会举办国际呼吸学
  • 日本驻英国大使馆日本驻英国大使馆(日语:在英国日本大使館;英语:Embassy of Japan in the UK)是日本国驻在大不列颠与北爱尔兰联合王国(简称英国)的最高外交代表机构,日本在英国其余各地的领事馆也都
  • 中型运载火箭中型运载火箭(英语:Medium-lift launch vehicle,MLV)是指一种具备2,000至20,000公斤(4,400至44,100磅)近地轨道酬载能力的运载火箭。目前能制造的国家有美国、俄罗斯、中国、日本