Acelerando o desempenho da rede: O impacto do RDMA por Ethernet convergente (RoCE)
2024-12-27
A rápida evolução das aplicações de computação intensiva aumentou a necessidade de soluções de rede mais rápidas, mais eficientes e escaláveis. Entre as tecnologias mais inovadoras emergentes para atender a essa demanda está o acesso remoto direto à memória (RDMA) por Ethernet convergente (RoCE). Esta tecnologia inovadora facilita a transferência direta de dados entre sistemas sem necessidade de intervenção da CPU, reduzindo significativamente a latência e melhorando o desempenho geral do sistema. A iWave, uma importante empresa de projetos de FPGA, está na vanguarda deste avanço, tendo implementado uma solução Ethernet 100G robusta através da integração da IP ERNIC (Ethernet RDMA Network Interface Controller Intellectual Property) da AMD no portfólio de módulos de sistemas embarcados. Esta integração destina-se a melhorar as capacidades RDMA em aplicações de elevado desempenho.
Figura 1: O RoCE facilita a transferência direta de dados entre sistemas sem a necessidade de intervenção da CPU, reduzindo significativamente a latência e melhorando o desempenho geral do sistema. (Fonte da imagem: iWave)
Entendendo o RDMA por Ethernet convergente (RoCE)
O RDMA é uma tecnologia crítica que permite transferências diretas de memória entre hospedeiros ou servidores, contornando efetivamente a CPU. Esta capacidade permite que as CPUs se concentrem na execução de aplicações e no processamento de dados, conduzindo a melhorias notáveis no desempenho da rede caracterizadas por uma latência reduzida, menores cargas de CPU e maior largura de banda — tudo isto de uma forma econômica. O RoCE é um protocolo de rede específico concebido para facilitar as operações RDMA em redes Ethernet. Ao aproveitar a infraestrutura Ethernet existente, o RoCE apresenta uma opção atraente para organizações que buscam aprimorar o desempenho sem revisar suas configurações de rede atuais.
Tipos de RoCE
O RoCE é categorizado em duas versões distintas com base no adaptador de rede utilizado: RoCE v1 e RoCE v2.
- RoCE v1: Este protocolo permite a comunicação entre dois hospedeiros situados no mesmo domínio de difusão Ethernet (VLAN). Utiliza o Ethertype 0x8915 e restringe os quadros Ethernet padrão a 1500 bytes, permitindo que os quadros Ethernet jumbo se estendam até 9000 bytes.
- RoCE v2: Ao abordar as limitações do RoCE v1, o RoCE v2 introduz melhorias no encapsulamento de pacotes ao incorporar cabeçalhos IP e UDP. Esta modificação permite que o RoCE v2 funcione sem problemas em redes da camada 2 (camada de ligação de dados) e da camada 3 (camada de rede), suportando assim o roteamento e a escalabilidade da camada 3 em várias sub-redes. Muitas vezes referido como RoCE roteável (RRoCE), o RoCE v2 também adiciona suporte para multicast IP, ampliando ainda mais a sua aplicabilidade.
IP ERNIC: melhoria das capacidades RDMA
O IP ERNIC (Embedded RDMA enabled NIC) é um núcleo de IP controlador de interface de rede Ethernet RDMA personalizável, concebido para uma integração perfeita com FPGAs AMD, MPSoCs e implementações de IP MAC via software. Esta solução caracteriza-se por uma alta taxa de transferência, baixa latência e um mecanismo de transferência de dados confiável, totalmente descarregado por hardware, via Ethernet padrão. A iWave exemplificou o seu compromisso com o avanço tecnológico ao implementar com sucesso uma solução Ethernet 100G. Essa conquista foi possível graças à utilização do kit de desenvolvimento Zynq UltraScale+ MPSoC da iWave, que integra o IP ERNIC da AMD.
O kit de desenvolvimento Zynq UltraScale+ MPSoC foi especificamente concebido para prototipagem e avaliação de soluções Ethernet 100G, utilizando conectores QSFP-28 de alta velocidade.
Configuração de demonstração
Uma configuração típica de demonstração (Figura 2) consiste em:
- Kit de desenvolvimento Zynq UltraScale+ MPSoC ZU19EG da iWave
- Advantech Mellanox ConnectX-5 100G NIC
- NIC 1G habilitada para PTP Sync 1588
- Cabo MTP, módulos QSFP-28 e cabo Ethernet CAT6 RJ45
- PC com servidor Ubuntu 22.04
Figura 2: A configuração típica do kit de desenvolvimento Zynq UltraScale+ MPSoC. (Fonte da imagem: iWave)
Visão geral da arquitetura do sistema
A arquitetura do sistema foi concebida para otimizar a transferência de dados, com funções claramente definidas entre os componentes do Sistema de Processamento (PS) e da Lógica Programável (PL). A implementação também inclui a sincronização do protocolo de precisão de tempo (PTP), crucial para aplicações em tempo real. Com métricas de desempenho notáveis, como a capacidade de lidar com vídeo 8K em mais de 100 quadros por segundo, as potenciais aplicações abrangem vários setores, incluindo datacenters, multimídia e computação de alto desempenho, ressaltando a versatilidade e a importância da tecnologia nos ambientes computacionais modernos.
A arquitetura de alto nível do sistema, representada na Figura 3, destaca as funções distintas dos componentes PS e PL dentro do Zynq UltraScale+ MPSoC. O PS inclui um SoC de hardware baseado em ARM Cortex-A53, que é essencial para a configuração, o controle e o diagnóstico do sistema. Os principais componentes desta arquitetura incluem:
- Driver MAC Ethernet 100G: Garante um desempenho robusto e uma transmissão de dados de baixa latência a 100 Gb/s
- Driver do controlador ERNIC: Responsável pelo gerenciamento dos dados que chegam para a DDR e por facilitar a comunicação entre a aplicação do usuário e a IP ERNIC através de trocas eficientes de notificações
- Núcleo RDMA e bibliotecas de espaço do usuário: Garante a compatibilidade e o desempenho ideal para operações RDMA nos espaços do kernel e do usuário
Figura 3: Destaques das funções distintas do sistema de processamento e dos componentes lógicos programáveis no Zynq UltraScale+ MPSoC. (Fonte da imagem: iWave)
A IP ERNIC da AMD alivia efetivamente a pilha RoCE v2 na FPGA, com o controlador ERNIC a gerir a negociação entre vários módulos para facilitar a transferência de dados. Gera entradas na fila de trabalho e envia notificações (campainhas) para a IP ERNIC. Ao mesmo tempo, o subsistema Ethernet 100G do Zynq UltraScale+ MPSoC gerencia as camadas MAC e física, enquanto o Gerador de Padrões de Dados é responsável pela produção de dados brutos e padrões de dados de vídeo.
Protocolo de precisão de tempo (PTP)
O registro de data/hora PTP (norma IEEE 1588) desempenha um papel crucial no tempo de sincronização entre sistemas numa rede Ethernet. Esta sincronização é vital para melhorar o desempenho das aplicações em tempo real, permitindo trocas de dados sincronizadas e de baixa latência ao nível dos nanossegundos.
Principais destaques da configuração
As caraterísticas notáveis desta configuração incluem:
- Implementação de Ethernet 100G por RoCE v2 utilizando IP ERNIC da AMD
- Tipo de transporte de conexão confiável
- Funcionalidades RDMA SEND, RDMA READ e RDMA WRITE para tratamento de pacotes
- Suporte para os tipos de mensagens imediatas RDMA Send e RDMA Write
- Teste de desempenho para RDMA utilizando as aplicações XRPING e PERFTEST
- Gerador de padrões de dados personalizados para padrões de dados RAW e de vídeo
- Inserção de registros de data e hora PTP junto aos dados
As estatísticas detalhadas da taxa de transferência de dados de vídeo do kit de desenvolvimento Zynq UltraScale+ MPSoC para o PC servidor revelam um desempenho impressionante, com a capacidade de lidar com vídeo 8K em mais de 100 fps e vídeo 4K em mais de 400 fps.
Aplicações potenciais
A integração de RDMA por Ethernet convergente e IP ERNIC abre novos caminhos em vários setores, melhorando significativamente a conetividade, o desempenho e a eficiência numa série de aplicações, incluindo:
- Datacenters e computação em nuvem: Facilitando a comunicação eficiente entre servidores e acelerando o processamento de dados em arquiteturas de nuvem
- Captura e transferência de vídeo/imagem: Benéfica para aplicações multimídia, radiodifusão e ambientes de realidade virtual (RV)
- Soluções de armazenamento: Permitindo transferências de dados mais rápidas entre dispositivos de armazenamento e servidores, melhorando assim o desempenho do sistema de armazenamento
- Computação de alto desempenho (HPC): aprimorando as velocidades de transferência de dados e reduzindo a latência nos clusters de HPC para tarefas e simulações computacionais mais rápidas
- Dispositivos IoT de borda: Permitindo a coleta e transmissão de dados em tempo real a partir de sensores e dispositivos
À medida que a demanda por soluções de transferência de dados mais rápidas e eficientes continua aumentando, o RDMA por Ethernet convergente e a IP ERNIC estão prontos para desempenhar um papel fundamental no futuro da computação de alto desempenho.
Conclusão
O extenso portfólio de plataformas FPGA e SoC FPGA da iWave, combinado com sua profunda experiência técnica, permite que os clientes desenvolvam produtos de ponta que aproveitam os mais recentes avanços em inteligência artificial (IA), aprendizado de máquina e computação de borda. Ao estabelecer uma parceria com a iWave, as empresas podem acelerar o desenvolvimento dos seus produtos, reduzir os riscos e manter-se à frente da concorrência num cenário tecnológico cada vez mais complexo.
Para mais informações ou para discutir requisitos personalizados, contacte-nos via mktg@iwave-global.com
Disclaimer: The opinions, beliefs, and viewpoints expressed by the various authors and/or forum participants on this website do not necessarily reflect the opinions, beliefs, and viewpoints of DigiKey or official policies of DigiKey.




