Xiaomi corrige decisões de direção autônoma com o novo cérebro de IA “Binary”

O fundador da Xiaomi, Lei Jun, anunciou oficialmente um marco significativo para o laboratório de IA da empresa: vários trabalhos de pesquisa da equipe da Xiaomi foram aceitos na ICLR 2026 (Conferência Internacional sobre Representações de Aprendizagem), uma das principais conferências de inteligência artificial do mundo.

Os trabalhos selecionados abrangem fronteiras críticas da IA moderna, incluindo raciocínio multimodal, aprendizagem por reforço (RL), agentes de GUI, geração de áudio e, talvez o mais notável, direção autônoma de ponta a ponta.

Pesquisa em destaque: DIPOLE (Otimização de política de difusão dicotômica)

Entre os trabalhos aceitos, o artigo intitulado “Dichotomous Diffusion Policy Optimization” (Otimização da política de difusão dicotômica ) destaca-se por sua aplicação direta a sistemas de direção autônoma e modelos de tomada de decisão em larga escala.

O desafio: estabilidade versus complexidade As estratégias baseadas em difusão são atualmente o padrão ouro para tarefas generativas devido ao seu alto poder expressivo e capacidade de controle. No entanto, aplicá-las ao aprendizado por reforço (RL) para a tomada de decisões cria um gargalo:

  • A otimização direta geralmente leva à instabilidade do treinamento.
  • As aproximações gaussianas são computacionalmente caras e exigem etapas excessivas de remoção de ruído, o que as torna impraticáveis para aplicações em tempo real, como a direção autônoma.

A solução: O algoritmo DIPOLE

A equipe de pesquisa da Xiaomi (liderada pelos co-autores Liang Ruiming, Zheng Yinan, et al.) propõe o DIPOLE (Dichotomous Diffusion Policy Improvement).

  • Lógica principal: O algoritmo reexamina o objetivo de RL regularizado por KL. Em vez de uma otimização confusa, ele introduz uma “regularização de política gananciosa”.
  • Decomposição binária: Ele decompõe a política ideal em uma estrutura “binária” – uma que maximiza as recompensas e outra que as minimiza.
  • Controle de inferência: Durante a implementação real, o sistema gera ações combinando linearmente as pontuações de probabilidade dessas duas políticas opostas. Isso permite que o sistema ajuste de forma flexível o quão “gananciosa” (agressiva) ou conservadora deve ser a tomada de decisões.

Validação e impacto

O algoritmo DIPOLE não é apenas teórico. O documento valida seu desempenho em três benchmarks críticos:

  1. RL geral: melhorias significativas em benchmarks padrão como ExORL e OGBench.
  2. Escalabilidade: Validado com sucesso em modelos VLA (Visão-Linguagem-Ação) com escalas de parâmetros que chegam a 1 bilhão, provando que funciona em modelos de base de grande escala.
  3. Condução autônoma: O algoritmo demonstrou desempenho superior no NAVSIM, um benchmark de direção autônoma do mundo real, sinalizando melhorias diretas para os futuros sistemas piloto da Xiaomi.

Fonte: Lei Jun Weibo

Play Store icon
HyperOS Downloader Easily check if your phone is eligible for HyperOS 3.0 update!
Download icon

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Enquete
Which name did you like better, MIUI or HyperOS?