Xiaomi lidera o mundo em raciocínio de áudio com IA

A Xiaomi alcançou um grande avanço em inteligência artificial e sua equipe Big Model está na vanguarda da tecnologia de raciocínio de áudio. Em um feito notável que mostra a crescente proeza da empresa em pesquisas de IA de ponta, o modelo mais recente da Xiaomi superou gigantes do setor, como a OpenAI e o Google, em uma referência importante de compreensão de áudio.

A equipe anunciou, por meio da conta oficial da Xiaomi Technology, que superou a lista de avaliação MMAU (Massive Multi-Task Audio Understanding and Reasoning) de renome mundial. Seu modelo alcançou um recorde de 64,5% de precisão, superando significativamente o GPT-4o da OpenAI (57,3%) e o Gemini 2.0 Flash do Google (55,6%).

Abordagem revolucionária de aprendizado por reforço

O que é particularmente notável sobre essa conquista é o ritmo em que ela foi realizada. Seguindo o exemplo do DeepSeek-R1, os pesquisadores da Xiaomi estenderam os algoritmos de aprendizagem por reforço para tarefas de compreensão de áudio multimodal e realizaram isso em um período de uma semana.

Os cientistas aplicaram o método Group Relative Policy Optimization (GRPO), que permite que os modelos de IA aprendam de forma independente por meio de um mecanismo de “tentativa e erro-recompensa”. Esse mecanismo permite a criação de recursos de raciocínio que são semelhantes à reflexão humana e à verificação em várias etapas.

O Dr. Zhang Wei, pesquisador-chefe do projeto, acrescenta: “O aprendizado por reforço é especialmente bom para lidar com uma grande lacuna entre a geração e a verificação de resultados. O raciocínio de áudio é exatamente uma tarefa desse tipo, em que o pensamento ativo gera resultados mais eficientes do que a memorização de padrões.”

Mais do que puramente reconhecer o som

Atualmente, os aplicativos de IA exigem mais do que o mero reconhecimento de som. O avanço da Xiaomi permite que a IA:

  • Determinar possíveis falhas em um veículo analisando gravações de cockpit
  • Inferir o humor de um compositor ao ouvir apresentações musicais
  • Antecipar riscos de colisão em locais lotados, como estações de metrô

O conjunto de testes do MMAU usa 10.000 clipes de áudio, de fala a som ambiente e música, com pares de perguntas e respostas anotadas por humanos para testar o modelo em 27 habilidades.

Interrompendo as abordagens tradicionais de IA

Os experimentos da Xiaomi produziram algumas descobertas surpreendentes que desafiam a sabedoria convencional de desenvolvimento de IA:

  • O aprendizado por reforço superou significativamente o aprendizado supervisionado em um conjunto de dados de apenas 38.000 itens
  • Seu modelo de 7B parâmetros demonstrou capacidade de raciocínio superior, apesar de ser muito menor do que outros modelos concorrentes com mais de 100B parâmetros
  • Forçar o modelo a gerar processos de raciocínio explícitos, de fato, reduziu o desempenho em 3,4%

Embora a precisão de 64,5% seja alta, ela ainda é menor do que a referência de 82,23% dos especialistas humanos, indicando que ainda há muito espaço para melhorias.

Compromisso com o código aberto

Fiel à filosofia da Xiaomi de inovação para todos, a organização abriu o código de treinamento e os parâmetros do modelo. Com esse ato altruísta, a empresa está permitindo que desenvolvedores e pesquisadores de todo o mundo ampliem sua inovação.

“Ao abrir nossos esforços para a comunidade global de IA, pretendemos acelerar o processo rumo à verdadeira compreensão inteligente de áudio”, disse o fundador e CEO da Xiaomi, Lei Jun. “Esse é mais um passo em nossa missão de tornar a tecnologia inovadora acessível a todos.”

Para os interessados em experimentar essa tecnologia:

Esse avanço ocorre no momento em que a Xiaomi está introduzindo recursos de IA em toda a sua linha de produtos, de smartphones a produtos domésticos inteligentes de IoT, e está tornando a empresa uma séria concorrente na arena global de pesquisa de IA.

Fonte: Casa de TI

Play Store icon
HyperOS Downloader Easily check if your phone is eligible for HyperOS 3.0 update!
Download icon

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Enquete
Which name did you like better, MIUI or HyperOS?