Xiaomi lidera o mundo em raciocínio de áudio com IA

A Xiaomi alcançou um grande avanço em inteligência artificial e sua equipe Big Model está na vanguarda da tecnologia de raciocínio de áudio. Em um feito notável que mostra a crescente proeza da empresa em pesquisas de IA de ponta, o modelo mais recente da Xiaomi superou gigantes do setor, como a OpenAI e o Google, em uma referência importante de compreensão de áudio.

A equipe anunciou, por meio da conta oficial da Xiaomi Technology, que superou a lista de avaliação MMAU (Massive Multi-Task Audio Understanding and Reasoning) de renome mundial. Seu modelo alcançou um recorde de 64,5% de precisão, superando significativamente o GPT-4o da OpenAI (57,3%) e o Gemini 2.0 Flash do Google (55,6%).

Abordagem revolucionária de aprendizado por reforço

O que é particularmente notável sobre essa conquista é o ritmo em que ela foi realizada. Seguindo o exemplo do DeepSeek-R1, os pesquisadores da Xiaomi estenderam os algoritmos de aprendizagem por reforço para tarefas de compreensão de áudio multimodal e realizaram isso em um período de uma semana.

Os cientistas aplicaram o método Group Relative Policy Optimization (GRPO), que permite que os modelos de IA aprendam de forma independente por meio de um mecanismo de “tentativa e erro-recompensa”. Esse mecanismo permite a criação de recursos de raciocínio que são semelhantes à reflexão humana e à verificação em várias etapas.

O Dr. Zhang Wei, pesquisador-chefe do projeto, acrescenta: “O aprendizado por reforço é especialmente bom para lidar com uma grande lacuna entre a geração e a verificação de resultados. O raciocínio de áudio é exatamente uma tarefa desse tipo, em que o pensamento ativo gera resultados mais eficientes do que a memorização de padrões.”

Mais do que puramente reconhecer o som

Atualmente, os aplicativos de IA exigem mais do que o mero reconhecimento de som. O avanço da Xiaomi permite que a IA:

Determinar possíveis falhas em um veículo analisando gravações de cockpit
Inferir o humor de um compositor ao ouvir apresentações musicais
Antecipar riscos de colisão em locais lotados, como estações de metrô

O conjunto de testes do MMAU usa 10.000 clipes de áudio, de fala a som ambiente e música, com pares de perguntas e respostas anotadas por humanos para testar o modelo em 27 habilidades.

Interrompendo as abordagens tradicionais de IA

Os experimentos da Xiaomi produziram algumas descobertas surpreendentes que desafiam a sabedoria convencional de desenvolvimento de IA:

O aprendizado por reforço superou significativamente o aprendizado supervisionado em um conjunto de dados de apenas 38.000 itens
Seu modelo de 7B parâmetros demonstrou capacidade de raciocínio superior, apesar de ser muito menor do que outros modelos concorrentes com mais de 100B parâmetros
Forçar o modelo a gerar processos de raciocínio explícitos, de fato, reduziu o desempenho em 3,4%

Embora a precisão de 64,5% seja alta, ela ainda é menor do que a referência de 82,23% dos especialistas humanos, indicando que ainda há muito espaço para melhorias.

Compromisso com o código aberto

Fiel à filosofia da Xiaomi de inovação para todos, a organização abriu o código de treinamento e os parâmetros do modelo. Com esse ato altruísta, a empresa está permitindo que desenvolvedores e pesquisadores de todo o mundo ampliem sua inovação.

“Ao abrir nossos esforços para a comunidade global de IA, pretendemos acelerar o processo rumo à verdadeira compreensão inteligente de áudio”, disse o fundador e CEO da Xiaomi, Lei Jun. “Esse é mais um passo em nossa missão de tornar a tecnologia inovadora acessível a todos.”

Para os interessados em experimentar essa tecnologia:

Código de treinamento: Repositório do GitHub
Parâmetros do modelo: Face de abraço
Relatório técnico: arXiv
Demonstração interativa: Experimente você mesmo

Esse avanço ocorre no momento em que a Xiaomi está introduzindo recursos de IA em toda a sua linha de produtos, de smartphones a produtos domésticos inteligentes de IoT, e está tornando a empresa uma séria concorrente na arena global de pesquisa de IA.

Fonte: Casa de TI