A Xiaomi alcançou um grande avanço em inteligência artificial e sua equipe Big Model está na vanguarda da tecnologia de raciocínio de áudio. Em um feito notável que mostra a crescente proeza da empresa em pesquisas de IA de ponta, o modelo mais recente da Xiaomi superou gigantes do setor, como a OpenAI e o Google, em uma referência importante de compreensão de áudio.
A equipe anunciou, por meio da conta oficial da Xiaomi Technology, que superou a lista de avaliação MMAU (Massive Multi-Task Audio Understanding and Reasoning) de renome mundial. Seu modelo alcançou um recorde de 64,5% de precisão, superando significativamente o GPT-4o da OpenAI (57,3%) e o Gemini 2.0 Flash do Google (55,6%).
Abordagem revolucionária de aprendizado por reforço
O que é particularmente notável sobre essa conquista é o ritmo em que ela foi realizada. Seguindo o exemplo do DeepSeek-R1, os pesquisadores da Xiaomi estenderam os algoritmos de aprendizagem por reforço para tarefas de compreensão de áudio multimodal e realizaram isso em um período de uma semana.
Os cientistas aplicaram o método Group Relative Policy Optimization (GRPO), que permite que os modelos de IA aprendam de forma independente por meio de um mecanismo de “tentativa e erro-recompensa”. Esse mecanismo permite a criação de recursos de raciocínio que são semelhantes à reflexão humana e à verificação em várias etapas.
O Dr. Zhang Wei, pesquisador-chefe do projeto, acrescenta: “O aprendizado por reforço é especialmente bom para lidar com uma grande lacuna entre a geração e a verificação de resultados. O raciocínio de áudio é exatamente uma tarefa desse tipo, em que o pensamento ativo gera resultados mais eficientes do que a memorização de padrões.”
Mais do que puramente reconhecer o som
Atualmente, os aplicativos de IA exigem mais do que o mero reconhecimento de som. O avanço da Xiaomi permite que a IA:
- Determinar possíveis falhas em um veículo analisando gravações de cockpit
- Inferir o humor de um compositor ao ouvir apresentações musicais
- Antecipar riscos de colisão em locais lotados, como estações de metrô
O conjunto de testes do MMAU usa 10.000 clipes de áudio, de fala a som ambiente e música, com pares de perguntas e respostas anotadas por humanos para testar o modelo em 27 habilidades.
Interrompendo as abordagens tradicionais de IA
Os experimentos da Xiaomi produziram algumas descobertas surpreendentes que desafiam a sabedoria convencional de desenvolvimento de IA:
- O aprendizado por reforço superou significativamente o aprendizado supervisionado em um conjunto de dados de apenas 38.000 itens
- Seu modelo de 7B parâmetros demonstrou capacidade de raciocínio superior, apesar de ser muito menor do que outros modelos concorrentes com mais de 100B parâmetros
- Forçar o modelo a gerar processos de raciocínio explícitos, de fato, reduziu o desempenho em 3,4%
Embora a precisão de 64,5% seja alta, ela ainda é menor do que a referência de 82,23% dos especialistas humanos, indicando que ainda há muito espaço para melhorias.
Compromisso com o código aberto
Fiel à filosofia da Xiaomi de inovação para todos, a organização abriu o código de treinamento e os parâmetros do modelo. Com esse ato altruísta, a empresa está permitindo que desenvolvedores e pesquisadores de todo o mundo ampliem sua inovação.
“Ao abrir nossos esforços para a comunidade global de IA, pretendemos acelerar o processo rumo à verdadeira compreensão inteligente de áudio”, disse o fundador e CEO da Xiaomi, Lei Jun. “Esse é mais um passo em nossa missão de tornar a tecnologia inovadora acessível a todos.”
Para os interessados em experimentar essa tecnologia:
- Código de treinamento: Repositório do GitHub
- Parâmetros do modelo: Face de abraço
- Relatório técnico: arXiv
- Demonstração interativa: Experimente você mesmo
Esse avanço ocorre no momento em que a Xiaomi está introduzindo recursos de IA em toda a sua linha de produtos, de smartphones a produtos domésticos inteligentes de IoT, e está tornando a empresa uma séria concorrente na arena global de pesquisa de IA.
Fonte: Casa de TI