Esta semana, a Xiaomi anunciou uma medida ousada: está abrindo o código-fonte do Xiaomi-MiMo-Audio, seu principal modelo de voz com IA de ponta a ponta. O que isso significa? O Xiaomi-MiMo-Audio foi projetado para um verdadeiro aprendizado em contexto na fala – uma inovação que está pronta para mudar a forma como a IA pode entender e interagir em plataformas orientadas por voz.
Em vez do antigo método de se afogar em dados rotulados para obter resultados, o Xiaomi-MiMo-Audio pode generalizar e se adaptar a novas tarefas com apenas alguns exemplos. Isso lembra muito a mudança que vimos com modelos como o GPT-3 no domínio da linguagem, só que agora está acontecendo com a voz. O modelo foi meticulosamente treinado em centenas de milhões de horas de dados de áudio, o que lhe dá não apenas o QI para analisar o conteúdo, mas também o QE para entender o tom e a intenção, o que é um avanço significativo para aplicativos comerciais e produtos voltados para o cliente.
Xiaomi-MiMo-Audio: Inovação em voz com IA
O que diferencia o MiMo-Audio das soluções concorrentes é seu salto técnico no pré-treinamento de compactação sem perdas, permitindo que o modelo desbloqueie a generalização entre tarefas em escala. Em termos práticos, isso permite que as empresas implantem aplicativos de voz com IA com requisitos de dados drasticamente reduzidos e integração muito mais rápida para novas tarefas e setores.
Liderança em fala generativa de código aberto
A Xiaomi não está apenas inovando – ela está compartilhando o manual. A empresa disponibilizou não apenas o modelo em si, mas também seu tokenizador, uma estrutura de modelo recém-desenvolvida, ferramentas de treinamento avançadas e um conjunto de avaliação. Essa medida deve acelerar o progresso em todo o ecossistema de voz com IA, fornecendo aos desenvolvedores e às empresas acesso a uma tecnologia madura e testada em batalha que pode ser adaptada para casos de uso personalizados.
Para implementação, os modelos de pré-treinamento e ajuste fino do Xiaomi-MiMo-Audio podem ser acessados na plataforma Huggingface, com o tokenizador lançado no GitHub. O modelo foi desenvolvido com base em uma arquitetura Transformer de 1,2 bilhão de parâmetros, o que o torna robusto para tarefas de reconstrução de áudio e de conversão de áudio em texto. Para empresas ou profissionais que desejam aprimorar seus dispositivos ou integrar os recursos mais recentes, os aplicativos do sistema estão disponíveis no HyperOSUpdates.com, e o aplicativo MemeOS Enhancer no Google Play oferece ferramentas adicionais, atualizações do sistema e recursos de acesso antecipado.
Fonte: Página inicial de TI