A Xiaomi lançou seu modelo de voz com IA extremamente semelhante à humana

Esta semana, a Xiaomi anunciou uma medida ousada: está abrindo o código-fonte do Xiaomi-MiMo-Audio, seu principal modelo de voz com IA de ponta a ponta. O que isso significa? O Xiaomi-MiMo-Audio foi projetado para um verdadeiro aprendizado em contexto na fala – uma inovação que está pronta para mudar a forma como a IA pode entender e interagir em plataformas orientadas por voz.

Em vez do antigo método de se afogar em dados rotulados para obter resultados, o Xiaomi-MiMo-Audio pode generalizar e se adaptar a novas tarefas com apenas alguns exemplos. Isso lembra muito a mudança que vimos com modelos como o GPT-3 no domínio da linguagem, só que agora está acontecendo com a voz. O modelo foi meticulosamente treinado em centenas de milhões de horas de dados de áudio, o que lhe dá não apenas o QI para analisar o conteúdo, mas também o QE para entender o tom e a intenção, o que é um avanço significativo para aplicativos comerciais e produtos voltados para o cliente.


Xiaomi-MiMo-Audio: Inovação em voz com IA

O que diferencia o MiMo-Audio das soluções concorrentes é seu salto técnico no pré-treinamento de compactação sem perdas, permitindo que o modelo desbloqueie a generalização entre tarefas em escala. Em termos práticos, isso permite que as empresas implantem aplicativos de voz com IA com requisitos de dados drasticamente reduzidos e integração muito mais rápida para novas tarefas e setores.

Liderança em fala generativa de código aberto

A Xiaomi não está apenas inovando – ela está compartilhando o manual. A empresa disponibilizou não apenas o modelo em si, mas também seu tokenizador, uma estrutura de modelo recém-desenvolvida, ferramentas de treinamento avançadas e um conjunto de avaliação. Essa medida deve acelerar o progresso em todo o ecossistema de voz com IA, fornecendo aos desenvolvedores e às empresas acesso a uma tecnologia madura e testada em batalha que pode ser adaptada para casos de uso personalizados.

Para implementação, os modelos de pré-treinamento e ajuste fino do Xiaomi-MiMo-Audio podem ser acessados na plataforma Huggingface, com o tokenizador lançado no GitHub. O modelo foi desenvolvido com base em uma arquitetura Transformer de 1,2 bilhão de parâmetros, o que o torna robusto para tarefas de reconstrução de áudio e de conversão de áudio em texto. Para empresas ou profissionais que desejam aprimorar seus dispositivos ou integrar os recursos mais recentes, os aplicativos do sistema estão disponíveis no HyperOSUpdates.com, e o aplicativo MemeOS Enhancer no Google Play oferece ferramentas adicionais, atualizações do sistema e recursos de acesso antecipado.


Fonte: Página inicial de TI

Play Store icon
HyperOS Downloader Easily check if your phone is eligible for HyperOS 3.0 update!
Download icon

Deixe um comentário

fckk

Enquete
Which name did you like better, MIUI or HyperOS?