Alibaba lança modelo de inteligência artificial Qwen3-Next mais eficiente
De acordo com reportagem da Jinse Finance, a Tongyi Qianwen, subsidiária da Alibaba, lançou a próxima geração de arquitetura de modelo fundamental, Qwen3-Next, e abriu o código da série de modelos Qwen3-Next-80B-A3B baseada nessa arquitetura. Em comparação com a estrutura MoE do Qwen3, esta nova arquitetura apresenta as seguintes melhorias principais: mecanismo de atenção híbrida, estrutura MoE de alta esparsidade, uma série de otimizações que favorecem a estabilidade do treinamento e um mecanismo de previsão multi-token que aumenta a eficiência da inferência. Com base na estrutura do modelo Qwen3-Next, a Alibaba treinou o modelo Qwen3-Next-80B-A3B-Base, que possui 80 bilhões de parâmetros, mas ativa apenas 3 bilhões deles. Este modelo Base alcança desempenho semelhante ou até ligeiramente superior ao modelo denso Qwen3-32B, enquanto o custo de treinamento (horas de GPU) é inferior a um décimo do Qwen3-32B, e a taxa de throughput de inferência em contextos acima de 32k é mais de dez vezes maior que a do Qwen3-32B, alcançando uma relação custo-benefício extrema tanto no treinamento quanto na inferência.
Aviso Legal: o conteúdo deste artigo reflete exclusivamente a opinião do autor e não representa a plataforma. Este artigo não deve servir como referência para a tomada de decisões de investimento.
Talvez também goste
Operação de recompra reversa do Federal Reserve aceita US$ 20,339 bilhões
Dados: 31,404,900 SKY transferidos de um endereço anônimo, no valor aproximado de 2,1 milhões de dólares
O dólar americano ampliou o ganho diário em relação ao iene japonês para 0,5%, sendo cotado agora a 156,66.
Futuros de prata de Nova York disparam 7% durante o dia, agora sendo negociados a US$ 76,71 por onça
