A nova versão experimental da startup chinesa Deepseek promete aumentar a eficiência e melhorar a capacidade da inteligência artificial de lidar com grandes volumes de informação para uma fração de custo. Ainda assim, as dúvidas permanecem sobre a eficácia e a segurança da arquitetura.
Deepseek surpreendeu o Vale do Silício no ano passado, lançando seu primeiro modelo, o R1, mostrando que era possível treinar grandes modelos de idiomas (LLMS) rapidamente, em chips menos poderosos e menos de recursos.
Na segunda -feira, a empresa lançou o Deepseek-V3.2-EXPuma versão experimental de seu modelo atual, o Deepseek-V3.1-terminalAvançar em sua missão de tornar os sistemas de IA mais eficientes, de acordo com a publicação no Fórum de Abraços.
“Deepseek v3.2 mantém foco na eficiência, redução de custos e compartilhamento de código aberto”, disse ele à CNBC Yakefu AdinaLíder da comunidade chinesa em abraçar o rosto. “A grande melhoria é um novo recurso chamado DSA (Atenção Deepseek Sparse)O que torna a IA melhor lidar com documentos e conversas longas. Ele também reduz o custo da operação em relação à versão anterior. ”
“Isso é significativo porque deve tornar o modelo mais rápido e mais econômico sem a realização do desempenho”, disse ele Nick PaciênciaVice -presidente e líder de práticas de IA no grupo Futurum. “Isso torna a IA avançada mais acessível a desenvolvedores, pesquisadores e pequenas empresas e pode aumentar uma onda de novas aplicações inovadoras”.
Os prós e contras de Atenção esparsa
Um modelo de IA toma decisões com base em dados de treinamento e novas informações, como um comando. Imagine que uma companhia aérea deseja encontrar o melhor caminho para um B. Apesar das muitas opções, nem todas são viáveis. Ao eliminar rotas menos práticas, reduz drasticamente o tempo, o combustível e, finalmente, o dinheiro necessário para viajar. Isso é o que Atenção esparsa Faça: considere apenas os dados que você considera relevante para a tarefa, em vez de processar todo o conjunto de informações do modelo, como fazem as arquiteturas tradicionais.
“Basicamente, você cortou o que você acha que não é importante”, explicou ele Ekaterina Almasqueco-fundador e sócio-gerente do novo fundo de capital de risco de capital em branco.
O Atenção esparsa É vantajoso em termos de eficiência e escalabilidade, pois requer menos recursos. Mas há uma preocupação: isso pode reduzir a confiabilidade do modelo, precisamente porque não tem supervisão sobre como e por que certas informações são descartadas.
“A realidade é que esses modelos perdem muitas nuances”, disse Almasque, que foi um dos primeiros apoiadores de Dataiku e Darktrace, além de investidor em Graphcore. “A questão é: eles têm o mecanismo certo para excluir dados realmente irrelevantes ou estão deixando de fora informações importantes, o que torna o resultado muito menos relevante?”
Essa limitação pode ser especialmente problemática em segurança e inclusão na IA. O investidor apontou que pode não ser “o modelo mais apropriado ou mais seguro” em comparação com os concorrentes ou arquiteturas tradicionais.
Deepseek, no entanto, afirma que o modelo experimental tem um desempenho equivalente ao do terminal V3.1. Apesar das especulações sobre uma possível bolha no setor, a IA segue no centro da disputa geopolítica entre a China e os Estados Unidos. Yakefu enfatizou que os modelos Deepsek funcionam “prontos para uso” com chips de IA chineses, como Ascend e Cambricon, e podem ser executados localmente em hardware doméstico sem configuração adicional.
A empresa também disponibilizou o código -fonte e as ferramentas necessárias para usar o modelo experimental.
“Isso significa que outras pessoas podem aprender com isso e criar suas próprias melhorias”, disse Yakefu.
Para as almas, no entanto, essa abertura pode comprometer a defensabilidade da tecnologia.
“A abordagem não é totalmente nova”, observou ele, lembrando que a indústria fala de Modelos de Spaste Desde 2015. Além disso, por ser de código aberto, a Deepseek não pode patentear sua tecnologia. Sua vantagem competitiva, portanto, estaria em como definir quais informações incluir.
No posto de Hugging Face, a empresa reconheceu que o V3.2-EXP é “um passo intermediário em direção à nossa arquitetura da próxima geração”.
Como a paciência apontou: “Esta é a proposta de valor da Deepseek: a eficiência está se tornando tão importante quanto o poder bruto”.
“Deepseek está pensando no longo prazo, mantendo a comunidade envolvida em seu progresso”, acrescentou Yakefu. “As pessoas sempre preferem o que é barato, confiável e eficaz”.
Canal 562 CLAROTV+ | Canal 562 céu | Canal 592 Vivo | Canal 187 Oi | Operadores regionais
Sinal aberto da TV: canal parabólico 562
Online: www.timesbrasil.com.br | YouTube
Canais rápidos: Samsung TV Plus, Canais LG, Canais TCL, Plutão TV, Roku, Soul TV, Zapping | Novos streamings
Este conteúdo foi fornecido por CNBC International e a responsabilidade exclusiva pela tradução portuguesa é do Times Brasil.