DeepSeek da China lança modelo de IA de nova geração

A nova versão experimental da startup chinesa Deepseek promete aumentar a eficiência e melhorar a capacidade da inteligência artificial de lidar com grandes volumes de informação para uma fração de custo. Ainda assim, as dúvidas permanecem sobre a eficácia e a segurança da arquitetura.

Deepseek surpreendeu o Vale do Silício no ano passado, lançando seu primeiro modelo, o R1, mostrando que era possível treinar grandes modelos de idiomas (LLMS) rapidamente, em chips menos poderosos e menos de recursos.

Na segunda -feira, a empresa lançou o Deepseek-V3.2-EXPuma versão experimental de seu modelo atual, o Deepseek-V3.1-terminalAvançar em sua missão de tornar os sistemas de IA mais eficientes, de acordo com a publicação no Fórum de Abraços.

“Deepseek v3.2 mantém foco na eficiência, redução de custos e compartilhamento de código aberto”, disse ele à CNBC Yakefu AdinaLíder da comunidade chinesa em abraçar o rosto. “A grande melhoria é um novo recurso chamado DSA (Atenção Deepseek Sparse)O que torna a IA melhor lidar com documentos e conversas longas. Ele também reduz o custo da operação em relação à versão anterior. ”

“Isso é significativo porque deve tornar o modelo mais rápido e mais econômico sem a realização do desempenho”, disse ele Nick PaciênciaVice -presidente e líder de práticas de IA no grupo Futurum. “Isso torna a IA avançada mais acessível a desenvolvedores, pesquisadores e pequenas empresas e pode aumentar uma onda de novas aplicações inovadoras”.

Os prós e contras de Atenção esparsa

Um modelo de IA toma decisões com base em dados de treinamento e novas informações, como um comando. Imagine que uma companhia aérea deseja encontrar o melhor caminho para um B. Apesar das muitas opções, nem todas são viáveis. Ao eliminar rotas menos práticas, reduz drasticamente o tempo, o combustível e, finalmente, o dinheiro necessário para viajar. Isso é o que Atenção esparsa Faça: considere apenas os dados que você considera relevante para a tarefa, em vez de processar todo o conjunto de informações do modelo, como fazem as arquiteturas tradicionais.

“Basicamente, você cortou o que você acha que não é importante”, explicou ele Ekaterina Almasqueco-fundador e sócio-gerente do novo fundo de capital de risco de capital em branco.

O Atenção esparsa É vantajoso em termos de eficiência e escalabilidade, pois requer menos recursos. Mas há uma preocupação: isso pode reduzir a confiabilidade do modelo, precisamente porque não tem supervisão sobre como e por que certas informações são descartadas.

“A realidade é que esses modelos perdem muitas nuances”, disse Almasque, que foi um dos primeiros apoiadores de Dataiku e Darktrace, além de investidor em Graphcore. “A questão é: eles têm o mecanismo certo para excluir dados realmente irrelevantes ou estão deixando de fora informações importantes, o que torna o resultado muito menos relevante?”

Essa limitação pode ser especialmente problemática em segurança e inclusão na IA. O investidor apontou que pode não ser “o modelo mais apropriado ou mais seguro” em comparação com os concorrentes ou arquiteturas tradicionais.

Deepseek, no entanto, afirma que o modelo experimental tem um desempenho equivalente ao do terminal V3.1. Apesar das especulações sobre uma possível bolha no setor, a IA segue no centro da disputa geopolítica entre a China e os Estados Unidos. Yakefu enfatizou que os modelos Deepsek funcionam “prontos para uso” com chips de IA chineses, como Ascend e Cambricon, e podem ser executados localmente em hardware doméstico sem configuração adicional.

A empresa também disponibilizou o código -fonte e as ferramentas necessárias para usar o modelo experimental.

“Isso significa que outras pessoas podem aprender com isso e criar suas próprias melhorias”, disse Yakefu.

Para as almas, no entanto, essa abertura pode comprometer a defensabilidade da tecnologia.

“A abordagem não é totalmente nova”, observou ele, lembrando que a indústria fala de Modelos de Spaste Desde 2015. Além disso, por ser de código aberto, a Deepseek não pode patentear sua tecnologia. Sua vantagem competitiva, portanto, estaria em como definir quais informações incluir.

No posto de Hugging Face, a empresa reconheceu que o V3.2-EXP é “um passo intermediário em direção à nossa arquitetura da próxima geração”.

Como a paciência apontou: “Esta é a proposta de valor da Deepseek: a eficiência está se tornando tão importante quanto o poder bruto”.

“Deepseek está pensando no longo prazo, mantendo a comunidade envolvida em seu progresso”, acrescentou Yakefu. “As pessoas sempre preferem o que é barato, confiável e eficaz”.

Onde assistir o maior canal de negócios do mundo no Brasil:

Canal 562 CLAROTV+ | Canal 562 céu | Canal 592 Vivo | Canal 187 Oi | Operadores regionais

Sinal aberto da TV: canal parabólico 562

Online: www.timesbrasil.com.br | YouTube

Canais rápidos: Samsung TV Plus, Canais LG, Canais TCL, Plutão TV, Roku, Soul TV, Zapping | Novos streamings

A seguir, Times Brasil – CNBC licenciado exclusivo em

Este conteúdo foi fornecido por CNBC International e a responsabilidade exclusiva pela tradução portuguesa é do Times Brasil.

Fonte

Os prós e contras de Atenção esparsa

Tópicos

Veja mais tópicos

Categorias

Veja também

DeepSeek da China lança modelo de IA de nova geração

Os prós e contras de Atenção esparsa

CEO do Walmart: ‘A inteligência artificial vai mudar literalmente todos os empregos’; veja as habilidades e o perfil que vão destacar os profissionais – Times Brasil

Paralisação nos EUA: o que está em jogo para a economia global e para o Brasil – Times Brasil

You may also like

Tópicos

Veja mais tópicos

Categorias

Veja também