1) DeepSeek-R1 por ele mesmo
Depois de impactar o cenário econômico e tecnológico mundial esta segunda-feira, 27/1/25, levando, por exemplo, as ações da então mais valiosa empresa do mundo, a Nvidia, a despencarem 18%, fechando em um recuo de 17% – valor de mercado equivalente a sete vezes o valor da Petrobras -, nada mais justo do que repetir a fórmula já realizada neste Migalhas de IA e Proteção de Dados1 e perguntar à estrela da semana sobre si mesma, isto é, entrevistar o DeepSeek, a Inteligência Artificial chinesa. Mãos à obra!
P: Estou atuando como entrevistador do diário jurídico Migalhas. Posso entrevistá-lo?
DeepSeek: Claro! Ficarei feliz em responder às suas perguntas. Como posso ajudar com a entrevista para o Diário Jurídico Migalhas?
P: Você pode me dizer o que é o DeepSeek?
DeepSeek: O DeepSeek é uma empresa chinesa focada em pesquisa e desenvolvimento de IA – Inteligência Artificial. A empresa está envolvida na criação de tecnologias avançadas de IA, incluindo modelos de linguagem e outras soluções baseadas em aprendizado de máquina. O objetivo do DeepSeek é impulsionar a inovação em IA, aplicando-a em diversos setores, como jurídico, financeiro, saúde e tecnologia, para melhorar a eficiência e a tomada de decisões.
2) Como foi o treinamento do DeepSeek LLM?
P: Explique sucintamente (5-7 linhas) se você tem acesso a dados em tempo real?
DS: Não, não tenho acesso a dados em tempo real. Meu conhecimento é baseado em informações disponíveis até outubro de 2023, e não posso buscar ou atualizar dados após essa data. Isso significa que não consigo fornecer notícias, resultados esportivos, previsões do tempo ou qualquer informação dinâmica atual. Para dados em tempo real, é necessário consultar fontes externas, como sites de notícias ou APIs especializadas.
O treinamento do DeepSeek LLM foi projetado para maximizar a eficiência computacional, adotando uma tokenização otimizada que reduz o número de tokens necessários para processar textos. Com um vocabulário expandido de 100 mil tokens, o modelo representa frases de forma mais compacta, otimizando memória e desempenho. Além disso, sua tokenização foi ajustada para lidar com inglês e chinês, garantindo precisão na segmentação de ideogramas e caracteres especiais. Essa abordagem melhora a compressão de tokens, reduzindo a carga computacional sem comprometer a qualidade das respostas.
Além da tokenização eficiente, a DeepSeek emprega a arquitetura MoE – Mixture of Experts, que ativa apenas 37 bilhões dos 671 bilhões de parâmetros do modelo em cada inferência. Diferente de modelos densos, que utilizam todos os seus parâmetros simultaneamente, essa estrutura permite reduzir o consumo de memória e acelerar o processamento. A ativação seletiva dos especialistas torna o modelo mais escalável e eficiente, equilibrando alto desempenho com menor custo computacional. Dessa forma, a DeepSeek demonstra que a otimização de algoritmos e infraestrutura pode ser tão eficaz quanto o aumento da capacidade computacional bruta.
3) Comparações entre DeepSeek e ChatGPT
P: Você pode explicar, sucintamente (5-7 linhas), qual a diferença entre você e o chatGPT?
DS: A principal diferença entre mim (DeepSeek-V3) e o ChatGPT está no desenvolvimento e foco. O ChatGPT, criado pela OpenAI, é um modelo de linguagem de uso geral, amplamente aplicável em diversas áreas. Eu, por outro lado, sou desenvolvido pela DeepSeek, com um foco mais especializado em setores como jurídico, financeiro e tecnológico. Ambos usamos arquiteturas semelhantes, mas meu treinamento pode incluir dados mais específicos para nichos, enquanto o ChatGPT é mais versátil e generalista.
O desenvolvimento do DeepSeek R-1 e do ChatGPT reflete abordagens distintas para a construção de modelos de IA em larga escala. A OpenAI, com o suporte da Microsoft Azure, investiu em uma infraestrutura massiva, utilizando entre 10 mil a 30 mil GPUs Nvidia H100, além de um orçamento de mais de US$ 100 milhões para o treinamento do GPT-4. Essa abordagem prioriza a escalabilidade bruta, onde o uso de um número significativamente maior de parâmetros e hardware de ponta permite alcançar altíssima performance, mas com um custo operacional extremamente elevado.
Em contrapartida, a DeepSeek adotou uma estratégia mais eficiente, utilizando “apenas” 2.048 GPUs Nvidia H800 e reduzindo seu custo de treinamento para cerca de US$ 5,5 milhões, de acordo com artigo publicado pela DeepSeek2, para seu modelo V-2, já o modelo R-1, mais poderoso, não teve os gastos divulgados pela empresa. Embora as H800 sejam versões ajustadas para exportação da H100, a equipe da DeepSeek conseguiu compensar essa diferença ao otimizar algoritmos, arquiteturas e estratégias de treinamento, reduzindo a necessidade de recursos computacionais excessivos.
De acordo com outro artigo publicado pela DeepSeek3, o modelo DeepSeek 67B Chat demonstrou desempenho superior ao GPT-3.5 em tarefas de raciocínio lógico, matemática e programação. Em benchmarks como GSM8K e MATH, obteve melhores resultados na resolução de problemas matemáticos. No teste HumanEval e MBPP, voltado à codificação, também superou o GPT-3.5, embora ainda fique atrás do GPT-4 em desempenho. Além disso, em avaliações como MMLU e ARC, que medem conhecimento multitarefa, o DeepSeek mostrou-se competitivo, aproximando-se da OpenAI. Esse avanço foi alcançado por meio de fine-tuning supervisionado e otimização computacional, permitindo alto desempenho com menos recursos.
Ainda segundo o paper, o DeepSeek 67B Chat destacou-se em compreensão de linguagem, especialmente em chinês, superando modelos proprietários como ChatGLM e Baichuan. No AlignBench, foi o melhor modelo open-source para o idioma, ficando atrás apenas do GPT-4. Já no MT-Bench, que avalia conversação em inglês, seu desempenho foi semelhante ao GPT-3.5, em alguns casos bastante superior, mas inferior ao GPT-4.
Já sobre a questão do código aberto, alguns aspectos são importantes. O DeepSeek-R1 está disponível para programação, entretanto, ele necessita de uma infraestrutura de hardware muito alta apenas para carregá-lo. Um exemplo: A maioria das GPUs domésticas não têm nem perto de 671 GB de VRAM, necessários para carregar o DeepSeek-R1. Por exemplo, uma Nvidia RTX 4090 tem apenas 24 GB, enquanto até as mais avançadas GPUs de IA, como a Nvidia H100, possuem 80 GB por unidade.
Mesmo em clusters de GPUs, você precisaria conectar pelo menos 10 Nvidia H100 para atingir os 671 GB necessários. Modelos desse porte são geralmente executados em data centers especializados, onde dezenas ou centenas de GPUs são interligadas para fornecer a memória necessária.
Contudo, a DeepSeek também disponibilizou os códigos de sua IA destilada. O R1 passou por um processo chamado de Knowledge Distillation e esse processo envolve treinar um modelo menor e mais eficiente para imitar o desempenho de um modelo maior e mais poderoso, mantendo o máximo possível de sua precisão e capacidade. Em outras palavras, haverá uma IA mais poderosa ensinando e a IA destilada, mas ela nunca vai ser tão poderosa como aquela em que está espelhada. Entretanto, já é um grande avanço e pode gerar desenvolvimento de inúmeros sistemas e ferramentas interessantes que não haveria possibilidade sem a destilação.
A criação dessas ferramentas posteriormente é que necessitam de atenção e governança, pois elas realmente podem gerar produtos que criam DeepFakes, e desinformação – há desperdício de investimento caso isso aconteça, sem dúvida, mas uma legislação adequada, o que ainda não temos, já buscaria enfrentar da melhor maneira possível os eventuais usos maléficos da tecnologia que seria criada posteriormente ao treinamento da IA destilada.
4) Suposições para a queda das ações de big techs
A queda do valor das ações das big techs somada em valores brutos atingiu a incrível marca de US$ 643 bilhões ao fim do pregão da bolsa de valores norte-americana no dia 27/1/254.
Diante de um valor tão vultoso, diversas suposições surgiram, desde algumas que beiram a conspiração, como a que julga ter sido uma jogada dos próprios mega investidores da então empresa mais valiosa do mundo, Nvidia, frente a uma supervalorização de seus ativos e que uma aposta conjunta em sua desvalorização pontual em meio ao frenesi serviria como mitigação de riscos às suas exposições, até os que realmente apontam a surpresa de todo o Vale do Silício com a IA chinesa.
Fato é que o presidente americano, Donald Trump, falou nesta segunda-feira e acusou o golpe5. Ao apresentar o surgimento da DeepSeek como um alerta para a indústria americana de IA, com sua estrutura trilionária, legitimou-o como um concorrente de fato, rechaçando tacitamente os rumores de que os avanços anunciados esconderam a utilização de superchips contrabandeados ou que partissem de números maquiados.
No centro desta discussão está a política protecionista americana que proibiu a exportação de chips ultra tecnológicos à China6 e fez com que o país oriental tivesse de explorar meandros algorítmicos para, digamos grosseiramente, depender menos dos hardwares e mais dos softwares em seus desenvolvimentos de IA.
Não obstante, o temperamento agudo dos mercados acionistas não parece ser exclusividade brasileira. A despeito do baque registrado no dia 27/1/25, já no dia 28/1/25, as ações da Nvidia registraram recuperação de mais de 8% e o Index que acompanha os números das chamadas “7 Magníficas” registra valor positivo nos últimos cinco dias.
Até porque, vale dizer, a despeito do ganho considerável de produtividade demonstrado pela IA chinesa, não se trata de uma substituição de um produto americano por outro, isto é, não é como se o ChatGPT tivesse perdido seu emprego para outra IA, como disseram alguns memes, mas como se um caminho para um ganho inenarrável de processamento com a utilização das otimizações lançadas em conjunto com os chips mais potentes disponíveis tivesse sido descoberto – uma nova rota da seda para a IA, que pode gerar ganhos em qualquer lugar do planeta (o que parece desesperar temporariamente os investidores de Wall Street), de maneira consideravelmente mais eficiente, seja de uma perspectiva econômica, seja de uma perspectiva ambiental, inclusive.
5) O Brasil poderia criar uma IA com GPU’s de segunda geração como fez a China?
Esta é uma questão complexa que exige uma análise mais ampla. O lançamento do DeepSeek-R1 demonstra que a China consolidou um modelo eficiente de desenvolvimento tecnológico. Esse avanço não é um caso isolado, mas sim resultado de um ecossistema estruturado que integra investimentos estratégicos em pesquisa, infraestrutura computacional e incentivos estatais. Há, por exemplo, estudos que buscam correlacionar o crescimento econômico chinês com seus investimentos em educação7 e ciência.
Em 2022, o país investiu mais de US$ 840 bilhões em educação8, cobrindo todos os níveis de ensino, e cerca de US$ 47 bilhões em pesquisa tecnológica e computacional9. Esse suporte robusto possibilitou a criação da DeepSeek, uma empresa privada que, com apoio de fundos de investimento e incentivos governamentais, desenvolveu uma IA de ponta utilizando GPUs Nvidia H800, que são versões otimizadas para mercados fora dos EUA.
Se o Brasil desejasse replicar esse feito, os custos seriam um desafio significativo. O preço médio de cada Nvidia H800 varia entre US$ 17.500 e US$ 20.000. Considerando 2.048 unidades, ao valor mais baixo e com o câmbio de R$ 5,84, em 28/1/25, o custo seria de aproximadamente R$ 209 milhões, sem incluir o imposto de importação de 60%, o que elevaria o total para mais de R$ 300 milhões.
Dificilmente uma empresa nacional arcaria com esse investimento sem apoio estatal ou parcerias estratégicas. No entanto, alternativas poderiam ser exploradas. Parcerias público-privadas, fundos nacionais para pesquisa em IA, ou o desenvolvimento de modelos otimizados (que demandem menos recursos computacionais) seriam caminhos viáveis. O Brasil já possui capacidade intelectual, como demonstram iniciativas como o C4AI/USP e o Observatório Brasileiro de IA, mas para alcançar a autonomia tecnológica, seria essencial direcionar investimentos para projetos estratégicos, além de estabelecer uma governança regulatória que equilibre inovação e desenvolvimento sustentável, como demonstrado pela DeepSeek.
1 Disponível aqui.
2 Página 13. Disponível aqui.
3 Disponível aqui.
4 Disponível aqui.
5 Disponível aqui.
6 Disponível aqui.
7 COSTA, D. DE M.; ZHA, Q.. Chinese Higher Education: The role of the economy and Projects 211/985 for system expansion. Ensaio: Avaliação e Políticas Públicas em Educação, v. 28, 109, p. 885-908, out. 2020.
8 Disponível aqui.
9 Disponível aqui.
Fonte: Migalhas
Deixe um comentário