Primeiros passos com modelos de linguagem

Meu objetivo com esta série de textos é oferecer a minha visão sobre o uso de modelos de linguagem, da forma mais acessível possível, seja através de recursos gratuitos e implementações locais, seja por uma linguagem mais fácil de entender, evitando, sempre que possível, os termos altamente técnicos.

Começando a Experimentar

Em teoria, tudo o que vou explicar aqui deve funcionar em qualquer sistema operacional. Algumas coisas são mais simples, outras mais complicadas, mas a complexidade surge com o tempo. Portanto, para descobrir se você conseguirá usar a ferramenta, a melhor abordagem é testar e colocar a mão na massa.

Ferramentas de Inferência

Para começar, você precisa de um programa capaz de fazer inferência. As opções mais avançadas são llama-cpp e vllm, ambas ferramentas que operam em linha de comando. Além disso, temos opções mais acessíveis para o usuário, como o LM Studio (disponível para Windows, Linux e Mac), Ollama (para Linux e Mac), Local-AI (Linux e Mac) e oMLX (para Mac). Se você está iniciando, eu sugiro fortemente começar pelo LM Studio, pois ele oferece um excelente primeiro contato.

Escolhendo o Modelo

Agora que você já tem a aplicação, o próximo passo é escolher um modelo de linguagem. É aqui que a coisa começa a ficar um pouco mais complexa. Devido à grande variedade de modelos disponíveis, originados de diversas fontes, você terá muitas opções. Vou apresentar algumas das minhas experiências iniciais:

Llama: O modelo da Meta (empresa mãe do Facebook e WhatsApp). A versão llama3.1:8B foi minha porta de entrada. Ela rodava com uma velocidade razoável, considerando que meu notebook tinha apenas 4GB de memória de vídeo (VRAM). Eu o utilizei principalmente para resumo de textos, formulação de ideias e alguma assistência em código, substituindo o uso do Google/Stack Overflow.
Deepseek: Este modelo ganhou destaque quando atingiu a grande mídia, e a NVIDIA perdeu 17% do valor de mercado (algo em torno de US$ 589bi) em um único dia. Os modelos chineses seguem uma estratégia diferente dos modelos americanos, sendo open source desde o início. Testei pouco o modelo R1:7B, mas ele rodou de forma aceitável no meu notebook.
Gemma 4: O segundo melhor modelo que utilizei, a versão e2b, roda bem no meu notebook e eu o utilizo para o processamento de textos.
Família Qwen (3, 3.5, 3.6): Este foi o modelo que utilizei com mais sucesso, apresentando melhorias impressionantes a cada ciclo. Atualmente, meu modelo principal é um Qwen3.5-35B-A3B-oQ4e.

Entendendo a Arquitetura

Vamos voltar um pouco e explicar alguns conceitos de forma didática. A comunicação com o modelo ocorre através de tokens. O que é um token? É a menor unidade de dado do modelo. Depende do modelo, pode ser uma palavra, uma parte de uma palavra, ou um conjunto que inclui partes de duas palavras, incluindo pontuação. Tudo isso depende de como o modelo foi treinado, os dados que ele consumiu e as técnicas utilizadas.

O que você precisa entender é que você prepara um prompt, e o transformer converte esse prompt em uma série de tokens. Tudo isso é processado, e o modelo devolve uma série de tokens que é convertida novamente em um texto com sentido (às vezes, não muito).

Cada modelo é treinado e recebe ajustes para buscar maior precisão. Por exemplo, o modelo llama3.1:8B possui 8 bilhões de parâmetros. Geralmente, quanto mais parâmetros, mais preciso e eficiente o modelo se torna. Por isso, nos parágrafos anteriores, reforcei que alguns modelos são pequenos demais para realizar tarefas muito complexas com precisão.

A Necessidade de Contexto

Você pode se perguntar: se posso usar um modelo como o ChatGPT gratuitamente, por que me preocupar com a complexidade? Se você planeja trabalhar com automações e orquestração de agentes, o chat puro não é suficiente. Você precisa começar a consumir o serviço via API.

Existem soluções gratuitas e quando você começa a trabalhar com recursos mais limitados, como sua própria máquina, você aprende melhor a organizar seus pensamentos antes de solicitar as coisas ao modelo. Você começa a perceber abordagens que trazem resultados melhores ou piores. Além disso, ter um ambiente controlado permite que você aprenda a lidar com erros, consumo de cota, APIs indisponíveis e as formas de criar camadas adicionais para garantir o funcionamento do seu produto ou serviço. Não se engane, as redes sociais mostram relatos de falhas e limites nos serviços pagos, então é bom se preparar para problemas.

A Realidade dos Prompts

Infelizmente, o conto de fadas do prompt mágico e o funcionamento quase consciente são apenas uma fachada. A internet está cheia de cursos e especialistas prometendo resultados milagrosos, mas isso não se concretiza em um fim de semana. Não acontecerá sem muito esforço, falhas e erros.

O usuário constantemente questiona quantas vezes precisa pedir ao modelo para refazer algo, pois ele “mentiu” ou “fingiu”. O objetivo do modelo é atingir o objetivo estabelecido, e para isso ele faz cálculos e interpretações. O resultado é um conjunto de possibilidades, pois instruções contraditórias podem acontecer.

Lições da Experiência

Minha experiência, após dois anos, me ensinou que a precisão é fundamental. Quando pedi para o modelo resolver um bug, ele levou muito tempo processando, analisando, até esgotar a janela de contexto. Em uma tentativa posterior, ao pedir um planejamento das etapas de debug, o modelo foi mais eficiente. Isso aconteceu porque ele precisou analisar o contexto de forma mais focada.

Essa experiência mostra que a forma como realizamos os testes precisa ser muito mais rigorosa, especialmente ao lidar com entradas dos usuários. Não adianta apenas empilhar regras nos prompts, pois quanto maior o contexto, maior a chance de alucinação. O segredo é fazer processamentos pequenos e focados, reduzindo as tarefas à menor unidade possível. Isso requer prática e tempo.

Próximos Passos

Escolha o software, decida o modelo e comece a conversar com ele. Explore suas ideias, peça insights e veja como ele interage com você. Trabalhe resumos, peça para redigir e revise tudo. Observe onde ele exagerou e melhore você mesmo. Faça novas rodadas, mude os parâmetros de temperatura, top_k e top_p.

Se você precisa de ajuda pergunte ao próprio modelo. Comece a errar cedo para tirar bons resultados. Os modelos têm muito a oferecer.

Se você alcançou bons resultados com um modelo pequeno, é hora de se envolver com agentes. Eles são ferramentas poderosas para automação, mas exigem aprendizado. Eu sugiro que você domine a forma como interagir com o modelo para criar instruções claras e eficazes.

Minha experiência pessoal me levou a concluir que a família Qwen se mostrou a mais adaptável para mim. No entanto, o Gemma 4 também é muito capaz.

O Ambiente Ideal

Após testar modelos menores, eu decidi investir mais na área. Adquiri um Mac M1 Studio com 32GB de RAM. Comparado ao PC/Intel/AMD ele consome menos energia e aproveita muito bem a arquitetura MLX da Apple. Eu uso o oMLX como software de inferência, utilizando um modelo Qwen3.5-35B-A3B-oQ4e com quantização de 2 bits TurboQuant para cache, reservando 30GB de RAM para inferência.

Quero que você explore essas tecnologias e compartilhe suas experiências, alegrias e frustrações.
Conta aqui nos comentários onde você está utilizando IA no seu dia a dia.

Até a próxima!