Modelos OpenAI o3 o4 raciocinam com imagens

04/17/2025
9:50 pm

Avanços nos modelos OpenAI o3 o4

OpenAI acaba de lançar dois novos modelos: o o3 e o o4-mini. Esses modelos OpenAI o3 o4 marcam um salto evolutivo na inteligência artificial. Atualmente, eles demonstram capacidade inédita de raciocínio com imagens e utilização autônoma de ferramentas. Além disso, funcionam como verdadeiros agentes, capazes de realizar tarefas complexas com mínima intervenção humana.

Integração visual: pensamento com imagens

Uma das maiores inovações dos modelos OpenAI o3 o4 é o uso de imagens no processo de pensamento. Anteriormente, os modelos apenas “viam” imagens. Agora, eles “pensam” com base nelas. Conforme demonstrado pela OpenAI, o modelo pode girar, ampliar ou recortar uma imagem a fim de interpretar textos ou padrões visuais.

Por exemplo, ao receber uma foto com escrita de cabeça para baixo, o modelo identifica, rotaciona a imagem e transcreve o conteúdo com precisão. Dessa maneira, os modelos demonstram raciocínio visual semelhante ao humano, o que os diferencia de seus antecessores.

Raciocínio com ferramentas do ChatGPT

Os modelos OpenAI o3 o4 são capazes de combinar todas as ferramentas disponíveis no ChatGPT de forma autônoma. Com efeito, eles utilizam recursos como busca na web, análise de dados via Python, geração de imagens e interpretação de arquivos. Assim sendo, conseguem resolver tarefas em menos de um minuto, utilizando múltiplas fontes de dados simultaneamente.

Como resultado, os modelos atingem níveis de eficiência inéditos. Em um exemplo citado pela OpenAI, o modelo recebeu um prompt sobre consumo de energia. Em seguida, acessou a web, gerou gráficos em Python e apresentou uma análise detalhada com explicações visuais.

Desempenho em benchmarks de IA

De acordo com a OpenAI, os modelos OpenAI o3 o4 superaram todos os anteriores em desempenho técnico. O modelo o3, por exemplo, obteve resultados de ponta em benchmarks como Codeforces, SWE-bench e MMMU. Decerto, ele se destacou em áreas como programação, ciência e percepção visual.

O o4-mini, por sua vez, alcançou 99,5% de precisão no AIME 2025, com acesso ao Python. Isso o aproxima do limite máximo teórico do benchmark. Assim também, o o4-mini mostrou grande desempenho em tarefas de codificação, matemática e até mesmo em áreas não técnicas, como ciência de dados e raciocínio analítico.

Eficiência e custo-benefício

Apesar de ser um modelo menor, o o4-mini demonstrou alta eficiência com custo reduzido. Conforme comparações realizadas pela OpenAI, ele supera modelos anteriores em tarefas visuais e de linguagem, mesmo tendo menos parâmetros. Isso o torna ideal para aplicações que exigem rapidez e economia.

Analogamente, o modelo o3 apresenta menor taxa de erros graves em tarefas reais do que o o1. Além disso, testers destacaram a capacidade analítica e a habilidade de gerar hipóteses complexas. Isso evidencia um salto em qualidade e precisão nos resultados entregues.

Codex CLI e novos recursos

Com a chegada dos modelos OpenAI o3 o4, a OpenAI também lançou o Codex CLI. Trata-se de um agente leve de codificação para terminal, capaz de operar localmente com suporte multimodal. Ou seja, permite interação via sketches, capturas de tela e código, tudo diretamente do prompt de comando.

Esse recurso está disponível como projeto open-source no GitHub. Além disso, a OpenAI lançou uma iniciativa de financiamento com US$ 1 milhão em créditos de API. A finalidade é apoiar desenvolvedores que criem projetos com base nesses novos modelos.

Disponibilidade para usuários

Atualmente, os modelos OpenAI o3 o4 estão acessíveis para usuários dos planos ChatGPT Plus, Pro e Team. Além disso, estarão disponíveis em breve para contas Enterprise e Educacionais. Usuários do plano gratuito já podem experimentar o o4-mini na aba “Think”.

Desenvolvedores também têm acesso via API de Chat Completions e a nova API de Respostas. Uma versão ainda mais avançada, o o3-pro, será lançada nas próximas semanas, com suporte completo a ferramentas.

Limitações e desafios

Apesar dos avanços, os modelos OpenAI o3 o4 ainda apresentam limitações. O o4-mini, por exemplo, teve desempenho inferior ao o1 e o3 em testes de conhecimento factual sobre personalidades. Conforme explicado pela OpenAI, modelos menores têm menos conhecimento de mundo e tendem a alucinar mais.

Adicionalmente, o modelo o3 tende a fazer mais afirmações em geral, corretas ou incorretas. Isso decorre de seu maior poder de raciocínio, que o leva a gerar hipóteses mesmo com informações incertas. A OpenAI continuará estudando como melhorar esses aspectos nos próximos lançamentos.

Futuro: GPT-5 e raciocínio avançado

A OpenAI planeja unir o raciocínio avançado dos modelos OpenAI o3 o4 com as capacidades de conversa e uso de ferramentas do GPT. Com isso, pretende criar uma nova geração de modelos mais naturais, eficientes e inteligentes. O lançamento do GPT-5 está previsto para o verão de 2025, segundo informações da empresa.

Certamente, a convergência entre raciocínio visual, uso de ferramentas e linguagem natural abrirá novos horizontes para aplicações corporativas, educacionais e criativas.

Conclusão

Os modelos OpenAI o3 o4 representam uma nova era na inteligência artificial. Com raciocínio visual, uso autônomo de ferramentas e desempenho superior em benchmarks, eles estabelecem um novo padrão de excelência. Por isso, organizações de todos os setores devem considerar essas soluções para tarefas complexas, automação e inovação.

🚀 Quer implementar IA na sua empresa?

A C4 Lab é especialista em soluções de Inteligência Artificial Personalizadas para empresas brasileiras. Atuamos com treinamentos corporativos, desenvolvimento de agentes de IA e projetos sob demanda.
👉 Entre em contato com um de nossos especialistas e descubra como a IA pode transformar o seu negócio.

Fonte: The-Decoder