É impossível ignorar o impacto que modelos de linguagem como o ChatGPT tiveram em nosso mundo. Essa tecnologia se tornou onipresente, alterando a forma como trabalhamos, criamos e nos comunicamos. No entanto, enquanto a atenção do público permanece focada nesses chatbots, os pioneiros da inteligência artificial e as gigantes da tecnologia já estão focados na próxima grande revolução, em resposta direta às limitações inerentes dos LLMs: os “modelos de mundo” (world models).
Essa nova fronteira da IA visa resolver uma das maiores fraquezas dos sistemas atuais. Este artigo revelará os aspectos mais surpreendentes e contraintuitivos dessa nova abordagem, que busca dar às máquinas uma “inteligência de rua” prática, em vez de apenas uma “inteligência de livros” teórica.
Por que um Atari de 1979 Vence os Melhores Chatbots no Xadrez
A afirmação parece absurda, mas é verdade: um console Atari 2600, rodando um programa de 1979, pode derrotar os chatbots de IA mais avançados em uma partida de xadrez. Essa revelação expõe uma falha fundamental dos modelos de linguagem atuais. Segundo Gary Marcus, um crítico frequente das abordagens atuais de IA, os chatbots baseados na arquitetura transformer são modelos probabilísticos. Eles aprendem correlações entre dados para fazer previsões, mas não executam raciocínio lógico.
É por isso que, ao jogar xadrez, eles frequentemente tentam fazer movimentos ilegais e perdem o controle das posições das peças no tabuleiro. O mais chocante é que isso acontece apesar de terem sido expostos, durante o treinamento, a incontáveis jogos e livros de regras. Simplesmente ingerir mais dados não resolve o problema.
O Atari, por outro lado, vence porque utiliza uma forma antiga e rudimentar de “modelo de mundo” interno: um simples banco de dados. Esse banco de dados mantém um estado persistente e preciso do mundo (o tabuleiro de xadrez), garantindo que o jogo siga as regras. Essa fraqueza fundamental dos LLMs a falta de uma compreensão fundamentada da realidade é precisamente o motivo pelo qual a vanguarda da IA está mudando o foco. A solução exige uma transição da pura inteligência textual para uma compreensão do mundo real.
Da “Inteligência de Livros” à “Inteligência de Rua”
A IA de hoje é “book smart” (inteligente em livros). Tudo o que ela sabe foi aprendido a partir de textos, imagens e vídeos disponíveis na internet. A próxima geração precisa se tornar “street smart” (inteligente nas ruas). Na prática, isso significa que a IA precisa evoluir de apenas processar dados para aprender ativamente com seu ambiente. O objetivo é que ela possa representar o mundo de forma abstrata em sua “mente”, assim como humanos e animais fazem, compreendendo intuitivamente as leis da física, a dimensão do tempo e o raciocínio espacial.
Essa não é uma ideia teórica, mas uma corrida em toda a indústria. A Meta, por exemplo, está treinando seus modelos V-JEPA com vídeos brutos para replicar como as crianças aprendem passivamente, apenas observando o mundo ao seu redor. A chave é permitir que a IA aprenda por meio da experiência, e não apenas pela leitura. A melhor analogia para entender esse conceito é: “Pense nisso como aprender a dirigir jogando ‘Gran Turismo’ ou aprender a voar com o ‘Microsoft Flight Simulator'”.
LeCun tem sido um dos proponentes mais vocais da nova arquitetura, alertando que os LLMs nunca alcançarão a capacidade de raciocinar e planejar como os humanos. Yann LeCun, cientista-chefe de IA da Meta
Mas como se pode dar “inteligência de rua” a uma IA sem os riscos do mundo real? A solução está em criar “playgrounds” virtuais hiper-realistas para que elas possam aprender.
O Treinamento da Nova IA Acontece em “Videogames” Hiper-realistas
Para desenvolver essa “inteligência de rua”, os pesquisadores estão colocando as IAs em simulações do mundo para que possam experimentar, cometer erros e aprender de forma segura. Esse processo é conhecido como “aprendizagem por reforço” (reinforcement learning) — um método onde a IA aprende por tentativa e erro, recebendo “recompensas” por ações bem-sucedidas dentro da simulação.
Dois exemplos notáveis já estão em desenvolvimento:
- O projeto Genie do Google DeepMind: Este sistema pode gerar paisagens virtuais fotorrealistas e interativas a partir de um simples comando de texto. Na prática, ele cria um “videogame” de mundo aberto sob demanda, projetado para treinar os futuros robôs motoristas, veículos autônomos e outras IAs “incorporadas” (embodied AIs).
- Waabi World: Construído pela empresa Waabi, este é um mundo virtual projetado especificamente para treinar IAs a dirigir caminhões. Nele, a IA pode acumular milhões de quilômetros virtuais e “bater” repetidamente de forma segura e barata, algo impossível de se fazer no mundo real.
“Ao construir ambientes que se parecem ou se comportam como o mundo real, podemos ter maneiras muito mais escaláveis de treinar a IA sem as implicações reais de cometer um erro no mundo real.” Shlomi Fruchter, colíder do projeto Genie no Google DeepMind
A consequência inevitável de uma IA que aprende a operar em ambientes físicos simulados é a sua aplicação no mundo físico real, mirando em setores que antes pareciam imunes à automação.
A Próxima Geração de IA e a Segurança Pública: De Robôs a Câmeras de Vigilância Inteligentes

A revolução da IA Física não se limita a encanadores ou motoristas. A capacidade de um sistema de IA de entender as leis da física e operar em ambientes do mundo real o torna ideal para a área de segurança pública. Enquanto a tecnologia atual de vigilância e policiamento se baseia em reconhecimento facial e análise de dados, a próxima fronteira usará a “inteligência de rua” para prever e responder a situações de risco em tempo real.
Essa evolução pode se manifestar de duas maneiras principais:
- Robôs de Patrulha e Resposta a Emergências: Imagine um robô policial patrulhando áreas de alto risco de forma autônoma. Diferente de um drone que apenas filma, este robô seria treinado em simulações hiper-realistas para aprender a navegar por multidões, evitar obstáculos, identificar comportamentos suspeitos e até mesmo responder a ameaças. Ele poderia chegar ao local de um assalto ou acidente antes dos humanos, isolar a área ou prestar os primeiros socorros, tudo com uma compreensão intuitiva do espaço e das leis físicas.
- Sistemas de Vigilância Preditiva com Senso de Realidade: A vigilância por câmera já existe, mas a IA futura irá além. Em vez de apenas identificar rostos, um sistema de vigilância com “modelo de mundo” seria capaz de entender a dinâmica de uma situação. Ele poderia perceber um padrão de movimento que leva a um conflito, reconhecer a intenção de uma pessoa ao pegar um objeto específico, ou até mesmo alertar sobre uma estrutura que está em colapso. Essa IA não apenas processa o que vê, mas entende o porquê e o o quê está prestes a acontecer, permitindo uma resposta proativa para prevenir crimes ou acidentes.
Assim como os sistemas de caminhões autônomos são treinados em ambientes virtuais para evitar acidentes, uma IA de segurança pode aprender a lidar com cenários complexos de risco sem colocar vidas em perigo. A “inteligência de rua” da próxima geração permitirá que a IA não apenas observe, mas compreenda e aja em cenários críticos, potencialmente transformando a forma como a sociedade é protegida.
O Próximo Alvo da IA Não São os Escritórios, Mas os Trabalhos Manuais
Enquanto a discussão pública se concentra nos LLMs assumindo funções de “colarinho branco”, a revolução dos modelos de mundo mira em uma direção diferente: a “IA Física”, termo cunhado por Jensen Huang, CEO da NVIDIA. Os trabalhos que podem ser mais impactados por essa nova onda de IA são aqueles que operam no mundo físico e que, até recentemente, eram considerados relativamente seguros da automação. Isso inclui motoristas de caminhão, encanadores, cuidadores e operadores de robôs industriais.
O potencial de mercado é colossal. Rev Lebaredian, vice-presidente de Omniverse e tecnologia de simulação da Nvidia, estima uma oportunidade de “$100 trilhões” ao levar a inteligência artificial para domínios físicos como manufatura e saúde.
A ironia é que, enquanto a sociedade se prepara para o impacto da IA no trabalho de conhecimento, uma revolução ainda maior pode estar se formando silenciosamente no mundo do trabalho físico.
A IA Está Aprendendo a Agir, Não Apenas a Falar
A mudança fundamental já está em andamento. A inteligência artificial está evoluindo de uma tecnologia que entende a linguagem para uma que compreende e opera no mundo físico. Embora especialistas como Yann LeCun sugiram que pode levar uma década para alcançarmos uma inteligência de nível humano, a direção é clara e as implicações são vastas.
Enquanto nos preocupamos com IAs que escrevem e-mails, a verdadeira revolução pode ser uma IA que conserta seu encanamento. Estamos prontos para um mundo onde a inteligência artificial não apenas pensa, mas também age?