Se você quiser ver o que vem a seguir em IA, basta seguir os dados. ChatGPT e DALL-E treinados em tesouros de dados da Internet. A IA generativa está fazendo incursões em biotecnologia e robótica graças a conjuntos de dados existentes ou recém-montados. Uma maneira de olhar para o futuro, então, é perguntar: quais conjuntos de dados colossais ainda estão prontos para serem escolhidos?
Recentemente, uma nova pista surgiu.
Em uma postagem no blog, a empresa de jogos Niantic disse que está treinando uma nova IA em milhões de imagens do mundo real coletadas por jogadores de Pokémon Go e em seu aplicativo Scaniverse. Inspirados pelos grandes modelos de linguagem que alimentam os chatbots, eles chamam seu algoritmo de “grande modelo geoespacial” e esperam que seja tão fluente no mundo físico quanto o ChatGPT é no mundo da linguagem.
Acompanhe os dados
Esse momento da IA é definido por algoritmos que geram linguagem, imagens e, cada vez mais, vídeo. Com o DALL-E e o ChatGPT da OpenAI, qualquer pessoa pode usar a linguagem cotidiana para fazer com que um computador crie imagens fotorrealistas ou explique a física quântica. Agora, o algoritmo Sora da empresa está aplicando uma abordagem semelhante à geração de vídeo. Outros estão competindo com a OpenAI, incluindo Google, Meta e Anthropic.
O insight crucial que deu origem a esses modelos: a rápida digitalização das últimas décadas é útil para mais do que entreter e informar a nós, humanos, também é alimento para a IA. Poucos teriam visto a internet dessa maneira em seu advento, mas, em retrospectiva, a humanidade tem estado ocupada montando um enorme conjunto de dados educacionais de linguagem, imagens, código e vídeo. Para o bem ou para o mal – há vários processos de violação de direitos autorais em andamento – as empresas de IA coletaram todos esses dados para treinar modelos de IA poderosos.
Agora que sabem que a receita básica funciona bem, empresas e pesquisadores estão procurando mais ingredientes.
Em biotecnologia, os laboratórios estão treinando IA em coleções de estruturas moleculares construídas ao longo de décadas e usando-a para modelar e gerar proteínas, DNA, RNA e outras biomoléculas para acelerar a pesquisa e a descoberta de medicamentos. Outros estão testando grandes modelos de IA em carros autônomos e robôs humanóides e de armazém – tanto como uma maneira melhor de dizer aos robôs o que fazer, mas também para ensiná-los a navegar e se mover pelo mundo.
É claro que, para os robôs, a fluência no mundo físico é crucial. Assim como a linguagem é infinitamente complexa, também são as situações que um robô pode encontrar. Cérebros de robôs codificados à mão nunca podem explicar toda a variação. É por isso que os pesquisadores agora estão construindo grandes conjuntos de dados com robôs em mente. Mas eles não estão nem perto da escala da internet, onde bilhões de humanos trabalham em paralelo há muito tempo.
Pode haver uma internet para o mundo físico? A Niantic acha que sim. Chama-se Pokémon Go. Mas o jogo de sucesso é apenas um exemplo. As empresas de tecnologia criam mapas digitais do mundo há anos. Agora, parece provável que esses mapas encontrem seu caminho para a IA.
Treinadores Pokémon
Lançado em 2016, Pokémon Go foi uma sensação de realidade aumentada.
No jogo, os jogadores rastreiam personagens digitais – ou Pokémon – que foram colocados em todo o mundo. Usando seus telefones como uma espécie de portal, os jogadores veem personagens sobrepostos a um local físico – digamos, sentados em um banco de parque ou vagando por um cinema. Uma oferta mais recente, Pokémon Playground, permite que os usuários incorporem personagens em locais para outros jogadores. Tudo isso é possível graças aos mapas digitais detalhados da empresa.
O Sistema de Posicionamento Visual (VPS) da Niantic pode determinar a posição de um telefone até o centímetro a partir de uma única imagem de um local. Em parte, o VPS monta mapas 3D de locais classicamente, mas o sistema também depende de uma rede de algoritmos de aprendizado de máquina – um ou mais por local – treinados em anos de imagens de jogadores e varreduras feitas em vários ângulos, horas do dia e estações e carimbadas com uma posição no mundo.
“Como parte do Sistema de Posicionamento Visual (VPS) da Niantic, treinamos mais de 50 milhões de redes neurais, com mais de 150 trilhões de parâmetros, permitindo a operação em mais de um milhão de locais”, escreveu a empresa em seu recente post no blog.
Agora, a Niantic quer ir mais longe.
Em vez de milhões de redes neurais individuais, eles querem usar os dados do Pokémon Go e do Scaniverse para treinar um único modelo de base. Enquanto os modelos individuais são limitados pelas imagens que foram alimentados, o novo modelo generalizaria em todos eles. Confrontado com a frente de uma igreja, por exemplo, ele se basearia em todas as igrejas e ângulos que é visto – frente, lado, trás – para visualizar partes da igreja que não foram mostradas.
Isso é um pouco parecido com o que nós, humanos, fazemos enquanto navegamos pelo mundo. Podemos não ser capazes de ver ao virar da esquina, mas podemos adivinhar o que está lá – pode ser um corredor, a lateral de um prédio ou uma sala – e planejar isso, com base em nosso ponto de vista e experiência.
A Niantic escreve que um grande modelo geoespacial permitiria melhorar as experiências de realidade aumentada. Mas também acredita que esse modelo pode alimentar outras aplicações, inclusive em robótica e sistemas autônomos.
Ficando físico
A Niantic acredita que está em uma posição única porque tem uma comunidade engajada contribuindo com um milhão de novas varreduras por semana. Além disso, essas varreduras são da visão dos pedestres, em oposição à rua, como no Google Maps ou para carros autônomos. Eles não estão errados.
Se tomarmos a internet como exemplo, os novos conjuntos de dados mais poderosos podem ser coletados por milhões, ou mesmo bilhões, de humanos trabalhando em conjunto.
Ao mesmo tempo, Pokémon Go não é abrangente. Embora os locais abranjam continentes, eles são esparsos em qualquer lugar e regiões inteiras são completamente escuras. Além disso, outras empresas, talvez mais notavelmente, o Google, há muito mapeiam o globo. Mas, ao contrário da internet, esses conjuntos de dados são proprietários e fragmentados.
Se isso importa – ou seja, se um conjunto de dados do tamanho da Internet é necessário para criar uma IA generalizada que seja tão fluente no mundo físico quanto os LLMs são no verbal – não está claro.
Mas é possível que um conjunto de dados mais completo do mundo físico surja de algo como Pokémon Go, apenas superdimensionado. Isso já começou com os smartphones, que possuem sensores para tirar imagens, vídeos e digitalizações 3D. Além dos aplicativos de RA, os usuários estão sendo cada vez mais incentivados a usar esses sensores com IA, como tirar uma foto de uma geladeira e perguntar a um chatbot o que cozinhar para o jantar. Novos dispositivos, como óculos AR, podem expandir esse tipo de uso, gerando uma bonança de dados para o mundo físico.
É claro que a coleta de dados online já é controversa e a privacidade é um grande problema. Estender esses problemas para o mundo real é menos do que ideal.
Depois que a 404 Media publicou um artigo sobre o assunto, a Niantic acrescentou uma nota: “Esse recurso de digitalização é totalmente opcional – as pessoas precisam visitar um local específico acessível ao público e clicar para digitalizar. Isso permite que a Niantic ofereça novos tipos de experiências de RA para as pessoas desfrutarem. Simplesmente andar por aí jogando nossos jogos não treina um modelo de IA.” Outras empresas, no entanto, podem não ser tão transparentes sobre a coleta e o uso de dados.
Também não é certo que novos algoritmos inspirados em grandes modelos de linguagem sejam diretos. O MIT, por exemplo, construiu recentemente uma nova arquitetura voltada especificamente para a robótica. “No domínio da linguagem, os dados são apenas frases”, disse Lirui Wang, principal autor de um artigo que descreve o trabalho, ao TechCrunch. “Na robótica, dada toda a heterogeneidade nos dados, se você quiser pré-treinar de maneira semelhante, precisamos de uma arquitetura diferente.”
Independentemente disso, pesquisadores e empresas provavelmente continuarão explorando áreas onde a IA semelhante ao LLM pode ser aplicável. E talvez, à medida que cada nova adição amadurece, seja um pouco como adicionar uma região do cérebro – junte-as e você terá máquinas que pensam, falam, escrevem e se movem pelo mundo com a mesma facilidade que nós.
Sem saber, usuários de Pokémon GO treinaram uma IA para andar pelas ruas
A empresa por trás do jogo, Niantic, anunciou que os escaneamentos de locais feitos por usuários serão utilizados para alimentar uma IA que será capaz de navegar espaços físicos
Você já jogou Pokémon Go? O jogo viralizou quando foi lançado em 2016, utilizando uma tecnologia que inovadora de navegação no mundo real. Os jogadores andam pela cidade para capturar novas criaturas… Continue sua Leitura em:
Segundo Super interessante: A curiosa relação entre Pokémon Go, o Google e a CIA
Pokémon Go já ultrapassou o Twitter e o Facebook: tem mais usuários que o primeiro, e mais engajamento (tempo de uso por pessoa, por dia) que o segundo. Um fenômeno sem precedentes na indústria de games, que fez as ações da Nintendo dispararem. Tudo graças à sua gameplay inovadora, que junta geolocalização com realidade aumentada. […]
Mas a Nintendo meio que só emprestou a marca e os personagens de Pokémon. O game foi desenvolvido por outra empresa: a Niantic. Ela existe desde 2010, e seu produto mais conhecido é o Ingress, um jogo baseado em geolocalização, muito parecido ao Pokémon Go, lançado em 2012. A Niantic nasceu como subsidiária do Google (desde 2015, é uma empresa independente, mas ainda tem o Google como grande acionista).
A Niantic é uma criação do americano John Hanke. Ele foi para o Google em 2004 – quando sua empresa, a então (e até hoje) quase desconhecida Keyhole, foi comprada pelo Google. Hanke havia inventado um software que juntava fotos de satélite – com a aquisição, esse programa foi transformado no Google Earth. E Hanke chegou a ser vice-presidente de mapas do Google.
A Keyhole, por sua vez, foi financiada pelo fundo In-Q-Tel – o braço de investimentos tecnológicos da CIA. A missão oficial do In-Q-Tel é “identificar, adaptar e implementar soluções tecnológicas para suportar as missões da CIA e da comunidade americana da inteligência”. Ele costuma investir em coisas que possam ser usadas para espionagem (como você pode ver na lista de 38 empresas que apoia atualmente). Não é difícil entender por que a Keyhole interessava à CIA: ela permitia olhar, como depois o Google Earth e o Maps passaram a permitir, qualquer ponto do globo.
BRUNO GARATTONI