Gen AI: entre o hype do Veo3 e o vale da desilusão
Badalação ou ressaca? Um primeiro exercício de criação com a incrível ferramenta de vídeo do Google, seguido de uma reflexão sobre a adoção da tecnologia no ambiente corporativo
Hello, humans! Como estamos? Comentei em uma news recente que tinha me rendido e assinado mais um serviço de inteligência artificial: o Gemini. Eu trabalho direto nos documentos do Google e acho que o pacote vai deixar diversos processos mais fluidos e ágeis, mas a verdade é que ainda não deu tempo. Por enquanto, seguimos na fase em que ele aparece do ladinho, perguntando se quero ajuda com isso ou aquilo. Nenhuma grande disrupção ou experiência a compartilhar até o momento. Para esta edição, então, resolvi explorar melhor o badalado modelo de geração de vídeo da empresa, o Veo - mais como forma de exercitar a lógica do que de dominar uma ferramenta específica. Vou explicar a estrutura do pacote, fazer a anatomia reversa de alguns prompts e mostrar o que consegui criar. Depois disso, passar por um artigo da Harvard Business Review que diz simplesmente "menos".
Semana passada by NotebookLM:
Corram para as montanhas! Ninguém ensina a criar, resolver problemas e engajar tão bem quanto a natureza
Sempre achei a estrutura do pacote de IA do Google meio confusa. Então, vamos lá. O nome da minha assinatura é Google AI Pro e ela custa cem pratas por mês (um pouco menos que meu ChatGPT). São quatro tipos e o mais poderoso sai por R$ 1.200 mensais.
A partir daí, a coisa está organizada em camadas. O Gemini é o elemento central e principal interface; além de porta de entrada para os modelos especializados, como o próprio Veo e o Imagen, que, o nome sugere, gera imagens.
Só que você também pode acessar ambos em plataformas específicas. Se o Veo é o modelo de vídeo, o Flow é um “estúdio de edição", onde dá para criar narrativas mais longas e complexas. Se o Imagen é o modelo de imagem, o Whisk permite remixá-las e animá-las. Pense nos modelos como motores e nas plataformas como carros completos.
A assinatura integra a IA no Gmail, nos documentos do Google e demais apps. Além de dar um bom upgrade no seu espaço de armazenamento, pra aguentar isso tudo. Só de brincadeira, voltei ao NotebookLM e pedi que ele fizesse um mapa mental do que acabei de escrever.
Antes de começar a me aventurar no Veo3, resolvi assistir a Flow TV, onde diversos experimentos estão organizados por temas espertinhos como Boomtown (abaixo), Extreme Sports, Balancing Act, Off-Season Santa e Postcards from Space.
Provavelmente como você, eu já salvei diversos conteúdos sobre a correta estrutura de um prompt - tipo esses abaixo. Mas acabo recorrendo a eles menos do que imaginava. Então, dessa vez, decidi fazer uma engenharia reversa - ou anatomia reversa? O Flow permite que você acesse o prompt que deu origem ao vídeo que está assistindo e eu separei alguns pra ver o que encontrava. Vem comigo.
Esse primeiro é daquele vídeo que embedei acima, da caixa de presente explodindo. Até o momento que estou escrevendo essa news, a ferramenta pede que você faça o pedido em inglês:
A festive, evenly framed shot captures a brightly wrapped gift box on a decorated party table, balloons swaying in the background. Suddenly, without any touch, the box tightens, then bursts open in a powerful explosion! A vibrant arc of party elements erupts outward—piñatas, cakes, drinks, wrapped gifts, and colorful party hats flip and spin midair. A large balloon animal twirls before landing on a chair, while a punch bowl tumbles gracefully before settling in place. A confetti cannon bursts midair, showering the table in sparkling ribbons. The movement is bold, celebratory, and full of festive energy. The camera glides back, revealing a fully decorated party space, lights twinkling, music filling the air. At the center, the gift box remains still, its lid gently rocking from the force of the burst.
“Evenly framed shot", “camera glides": o prompt descreve movimentos de câmera e características de enquadramento. Sempre dá para pesquisar o tema, mas alguns apps específicos de vídeo facilitam um pouco a escolha. Escrevi sobre eles há uns três meses. De resto, as palavras que destaquei são adjetivações. Mesmo que você use um chatbot pra refinar prompts, me parece que continua sendo importante saber a diferença entre magro e esguio, careca e calvo, árido e seco. Ou seja, conhecer a língua e investir em repertório.
Vamos ao próximo.
A wide-angle shot captures a polar bear nestled inside a large industrial refrigerator, sprawled among crates of fresh vegetables, cuts of meat, and stacks of dairy. The cool, sterile light from overhead flickers slightly, casting a bluish hue over the frosty shelves. The bear shifts lazily, lifting a paw to scratch its ear before shaking its head, sending a fine mist of condensation into the air. A few tomatoes roll off a nearby crate, landing beside its massive paws. The camera, handheld with a slight documentary shake, peeks through the open door, framing the surreal yet oddly tranquil scene. The hum of the fridge and the occasional drip of condensation enhance the crisp, chilled stillness of this unexpected retreat.
Os dois itens anteriores - movimentos de câmera e adjetivação - continuam super valendo aqui. E eu ainda destaquei algumas palavras para chamar a atenção de um terceiro, o detalhamento. Não é "vegetables, meat and dairy". É “fresh vegetables, cuts of meat, and stacks of dairy". Não é "mist". É “fine mist". Não é "tomatoes". É "few tomatoes". Sabe aquela história de que o diabo está nos detalhes? Exato.
Esse próximo confirma tudo o que vi até aqui e vai além na questão dos movimentos de câmera, porque descreve transições: “…from a close-up to a super wide shot", “As the drone zooms out…". Vejamos.
Drone footage gracefully orbiting a massive rock formation at dawn, transitioning from a close-up to a super wide shot. Initially, the camera focuses on a lone couple: a determined female and a sturdy male rock climber, their colorful gear contrasting against the rugged rock face as they ascend. As the drone zooms out, the rock's perfect heart shape is revealed, heart-shaped rock framed by the soft, pastel hues of the awakening sky. The sun casts long shadows, accentuating the climbers' bravery and the breathtaking beauty of nature.
Acho curiosa a última frase, que dá uma viajada quando diz que o movimento do sol acentua a coragem dos escaladores - escaladores esses de quem a gente sequer vê o rosto (truque para o vídeo ficar mais crível, já que as expressões humanas são complicadas de reproduzir).
De um jeito ou de outro, a qualidade já está impressionante, né? E olha que esses conteúdos todos foram feitos no Veo2. Mais adiante vou ver o que consigo no Veo3, que foi o que deu origem, por exemplo, à Marisa Maiô.
Antes, porém, eu queria mostrar um último vídeo:
O prompt?
“Two chimpancees joining their hands to create a heart shape.”
Pois é, minha gente… Quem nunca? Apesar de a imensa maioria dos exemplos trazer prompts como os três anteriores, também rola esse estilo telegráfico. Seja por preguiça, desconhecimento ou curiosidade para ver o que o modelo vai trazer. Só é importante estar consciente de que assim a gente deixa a tecnologia ancorar um percentual bem maior do resultado.
Ok, chegou a minha vez.
A primeira ideia foi gerar algo em torno das festas juninas - provavelmente out of frustration, já que eu tinha uma hoje e foi cancelada por causa da semana chuvosa. Mas daí achei que o Veo3 talvez não soubesse do que se trata. Eu ia ter que fazer uma camada extra de definições e mesmo assim talvez não saísse bom. Reparando os exemplos da Flow TV, eles não costumam ter elementos culturais, locais. Esse, aliás, é um ponto de atenção para produtores de conteúdo, já que esse tipo de recurso nos aproxima da audiência e normalmente ajuda a criar identificação e engajar. É tudo meio mainstream, considerando que a tech é americana. Enfim, não quis testar, com medo de gastar meus créditos desnecessariamente. Quem sabe mais tarde?
Optei, então por criar um lugar que sempre quis visitar:
O prompt foi escrito a partir daquele primeiro, o da caixa de presente, e colado direto no Flow (não no Gemini). A capacidade do Veo3 é realmente impressionante, mas vejam que ele não conseguiu desenvolver o movimento que imaginei.
A romantic, evenly framed shot captures a vast and peaceful sunflower field in the early hours of a beautiful, crisp morning. Initially, the flowers are almost all facing forward. The sun appears on the horizon, on the left side of the frame. As it slowly crosses the bluish sky, from left to right, we see the sunflowers gently moving to keep their centers always facing the sunlight. A few small insects, like bees and butterflies, fly gently across the field, occasionally touching the flowers. The camera glides back, revealing a sweet countryside, with a few red brick houses, white doors, and delicate curtains in the windows. From one of the houses, we see smoke coming out of the chimney. There are various trees, and the image conveys a sense of peace.
É possível customizar facilmente algumas coisas, como, por exemplo, quantos resultados você quer - até quatro. O default é dois e esse abaixo é o segundo (e menos amado) da minha primeira tentativa.
Outra parada que dá para selecionar é o motor que você deseja acionar. Esses dois vídeos acima foram feitos com o Veo3 - Flash, que cobra 10 créditos por conteúdo. O exemplo abaixo é resultado do Veo3 - Quality, que me levou cem créditos. E aí, vale 90 créditos a mais?
Com o objetivo de explorar mais o Flow e sua capacidade de desenvolver narrativas ricas, eu fui para a feature Criação de Cenários.
Minha expectativa era de uma continuidade, com acréscimo de alguns elementos. Bem, não deu muito certo. De repente e não mais que derepente, minha criação virou um desenho animado.
Olha o prompt e o clipe que a IA adicionou.
Now, make an adult Dalmatian dog gradually appear on the horizon and run happily through the sunflower field. The camera glides back, revealing more and more of the beautiful countryside, which has more charming houses, horses resting in the field, and a lazy river nearby.
Olha, sinceramente, viu, gente? Aff. E os cavalos deitados, hahahaha. Qualquer inexatidão no texto pode ser fatal. Apesar do fail, achei que valia a pena insistir. Fiquei com a sensação de que eu não tinha entendido direito para o que servia essa feature. Eu fui, então, perguntar para quem? Para o Gemini, of course.
Eu adorei a resposta, porque já venho há algum tempo tentanto fugir da simples experimentação de ferramentas, buscando propósito, assertividade e impacto real. Para isso, será preciso repensar processos de trabalho e é exatamente essa a provocação do texto acima.
Claro que a gente tem que assuntar e testar, até para entender se a solução tem mais a ver com produtividade, versatilidade, os dois ou nenhuma das alternativas anteriores. Mas não pode parar por aí. Como integrar essa tecnologia, verdadeiramente e de forma inteligente, à rotina?
Dito isso, me aguardem, porque voltarei com a parte dois desse exercício, quando, se meus créditos permitirem, seguirei direitinho todas as etapas sugeridas pelo Gemini.
Mais lento, mais longo e mais complexo
Aparentemente na contramão do que eu fiz acima, resolvi comentar um artigo da Harvard Business Review sobre a adoção da inteligência artificial em ambientes corporativos. De acordo com Paul Hlivko, um executivo do MIT com 30 anos de experiência em transformação digital, o processo será mais lento, longo e complexo do que as bigtechs querem nos fazer crer.
“Eu acredito que a IA não é em si uma solução revolucionária; é uma vantagem competitiva. Escalá-la exige clareza, cultura e convicção. Hypar é fácil. Mas tudo depende da execução.”
Apesar de o texto focar na realidade das empresas, ele traz reflexões mais abrangentes. Para defender sua tese, Paul começa lembrando de duas outras inovações. Diz que o design das fábricas demorou 40 anos para se adequar à chegada da eletricidade. E que, apesar de a internet existir desde a década de 70, foi somente nos anos 2000 que ela revolucionou os modelos de negócio.
“O economista e ganhador do Nobel, Daron Acemoglu, argumenta que apenas 5% das tarefas serão automatizadas de forma lucrativa na próxima década, adicionando apenas 1% ao PIB dos EUA. O desafio é que, para a maioria das organizações, os custos de disrupção, retreinamento, integração e computação superarão os retornos conseguidos com a inteligência artificial.”
Somos levados a acreditar que no ambiente corporativo a IA vai se espalhar como vem fazendo em função de experiências dos consumidores finais, mas a realidade é bem outra. Ela colide com sistemas desatualizados, questões regulatórias, culturas resistentes ao risco, falta de talentos. “As barreiras não são técnicas e, sim, sistêmicas", garante o executivo.
As empresas que ignorarem essas questões desperdiçarão recursos, pecarão por overpromise e arriscarão a confiança de seus públicos. Os vencedores em IA não serão os mais ousados. Mas aqueles com paciência para construir mudanças reais e duradouras.
Um alerta que eu achei bem bacana: a IA está comoditizando muito rapidamente. Para nós, usuários, isso significa que, mais do que dominar uma ferramenta específica, o importante é entender a lógica, repensar processos e fluxos. Foi o que aprendi com o Domenico Massareto e repito o tempo todo. Aquela história, né, pessoal: o Google não foi o primeiro buscador, foi o nono. Tem gente que veio antes dele e simplesmente sumiu.
E o que o mesmo alerta significa para o ambiente corporativo? Paul explica:
Os modelos de código open-source estão rapidamente abocanhando uma fatia do mercado. Enquanto isso, a OpenAI paga por cada usuário e não possui um ecossistema de distribuição integrado. Para os líderes da indústria, as implicações são reais e imediatas. Muitos estão tomando decisões de investimento de alto risco com base em ferramentas criadas por empresas cujos modelos de negócios de IA podem não ser sustentáveis.
Dono de frases muito boas, ele diz que a questão não é se a inteligência artificial pode construir algo novo. É se a gente consegue integrá-la de forma a gerar valor. E conclui, afirmando que a próxima evolução é a IA Multimodal e os sistemas de IA Composta — tecnologias que processam múltiplos tipos de entrada e trabalham em conjunto, de forma semelhante à cognição humana.
“Um carro autônomo não depende de uma única fonte de dados; ele integra LiDAR (tecnologia de sensor que utiliza laser para criar um mapa tridimensional do ambiente ao redor), radar, GPS e sensores em tempo real para navegar. A IA precisará fazer o mesmo, sobrepondo modelos que analisam visão, som, texto e dados em tempo real.”
Apesar de eu já ter trazido bastante coisa pra cá - mais do que tinha planejado - vale a pena ler o artigo na íntegra. Até porque, ele não é o único que tem tentado jogar um certo balde de água fria na corrida maluca de lançamentos e promessas em torno da tecnologia. Outro dia, mesmo, estava todo mundo comentando uma pesquisa do MIT bem crítica ao uso do ChatGPT.
Tanta pesquisa e artigo pipocando, que uma comunidade de futurismo e inovação da qual faço parte andou se perguntando: estaría a GenAI chegando no Vale da Desilusão mapeado pelo Hype Cycle da Gartner?
A curva fornece um mapa objetivo que ajuda a entender os riscos e as oportunidades reais da inovação, para que você possa evitar adotar algo cedo demais, desistir muito cedo, adotar tarde demais ou insistir por tempo demais. Ela sempre tem cinco fases:
O gatilho da inovação (Innovation Trigger) começa quando um evento, como um avanço tecnológico ou o lançamento de um produto, gera burburinho.
O pico das expectativas infladas (Peak of Inflated Expectations) ocorre quando o uso do produto aumenta, mas ainda há mais hype do que provas de que a inovação pode entregar o que você precisa.
O vale da desilusão (Trough of Disillusionment) acontece quando o entusiasmo inicial passa e os early adopters relatam problemas de desempenho e baixo retorno sobre o investimento.
A rampa da iluminação (Slope of Enlightenment) ocorre quando os primeiros a adotar começam a ver benefícios reais e passam a entender como adaptar a inovação às suas organizações.
O platô da produtividade (Plateau of Productivity) marca o ponto em que mais usuários vêem benefícios e a inovação se torna popular.
E você, o que acha?
Humanos, por hoje é só. Essa semana, garanti meus ingressos para o Rio Innovation Week, que vai receber, entre outros, a futurista Amy Webb; John Maeda, vice-presidente de design e inteligência artificial da Microsoft; a escritora Carla Madeira; Peter Diamandis, fundador da Singularity University e o Nobel da Paz, Denis Mukwege. Em breve, neste canal. Bjs!