Roteiro para Curtas em IA — Gramática de um Formato Novo

Roteiro para curta produzido inteiramente em IA generativa é um formato novo, com restrições e affordances próprias, que a gramática clássica do roteiro (McKee, Snyder, Brody) serve mas não descreve. A arquitetura de história continua valendo — inciting incident, turning points, want vs. need, controlling idea — mas a unidade de escrita muda: de cena para shot, em clipes de 4 a 20 segundos, com um prompt por shot, um character bible no topo, um style bible carregado em cada chamada do modelo, e um voice-over no lugar de quase todo o diálogo. O curta de 10-15 minutos que o Meio vai produzir é o caso que este ensaio tem em mente; a gramática descrita aqui vale para qualquer curta nesse formato.

Importa porque a equipe do Meio vai produzir curtas desses com regularidade. O roteirista — Pedro — precisa de uma linguagem comum com os produtores de IA: saber o que o modelo faz bem, o que faz mal, o que custa dez gerações e o que custa mil, onde a IA brilha e onde precisa ser escondida com corte. Escrever roteiro para este meio sem conhecer suas restrições é como escrever para cinema sem saber que existe corte. O resultado será literatura de tela, não filme.

O argumento central: o curta em IA não é um formato degradado do cinema — é um formato diferente, que exige escrita visual densa, pouquíssimo diálogo, motivos visuais recorrentes (o image system de McKee) e uma abertura deliberada para o estranho, o sonhado, o não-foto-realista, onde a IA é mais forte. O roteirista que entende isso produz algo que o cinema tradicional não faz; o que ignora, produz algo que o cinema tradicional faz melhor.

O que sobra dos três livros

Nenhum dos três escreveu sobre curta. Todos tratam do longa comercial: McKee em Story (1997), Blake Snyder em Save the Cat! (2005), Jessica Brody em Save the Cat! Writes a Novel (2018, adaptação do método de Snyder para prosa). Mas o núcleo do que eles dizem sobrevive à mudança de escala, desde que se aceite a compressão.

A arquitetura de três grandes viradas. McKee: inciting incident, crisis, climax. Snyder: catalyst, midpoint, finale. Em 12 minutos de curta, o inciting chega no minuto 1:30-2:00, o midpoint no minuto 6, o climax no minuto 9:30-10:00 — não há espaço para quatro viradas, mas há para três. A tese de McKee de que uma obra precisa de pelo menos três grandes swings de valor para sentir completa vale aqui. Tentar duas é amadorismo; tentar quatro, em 12 minutos, é compressão que destrói significado.

Beat sheet de Snyder comprimida. Pensando 12 minutos como 100%:

  • Opening Image (0:00-0:20) — quadro que estabelece mundo, tom, e, crucial, o “antes” do arco do protagonista
  • Theme Stated (0:30-0:45) — a lição enunciada por alguém que não é o herói; em curta com pouco diálogo, pode ser uma placa, um grafite, um objeto, uma legenda ao fundo
  • Set-Up (0:20-1:30) — mundo e defeito do herói mostrados em ação
  • Catalyst / Inciting Incident (1:30-2:00) — o evento que desequilibra; em curta, não atrasar
  • Debate (2:00-3:00) — a hesitação, uma única imagem de recuo basta
  • Break Into 2 (3:00) — o herói cruza para o mundo novo
  • B Story (3:30) — o fio que carrega o tema; em curta, colapsa-se dentro da A story, virando um objeto ou personagem secundário único
  • Fun and Games (3:30-6:00) — “the promise of the premise”, onde o curta entrega o que o logline prometeu; em IA, é onde se gasta o máximo de ciclos visuais
  • Midpoint (6:00) — vitória ou derrota falsa, a carga do filme muda
  • Bad Guys Close In (6:00-8:30) — a pressão aumenta; um único beat, não sequência
  • All Is Lost (8:30) — o “whiff of death”, algo morre literal ou simbolicamente
  • Dark Night of the Soul (8:30-9:30) — a reação ao fundo do poço; um plano longo basta
  • Break Into 3 (9:30) — a síntese; o herói entende
  • Finale (9:30-11:30) — execução; o “Dig Deep Down” de Brody, ação impossível no minuto zero
  • Final Image (11:30-12:00) — espelho invertido da Opening Image

Essa distribuição não é dogma — é ponto de partida. Alguns curtas fortes colapsam o primeiro ato inteiro em uma única imagem de abertura e um catalyst imediato. Outros fazem o curta quase inteiro em Fun and Games (caso de Total Pixel Space, vencedor do AIFF 2025 — nove minutos e meio essencialmente feitos de uma única premissa explorada visualmente).

Personagem em duas imagens. McKee distingue characterization (o observável: roupa, idade, hábitos) de true character (o que a pessoa escolhe sob pressão máxima). Em longa, há tempo para construir a primeira e depois escalar a pressão. Em curta, characterization tem que caber em uma única imagem — o Opening Image —, e o resto do tempo é pressão que força o caráter a aparecer. Se o herói não está em pressão desde o minuto 1:30, o curta não funciona.

O shard of glass de Brody — a ferida psicológica enterrada que produz o comportamento atual — em curta visual é plantado por um objeto, não por exposição. Uma foto antiga no criado-mudo. Uma cicatriz. Um quadro virado para a parede. Um nome escrito numa caderneta, riscado depois. O shard entra no quadro, não na fala.

A cena como unidade de mudança de valor. McKee: a cena vira quando o maior gap entre expectativa e resultado se abre, gerando quatro efeitos imediatos — surprise, curiosity, insight, new direction. Em curta de 12 minutos com 6-8 cenas, são 6-8 inversões de valor. É por isso que cenas de curta são densas, não breves — a densidade é o ponto.

On-the-nose: o pecado capital. McKee massacra escrita em que personagens dizem exatamente o que sentem ou imagens ilustram literalmente o tema. Em curta visual em IA, o equivalente é o plano que traduz para a imagem o que o voice-over acaba de dizer. Evitar. O voice-over diz uma coisa; a imagem diz outra, ou diz mais, ou contradiz. O gap entre as duas é onde mora o significado.

Gênero como motor estrutural. Snyder classifica dez gêneros (Monster in the House, Golden Fleece, Out of the Bottle, Dude with a Problem, Rites of Passage, Buddy Love, Whydunit, Fool Triumphant, Institutionalized, Superhero). Não são tons, são tipos de transformação. Em 12 minutos, só roda um. Hibridização é duas máquinas disputando um tempo que não existe.

Controlling idea. McKee: “valor final + causa concreta”. Não “a justiça triunfa”, mas “a justiça triunfa porque o protagonista é mais astuto que o criminoso”. A controlling idea só se descobre depois que o climax está pronto. Em curta, ela cabe numa frase, e essa frase vira a bússola de cada shot.

O logline test. Snyder: se você não consegue dizer o curta em uma frase com ironia embutida, imagem mental gerada e sensação de tom, o curta não está pronto. Em curta, mais que em longa, o logline é lei.

O estado do meio — abril de 2026

O cenário de modelos de vídeo IA mudou radicalmente nos últimos 24 meses. O que vale no momento deste ensaio:

Sora 2 (OpenAI). Clipes de 15 a 25 segundos (máximo prático 20s para qualidade). Consistência de personagem via reutilização de assets — é possível importar um personagem gerado em uma cena e inseri-lo noutra com aparência preservada. Áudio nativo, inclusive voz. Deprecação anunciada para setembro de 2026, o que significa que o modelo sucessor (Sora 3 ou equivalente) já está no horizonte. Pontos fortes: imaginário onírico, cenas impossíveis, composições cinematográficas arrojadas. Pontos fracos: realismo fotográfico humano em close.

Veo 3 / Veo 3.1 (Google DeepMind). Clipes de 8 segundos, áudio nativo sincronizado, lip-sync com precisão abaixo de 120ms — o modelo mais forte para diálogo boca-a-boca. Formato de prompt estruturado em cinco partes: [Shot Composition] + [Subject Details] + [Action] + [Setting/Environment] + [Aesthetics/Mood], com diálogo entre aspas (“A woman says: ‘We have to leave now.’”) e rótulo de áudio separado (“Audio:”, “SFX:”, “Ambient:”). Ponto forte: áudio integrado, economia enorme no pipeline. Ponto fraco: clipes curtos forçam maior número de shots para a mesma duração.

Runway Gen-4 / Gen-4 References. A ferramenta mais madura para consistência de personagem via imagem de referência. Aceita até três imagens de referência rotuladas (image_1, image_2, image_3), que o modelo usa para preservar características no vídeo gerado. O fluxo típico: gerar character sheet em modelo de imagem (Midjourney, Flux, Imagen), importar como referência no Runway, gerar cada shot. Gen-4.5 introduziu multi-shot narrative prompting — o modelo entende que a mesma personagem precisa atravessar múltiplos shots.

Kling 3.0 (ByteDance). Lançado em fevereiro de 2026. 4K nativo a 60fps — primeiro modelo com output que atende padrão de entrega broadcast sem upscaling externo. Storyboard feature gera até seis cortes de câmera em uma única geração, com consistência visual automática entre cortes. Áudio sincronizado nativo. É o modelo com maior fidelidade de imagem no momento.

Midjourney Video, Higgsfield, Hailuo, Luma Dream Machine, Pika. Modelos secundários, cada um com forças específicas — Higgsfield é forte em movimento de câmera cinematográfico (Popcorn, Recast), Hailuo em consistência de personagem em português, Luma em transições fluidas, Pika em efeitos visuais específicos. Nenhum é primário para curta de 10-15 minutos; todos aparecem como ferramentas de apoio em pipelines híbridos.

O que os modelos ainda fazem mal (abril 2026):

  • Texto legível dentro do plano. Placas, rótulos, documentos — todos saem embaralhados. Se o roteiro depende de uma palavra escrita ser lida, ela precisa entrar em pós-produção.
  • Mãos em close. Articulação de dedos, interação com tecido, precisão temporal em gestos finos ainda é inconsistente. Se uma ação depende de mão-em-close, ou se encurta, ou se corta para o rosto no momento da ação.
  • Rostos humanos em close prolongado. Microexpressões sustentadas por mais de 2-3 segundos começam a derivar. A solução é compor para afastar o close, ou cortar.
  • Detalhes finos e padrões. Joalheria, estampas complexas, textos bordados. O modelo inventa.
  • Coreografia entre múltiplos personagens. Duas pessoas interagindo com contato físico preciso — abraço, dança, luta coreografada — é frágil. Melhor cortar entre planos individuais do que sustentar o duplo em continuous.
  • Continuidade entre clipes distantes no roteiro. Mesmo com reference images, o personagem drift entre o shot 3 e o shot 47. A solução é retomar a reference image a cada chamada.

O que os modelos fazem especialmente bem:

  • Paisagens, atmosferas, escalas impossíveis. Incêndios, oceanos, cidades, multidões.
  • Estilos pictóricos, pintura em movimento, estética de sonho.
  • Época e figurino, se bem prompteados. Setecentos, barroco, futurismo — o modelo conhece melhor do que se imagina.
  • Transições surreais. A IA brilha quando não está tentando passar por câmera real.
  • Movimentos de câmera expressivos. Dolly, crane, drone aerial, whip pan — tudo grátis.

A unidade nova: shot, não cena

Esta é a mudança mais importante. No roteiro tradicional, a unidade é a cena — um lugar, um tempo, uma ação contínua. Um curta de 12 minutos tem tipicamente 6-12 cenas. Na IA, a unidade é o shot — uma geração de 4 a 20 segundos com um prompt. Um curta de 12 minutos tem entre 60 e 120 shots.

Isso muda tudo na forma do documento. O roteiro de curta em IA não se escreve em CONTINUOUS/CUT TO do formato Courier 12pt. Se escreve shot-a-shot, com prompt embutido ou derivável a cada item. A cena ainda existe como unidade narrativa — um conjunto de shots que compartilham lugar, tempo, ação — mas a cena não é o que se entrega ao modelo. O que se entrega é o shot.

Por que isso importa. O roteirista tradicional descreve uma cena como “João entra na sala, vê Maria chorando, hesita e sai”. O produtor de IA transforma isso em quatro ou cinco shots:

  1. Wide shot: corredor escuro, João de costas caminhando em direção a porta entreaberta, lens 35mm, luz baixa tungstênio, final dos anos 80, still from 1988 Brazilian arthouse film, 4s.
  2. Medium shot: porta se abrindo em POV de João, revelando Maria sentada na beira da cama, costas curvadas, cabelo caindo no rosto, luz única da janela, 3s.
  3. Close-up: rosto de João, olhos fixos, expressão que hesita entre entrar e sair, luz refletida no rosto, 2s.
  4. Wide reverse: Maria não percebe, continua imóvel, João recua para fora do quadro, porta se fechando sem som, 4s.

Isso é a decomposição. O trabalho do roteirista que entende IA é entregar já essa decomposição, ou pelo menos o bastante dela para que a conversão seja barata. O roteirista que entrega “João hesita e sai” obriga o produtor a reinterpretar toda a direção em cinco shots e gastar ciclos adivinhando o que estava na cabeça do autor.

Consequência para o ritmo. O shot médio em curta de IA é de 3 a 5 segundos — mais curto que o shot médio do cinema mainstream atual (que já é curto, ~4-5s). A frequência de corte alta não é estilo, é uso inteligente do meio: cortes frequentes escondem drift de consistência, resetam o modelo para o próximo shot, e mantêm ritmo elevado que casa com a densidade narrativa do curta.

Consequência para a narrativa. Cenas longas e quietas, típicas do cinema contemplativo, ficam difíceis. Não impossíveis — há casos de shots de 20s no Sora 2 que funcionam —, mas caras em termos de gerações descartadas e frágeis em termos de consistência. O roteirista que escreve “plano-sequência de dois minutos em que Tiradentes olha pelo horizonte” está pedindo algo que não casa com o meio. Em IA, esse plano vira três shots de 5-7 segundos cada, com variação sutil de enquadramento ou luz.

Princípios de ofício

Dos curtas de IA que funcionaram (AIFF 2024-25, Sora Showcase, “Air Head” dos Shy Kids, “The Frost” da Waymark, trabalho de Paul Trillo, Dave Clark, Nik Kleverov), emergem princípios razoavelmente estáveis.

1. Voice-over, não diálogo boca-a-boca. McKee avisa que voice-over pode ser muleta preguiçosa — narração que só duplica o que se vê. Mas em curta de IA, o equilíbrio muda. Diálogo sincronizado custa consistência (lip-sync ainda drift em shots prolongados), e emoção sustentada em fala é frágil. Voice-over resolve: é gravado depois, por ator humano ou TTS premium (ElevenLabs, Cartesia), com controle total de entrega. A regra não é “nunca diálogo”; é “diálogo só quando vale o custo”. Se o filme precisa de três linhas de diálogo boca-a-boca no Veo 3, tudo bem. Se precisa de trinta, o meio não é IA — é live action.

2. Mostrar, não contar — amplificado. McKee: cinema é visual, não verbal; diálogo é última camada. Em IA isso é dobrado, porque o que o modelo faz melhor é imagem. Escrever roteiro para IA é, mais que tudo, pensar visual. Cada ideia tem que ter uma imagem antes de ter uma frase.

3. Image system obsessivo. O conceito mais útil de McKee para IA. Escolha dois ou três motivos visuais — uma forma, uma cor, um tipo de luz, um objeto — e faça-os retornar com variação ao longo do filme. O sistema funciona melhor quando é interno (específico a este filme) e subliminar (o espectador sente sem perceber). No curta de IA, o image system também faz trabalho técnico: cria coerência estética quando a consistência de personagem falha.

4. Abrir e fechar em imagens que se respondem. O Opening Image e o Final Image carregam quase toda a leitura de arco do espectador em curta. Gastar tempo desproporcional escolhendo as duas é correto. As duas imagens são o resumo visual da controlling idea.

5. Leaning into weirdness. Stephen Parker da Waymark, sobre The Frost: “Chegamos a um ponto em que paramos de lutar pelo realismo fotográfico e começamos a nos apoiar na estranheza do DALL-E”. Esse é o princípio mais contra-intuitivo. A IA gera melhor o sonho do que o documento. Cenas oníricas, memória, flashback estilizado, sequências de passagem de tempo, realismo mágico — é aí que o curta de IA brilha. O roteirista que exige naturalismo de câmera o tempo todo está lutando contra o meio.

6. Elevar a estranheza ao estilo. Relacionado ao anterior. Se o mundo inteiro do filme é “pintura em movimento” ou “memória fragmentada” ou “sonho dentro de sonho”, os artefatos da IA — leves distorções, continuidade frouxa, personagens que derivam — deixam de ser erros e viram linguagem. Paul Trillo fez isso em Thank You For Not Answering, onde a memória deteriorada é o tema: a fragilidade técnica do Runway Gen-2 é o filme.

7. Character bible no topo, reutilizada sempre. Documento separado, gerado antes do roteiro shot-a-shot, com cada personagem descrito em 15-20 atributos físicos (idade, cabelo por descrição e cor exata, olhos, estatura aproximada, traço facial dominante, rugas, marcas, roupa dominante com descrição de tecido e cor). Três a cinco reference images por personagem, em ângulos diferentes. Esse bloco é colado no começo de cada prompt. Sem isso, consistência degrada irrecuperavelmente.

8. Style bible no topo, reutilizada sempre. Outro documento, também no topo. Paleta (3-5 cores dominantes nomeadas). Referência fotográfica (2-3 filmes ou fotógrafos como ponto de calibração — Trillo usa “Fuji film stock, 70s, mood lighting, surreal”). Lente dominante (35mm, 50mm). Tipo de luz (tungstênio, janela única, golden hour, blue hour). Tratamento (grão, defocus, contraste). Essa assinatura atravessa todos os shots.

9. Cortar para esconder — como sempre esteve no cinema. Consistência drift entre shot 3 e shot 47 do mesmo personagem é inevitável. Cortar rapidamente, alternar ângulos, inserir insert shots (objeto, mão, paisagem) entre dois planos do mesmo personagem — tudo isso é técnica de edição clássica que ganha função dupla em IA: esconder a falha do modelo.

10. Exposição como munição. McKee: converter exposição em pressão. Em curta de IA com pouco diálogo, a versão visual é: informação aparece só quando ela tem função na decisão do personagem. Um objeto só entra no quadro no momento em que ele vira peso. Uma foto antiga só é revelada quando o personagem precisa escolher algo que ela força. Nada de “estabelecer” mundo em dois minutos iniciais — o mundo se estabelece enquanto a ação acontece.

11. Pope in the Pool. Snyder: se tiver que entregar exposição, embrulhar em ação visualmente interessante. Em IA isso ganha outra camada: a ação visualmente interessante é também onde a IA rende o melhor trabalho. Dois personagens explicando enredo enquanto trocam um pneu, atravessam uma ponte estreita, arrumam cavalos, vestem uniformes — qualquer cena manual densa é, simultaneamente, Pope in the Pool e material que a IA adora.

12. O logline entra em cada prompt. Não o logline inteiro, mas a palavra-chave que amarra tom. Se o logline é “um curta barroco sobre o último dia de Tiradentes, luz de Caravaggio, multidão em procissão”, a palavra barroco ou a expressão Caravaggio light entra em cada prompt de shot. O modelo mantém tom quando lembrado.

13. Um gênero, uma linha. Snyder: um gênero por filme. Em curta, um motor. Escolher antes de escrever, e não desviar.

14. Testar cada cena com +/− e ><. Cada cena começa com uma carga emocional e termina com outra (+/−); cada cena tem duas forças em conflito (><). Se não muda ou não conflita, a cena é inerte. Em curta denso, cena inerte não pode existir.

15. Escrever do fim para o começo. Em curta de IA, o Final Image é metade do filme. Decidir a última imagem antes da primeira. Derivar o resto dali.

A forma do documento

O roteiro de curta em IA é, na prática, três documentos encadernados:

A. Blueprint narrativo. 2-3 páginas. Logline, controlling idea, gênero, beat sheet comprimida, lista de cenas com função narrativa (o que cada uma faz no arco). É o documento de leitura — o que se mostra para alguém que precisa entender o filme em 10 minutos de leitura.

B. Style bible + character bible. 3-5 páginas. Paleta, referências visuais, lente, luz, tratamento. Cada personagem com atributos físicos e 3-5 reference images. Esse é o bloco colado em cada prompt.

C. Shot sheet. O corpo. Tabela ou lista numerada, um item por shot. Para cada shot:

  • Número (S01, S02…)
  • Cena a que pertence (útil para agrupar no edit)
  • Duração alvo (em segundos)
  • Enquadramento e movimento (WS estático, MS dolly-in, CU handheld, etc.)
  • Descrição de ação em presente contínuo, verbo forte + substantivo específico (estilo McKee para description screenplay)
  • Linha de VO que acompanha, se houver
  • Tags de estilo herdadas do style bible (ex: “Caravaggio light, fuji 400, 35mm”)
  • Observações técnicas (modelo sugerido: Sora 2 / Veo 3 / Runway Gen-4; reference images usadas)

Um shot bem escrito cabe em 4-8 linhas. Um shot mal escrito ou é genérico demais (“Tiradentes caminha”) ou detalhista demais (“Tiradentes, 43 anos, 1,75m, barba de três dias…” — isso vai no character bible, não em cada prompt).

Exemplo de shot bem escrito (hipótese para a procissão de Tiradentes):

S34 — Cena 7, Procissão — 5s — Wide high-angle, dolly lento em direção à rua Multidão barroca apinhada nas janelas da rua estreita, tecidos vistosos pendurados nas fachadas. No centro da rua, cortejo de sotainas pretas envolvendo o condenado de capuz branco. Luz do meio-dia de Minas cortada por sombras longas das casas altas. VO: “Passava já das onze quando alcançaram o local da forca.” Style: Caravaggio light, fuji 400 grain, 35mm, paleta ocre-preto-branco-vermelho Ref: character_sheet_tiradentes_01.png, style_ref_procissao.png Modelo: Runway Gen-4 References

O shot entrega tudo que o produtor precisa: tempo, enquadramento, ação, luz, paleta, narração, referências, modelo. Não pede interpretação.

A gramática do prompt de vídeo

O prompt de cada shot tem estrutura previsível. A fórmula de cinco partes, que aparece tanto nos guias do Veo 3.1 quanto em documentação do Sora 2 e tutoriais do Runway, é:

[Shot Composition] + [Subject Details] + [Action] + [Setting/Environment] + [Aesthetics/Mood]

Exemplo decomposto:

  • Shot Composition: “Wide high-angle dolly shot, 35mm lens”
  • Subject Details: “[character sheet block] — Tiradentes, capuz branco, pés descalços, mãos atadas em crucifixo”
  • Action: “walking slowly in procession, flanked by priests in black cassocks”
  • Setting/Environment: “narrow cobblestone street of colonial Rio, ornate fabrics hanging from windows, midday sun cutting deep shadows”
  • Aesthetics/Mood: “Caravaggio-lit chiaroscuro, Fuji 400 film grain, ochre-black-white-red palette, 1792 period accuracy, solemn barocco atmosphere”

Para Veo 3, acrescenta-se um bloco de áudio separado:

  • Audio: “Church bells in distance, muffled crowd murmur, footsteps on stone. VO (male, grave, Brazilian Portuguese): ‘Passava já das onze quando alcançaram o local da forca.‘”

Para diálogo boca-a-boca no Veo 3, aspas explícitas: A man whispers: "Seja breve."

Regras de escrita do prompt. Verbo forte, substantivo específico. Presente contínuo. Sem “we see”, sem “the camera shows”. Nomear o que precisa ser nomeado — cor exata (“burgundy velvet”), não genérica (“dark red”). Ângulos e lentes em termos técnicos (“low-angle”, “85mm”, “dutch tilt”). Luz nomeada por tipo (“tungsten practical”, “golden hour backlight”, “single window source from camera left”). Referências estéticas concretas (“Caravaggio”, “Gordon Willis”, “Roger Deakins”, “Wes Anderson symmetry”, “Gregory Crewdson tableau”) — o modelo reconhece.

O que omitir. Interpretação psicológica do personagem (“Tiradentes, resignado mas firme”). O modelo não sabe o que fazer com adjetivos emocionais abstratos. O que é interior se traduz para gesto exterior — olhos fixos, queixo alto, passos firmes — e é isso que entra no prompt.

O pipeline — do roteiro ao corte

Conhecer o pipeline ajuda o roteirista a entregar o que o pipeline precisa. Os estágios, de forma genérica (varia com a equipe):

1. Roteiro (blueprint + style bible + character bible). Responsabilidade do roteirista. Entrega: os três documentos.

2. Pré-produção visual. Gerar character sheets em modelo de imagem (Midjourney v7, Flux.2, Imagen 4). Gerar reference shots de ambientes, paletas, moodboards. Essa é a fase de estabelecer a “biblioteca de referências” que será usada em cada geração.

3. Geração shot-a-shot. O produtor de IA pega cada shot do shot sheet, compõe o prompt final (style bible + character block + prompt específico do shot), manda para o modelo apropriado, recebe 3-5 variações, escolhe. Itera se preciso. Um curta de 12min, com 80 shots, com média de 4 gerações por shot até chegar numa aprovada, é 320 gerações. A média real, segundo Trillo em Washed Out, foi ~13 clipes gerados para cada 1 usado.

4. Pós-produção de shot. Cada shot aprovado pode precisar de: retexture (para unificar paleta), upscale (para resolução final), retoque em mãos/rostos/texto (geralmente frame-por-frame em ferramentas dedicadas), inserção de texto legível (After Effects tradicional, não IA), rotoscopia quando necessário.

5. Edit. Montagem tradicional em Premiere/Resolve/Avid. Aqui entra o ofício clássico de cinema: ritmo, sonora, cortes J/L, match cuts.

6. VO e som. Narração gravada (ator ou TTS premium). Sound design. Música. Mix final.

7. Color. Etalonagem final em DaVinci, aplicando o look unificado mesmo sobre shots de modelos diferentes.

O roteirista entrega o documento na fase 1. Se entrega bem, a equipe do Meio trabalha rápido. Se entrega mal (prosa sem shot sheet, sem style bible, sem character bible), a equipe reescreve — e a voz do roteirista se perde na reescrita.

Armadilhas

A armadilha da página cheia. O roteirista vindo da literatura quer escrever prosa que flui. Mas prosa não é prompt. Uma descrição literária bonita gera vídeo ruim. A disciplina é submeter o impulso literário à gramática técnica — no roteiro. O literário volta no voice-over, onde o texto é texto.

A armadilha do close humano prolongado. Querer um plano de 15s no rosto do protagonista. A IA derrete o rosto depois de 3-4 segundos. Compor diferente: cortar, afastar, usar objeto no primeiro plano, mover a câmera, dar corte para inserção.

A armadilha do realismo exigente. Querer que o filme passe por live-action. Em cenas mundanas (cozinha, escritório, rua comum), a IA entrega naturalismo hoje — mas em close humano ou coreografia multi-personagem ainda falha. Se o curta depende de passar por real, o orçamento de retrabalho explode. Se o curta abraça um olhar estilizado, o orçamento cabe.

A armadilha da cena-sequência longa. Querer uma cena de 3 minutos em um único espaço. A IA não sustenta continuidade de iluminação e posição de personagem ao longo de 60+ shots que compartilham lugar. Ou se quebra a cena em blocos com cortes (elipses, fades), ou se aceita que o espaço vai “respirar” — pequenas variações de luz e composição que a edição justifica como duração narrativa.

A armadilha do diálogo pesado. Querer que dois personagens tenham uma conversa de um minuto e meio. Em Veo 3 com lip-sync é caro (cada 8s de diálogo é um shot; 90s são 11 shots com risco de drift). Voice-over resolve. Ou, se o diálogo é mesmo essencial, corta-se para reações, insertos, olhar — o diálogo se ouve, o rosto falando aparece só parcialmente.

A armadilha do personagem único protagonista em todos os planos. Drift de consistência acumula. Dividir o peso entre personagens, ambientes, objetos. Deixar o ambiente carregar shots. Usar POV do protagonista (onde o protagonista está fora do quadro) em vários momentos.

A armadilha do texto importante na tela. Se há uma carta que precisa ser lida, um letreiro de rua, uma data escrita — não depender da geração. Gerar o shot sem texto, inserir em pós.

A armadilha do naturalismo histórico. Em curta de época (Tiradentes, por exemplo), cair no realismo de minissérie BBC é caro e frágil — a IA derruba microdetalhes de época em close. Apostar no estilizado: pintura histórica em movimento, quadros vivos, composição barroca. Aproximar do Caravaggio, não do documentário.

Três tensões que o roteirista vai viver

Fidelidade textual vs. produção visual. O capítulo do livro tem texto lindo que quer virar voice-over. Quanto cabe? Regra: voice-over denso massacra a imagem. O filme não é o texto lido com imagens ilustrativas. O texto entra em fragmentos, como contrapontos — cortado, deslocado, usado com ironia. O curta pode até citar o livro no fim (placa, legenda), mas não transmiti-lo.

Universalidade vs. especificidade. O gênero (Rites of Passage, Dude with a Problem) quer universalizar. A fidelidade histórica quer especificar. O equilíbrio: o gênero estrutura o arco, a especificidade carrega textura. O curta sobre o enforcamento de Tiradentes é um Rites of Passage (a aceitação de uma morte), mas é também 21 de abril de 1792, Rio de Janeiro colonial, com cordas de cadarço vermelho e bacalhau branco ao pescoço do leitor da sentença. As duas camadas têm que estar no curta.

Imagem que a IA ama vs. imagem que a história pede. A IA ama paisagem, multidão, atmosfera, sonho. A história do enforcamento pede close em rosto suado, tremor no maxilar, olho fixo no crucifixo. A tentação é trocar: entregar só o que a IA faz bem. A alternativa madura: compor o close de um jeito que esconda as fragilidades (iluminação forte que esconda textura, pequena angulação que desfoque ligeiramente, duração curta, reforço por objeto no primeiro plano). Não escolher entre o que a IA quer e o que a história quer — arquitetar os dois juntos.

Nota de fechamento

Curta em IA está num momento análogo ao cinema primitivo. Os modelos são os Lumière e Méliès de 1895-1905: a câmera está ali, a linguagem está sendo inventada em tempo real, a gramática que hoje parece óbvia (plano, contraplano, corte, close) não existia. O roteirista que pisa neste meio em 2026 está escrevendo sabendo que em 2028 a gramática vai ser outra.

Dois princípios para navegar isso: (a) não importar os hábitos do cinema tradicional por default — cada convenção do longa comercial deve ser justificada no contexto do meio novo, e muitas vão cair; (b) não abandonar os fundamentos de história — McKee e Snyder descrevem mecânica humana de narrativa, não técnica de câmera. O que muda é o molde da forma; a substância (um ser humano mudando sob pressão, uma imagem que resume uma transformação) é a mesma desde Sófocles.

O curta bom em IA é o que usa o meio pelo que ele tem de próprio — densidade visual, velocidade de produção, liberdade de escala e época, abertura para o onírico — servindo uma história que um espectador humano, em doze minutos, reconhece como verdade.

Ver também

  • mckee_story_resumo — os princípios estruturais (inciting incident, controlling idea, beats, gap entre expectativa e resultado) que o ensaio comprime para formato curto
  • snyder_save_the_cat_resumo — a beat sheet de 15 pontos e os dez gêneros, aqui adaptados para 10-15 minutos
  • brody_save_the_cat_novel_resumo — a tradução prática de want/need, shard of glass e Dig Deep Down que informou o tratamento de personagem em curta

Fontes web consultadas (abril 2026)

Estado dos modelos:

Diretores e método:

Case studies e festival:

Prompt e técnica: