ComicCast: quando a inteligência artificial dá vida e som à banda desenhada para quem não a pode ler e ver

EntrevistaNotícias
Sandra M. Pinto
15/10/2025
11:06
EntrevistaNotícias
Sandra M. Pinto
15/10/2025
11:06


Partilhar

A banda desenhada é, por definição, um meio visual, construído através de imagens, balões de fala e expressões gráficas que conferem ritmo e emoção à narrativa. No entanto, foi precisamente a reflexão sobre como tornar esse universo acessível a pessoas com deficiência visual que deu origem à ComicCast, uma iniciativa inovadora que utiliza inteligência artificial generativa para transformar qualquer banda desenhada física numa experiência sonora imersiva.

Por Sandra M. Pinto

Este projeto nasceu de uma colaboração entre a Dentsu Creative, a AWS (Amazon Web Services), a IO Digital e a ONCE, a Organização Nacional de Cegos de Espanha, unindo criatividade, tecnologia de ponta e conhecimento especializado em acessibilidade. Nesta entrevista, os principais intervenientes partilham a génese da ideia, os desafios técnicos enfrentados e o impacto cultural já sentido junto da comunidade cega. Conversámos com Victoria Montes-Nino Bruzone, Account Manager da AWS para a Península Ibérica; María José Vázquez Gómez, Chief Creative Officer da Dentsu para Espanha; Cristian Sainz de Marlés, Diretor de TI na ONCE; e Juanjo Martín Beltrán, Fundador e CIO da IO Digital, para compreender como a ComicCast está a transformar a forma como a banda desenhada pode ser vivida, agora também através do som.

Como surgiu a ideia da ComicCast? Qual foi o ponto de partida para este projeto? 
María José Vázquez Gómez (MJVG): O início de tudo foi uma feliz coincidência. Tínhamos um almoço de trabalho com outro cliente, e muitos de nós pensámos em comer algo rápido antes. O resultado foi que pessoas de diferentes departamentos da Dentsu Creative acabaram por se juntar. Rapidamente começámos a falar sobre a notícia de que o grupo estava a organizar, pela primeira vez na história, a San Diego Comic-Con fora dos EUA. Dissemos que seria uma ocasião especial, um evento incrível, algo que milhares de pessoas iriam aproveitar… e nesse momento, alguém fez a pergunta: Seria verdadeiramente uma experiência aberta a todos?
O ponto de partida foi identificar uma barreira de acessibilidade cultural significativa: a banda desenhada, um meio intrinsecamente visual. Foi nesse momento que souberam que tinham de fazer alguma coisa. O objetivo era usar a tecnologia como motor para uma solução inovadora.

Depois de pesquisar e confirmar que não existia nenhum produto que realmente oferecesse uma experiência digna da arte da banda desenhada, contactámos os nossos parceiros tecnológicos IO Digital e AWS para desenvolver a nossa própria solução personalizada. A necessidade de unir diferentes competências para um projeto complexo era clara. A Dentsu Creative trouxe a criatividade e a visão de futuro. A AWS forneceu a tecnologia de ponta de IA generativa através do modelo Amazon Nova Pro em combinação com o modelo Claude, da Anthropic, para oferecer uma experiência fluida e imersiva. A IO DIGITAL X trouxe a sua experiência na implementação e integração de sistemas de IA.

Assim que o protótipo foi concluído, dirigimo-nos à ONCE, a organização nacional de referência em Espanha no apoio à comunidade de pessoas cegas, para apresentar a nossa ideia, e foi um sucesso imediato. A ONCE trouxe um conhecimento profundo das necessidades do público-alvo e a validação da causa. Após a realização do primeiro teste numa videochamada, a equipa da ONCE ficou tão entusiasmada que decidiu juntar-se à iniciativa e apresentar o projeto em conjunto durante a feira Comic-CON em Málaga.

Por que escolheram a banda desenhada como meio cultural para este projeto de acessibilidade? 
MJVG: A banda desenhada é uma forma única de expressão artística. Uma linguagem rica e multifacetada para a qual as soluções de acessibilidade existentes, como audiobooks e Braille, se revelaram insuficientes. Estes métodos não conseguiam reproduzir fielmente as nuances nem oferecer a experiência completa que a banda desenhada proporciona. Os audiobooks não têm elementos visuais, enquanto o Braille tem dificuldade em transmitir a complexa interação entre imagens e texto. Esta complexidade representou um desafio significativo, o que tornou a banda desenhada o meio ideal para demonstrar o potencial transformador da tecnologia de inteligência artificial generativa. Ao escolher a banda desenhada, o nosso objetivo era abordar uma barreira de acessibilidade cultural significativa e mostrar como a tecnologia de ponta pode ter um impacto real.

Quais foram os maiores desafios técnicos no desenvolvimento da ComicCast? 
Victoria Montes-Nino Bruzone (VMNB): O desenvolvimento da ComicCast apresentou vários desafios técnicos significativos. Um dos principais obstáculos foi analisar a estrutura complexa de uma página de banda desenhada em tempo real. Isto envolveu a identificação de vários elementos como vinhetas, balões de fala e onomatopeias, o que exigiu técnicas e algoritmos avançados de visão computacional.
Outro grande desafio foi integrar e orquestrar múltiplos modelos de IA para que trabalhassem de forma coesa. O projeto dependia do Amazon Nova Pro, Claude e ElevenLabs, cada um com os seus próprios pontos fortes e competências. Garantir que estes modelos colaboravam de forma fluida para produzir um resultado unificado e de alta qualidade foi uma tarefa complexa que exigiu coordenação e ajuste cuidadosos.
Converter elementos visuais em áudio descritivo e efeitos sonoros, preservando a essência da banda desenhada, foi outro obstáculo significativo.
Exigiu uma profunda compreensão tanto da linguagem visual da banda desenhada como das nuances da narrativa em áudio. A equipa teve de desenvolver técnicas inovadoras para traduzir onomatopeias, estilos de arte e outras pistas visuais em representações de áudio envolventes e fiéis.
Garantir uma baixa latência entre a captura da imagem e a reprodução do áudio foi crucial para proporcionar uma experiência de utilização fluida e imersiva. A equipa teve de otimizar todo o pipeline, desde o processamento de imagem até à geração e entrega de áudio, para minimizar atrasos e manter a sincronização. Este processo implicou o recurso a tecnologias de ponta e a implementação de algoritmos eficientes para alcançar o desempenho desejado.

Como foi o processo de integração de modelos de IA generativa como o Amazon Nova Pro e o Claude?
VMNB: O processo foi significativamente simplificado através do Amazon Bedrock. Esta plataforma de IA generativa funciona como uma camada de acesso unificada que permite aos programadores chamar diferentes modelos de IA, como o Amazon Nova Pro e o Claude da Anthropic, através de uma API única. Esta capacidade eliminou a complexidade de integrar sistemas separados, permitindo que a equipa de desenvolvimento se focasse na lógica da aplicação. A escolha destes dois modelos foi estratégica, pois ambos são especialistas e eficientes em termos de custo e desempenho na análise visual, compreensão de cenas e criação de descrições narrativas — competências essenciais para “traduzir” banda desenhada para áudio.

Como é que a ElevenLabs contribuiu para a experiência sonora imersiva? 
Juanjo Martín Beltrán (JMB): A ElevenLabs desempenhou um papel crucial na melhoria da experiência sonora imersiva da ComicCast através de duas contribuições principais.
Primeiro, permitiu o processo de design de voz para cada personagem, utilizando as ferramentas avançadas de criação de voz da ElevenLabs para criar vozes distintas e reconhecíveis.
Este trabalho de design garantiu que os utilizadores pudessem seguir facilmente os diálogos e compreender a narrativa, mesmo sem pistas visuais.
Ao atribuir vozes únicas a cada personagem, a equipa preservou a integridade e a clareza da narrativa da banda desenhada.
Segundo, a ElevenLabs integrou efeitos sonoros que reproduziam com precisão as onomatopeias e outros recursos gráficos presentes na banda desenhada.
Esta adição enriqueceu a experiência auditiva, tornando-a mais envolvente e imersiva. Ao traduzir elementos visuais nos sons correspondentes, a ElevenLabs ajudou a preencher a lacuna entre as dimensões visual e auditiva da banda desenhada, permitindo que os utilizadores apreciassem plenamente a sua profundidade artística e emocional.

Que tipo de testes foram realizados com pessoas com deficiência visual para ajustar a experiência? 
MJVG: Embora a ComicCast ainda seja um protótipo, desde o início tivemos bem claro que era essencial envolver pessoas cegas desde a sua conceção. Foi por isso que procurámos a experiência de um grupo como a ONCE, que há muito trabalha para a inclusão desta comunidade em todos os aspetos da vida. Tanto nos testes iniciais como nas experiências mais recentes que realizámos com utilizadores finais, o feedback tem sido extremamente positivo. Tivemos a sorte de testemunhar vários testes da ComicCast com pessoas cegas e ver em primeira mão as emoções que a experiência lhes evoca.

A ComicCast foi concebida para funcionar com qualquer banda desenhada física. Existem limitações técnicas atuais? 
JMB: A ComicCast foi concebida com o objetivo de ser universalmente compatível com qualquer banda desenhada física. No entanto, existem algumas limitações técnicas atuais que podem afetar a sua eficácia em certos cenários. O protótipo foi inicialmente treinado com “Mortadelo e Salaminho”, uma banda desenhada conhecida pelo seu estilo gráfico e narrativo distinto. Embora a obra tenha fornecido uma base sólida, também significa que o sistema pode enfrentar desafios ao encontrar bandas desenhadas com estilos de arte muito abstratos, layouts de página não convencionais ou caligrafia difícil de ler. Estas variações podem impactar a precisão e a qualidade da narração em áudio e dos efeitos sonoros gerados pela ComicCast.
A adaptação a uma vasta gama de estilos e formatos de banda desenhada é um desafio contínuo no desenvolvimento de IA. A capacidade do sistema para analisar e interpretar eficazmente diversos elementos visuais, como técnicas de arte únicas, layouts complexos e diferentes apresentações de texto, é crucial para garantir uma experiência de utilização consistente e imersiva em diferentes bandas desenhadas.
À medida que a ComicCast continua a evoluir, será essencial abordar estas limitações técnicas e melhorar a sua adaptabilidade a um espectro mais amplo de estilos de banda desenhada para alcançar o seu objetivo de compatibilidade universal. Provavelmente envolverá mais treino dos modelos de IA com um conjunto mais diversificado de bandas desenhadas, o refinamento dos algoritmos de análise de imagem e geração de áudio, e a implementação de estratégias para lidar com casos extremos e cenários excecionais.

Na vossa opinião, o que torna a ComicCast uma inovação verdadeiramente inclusiva? A ONCE já identificou melhorias na experiência cultural de pessoas com deficiência visual graças à ComicCast?
MJVG
: A ComicCast é verdadeiramente inclusiva porque não se limita a ler o texto; interpreta e traduz toda a riqueza de um meio visual numa experiência auditiva imersiva. Ao usar IA generativa para descrever cenas, diferenciar personagens com vozes distintas e adicionar efeitos sonoros, a aplicação preserva a “essência e a magia da banda desenhada”. É uma solução que vai além do acesso à informação, pois foca-se também no acesso à experiência artística e cultural, e está alinhada com a nossa visão de usar a tecnologia para um mundo mais acessível.
Cristian Sainz de Marlés (CSM): Quando a sociedade pensa nas dificuldades enfrentadas pelas pessoas cegas, pensa no acesso à informação, educação, mobilidade, etc.
Muitas destas questões foram resolvidas através de reabilitação e tecnologia acessível. Para uma inclusão real e completa, tudo o que está relacionado com o lazer e a cultura é também uma área essencial, porque nos permite interagir com o resto da sociedade. A ComicCast junta-se às soluções existentes para a literatura e o cinema, fechando assim um círculo ao tornar esta indústria mais visível para aqueles de nós que pensavam que já não podiam desfrutar do mundo da banda desenhada.
Quando perdi a visão aos 18 anos, as minhas principais preocupações estavam relacionadas com as necessidades mais básicas. Não me preocupava com o facto de não poder voltar a ler banda desenhada. No entanto, quando voltei para a escola e os meus colegas trocavam bandas desenhadas, notei que evitavam discutir o assunto na minha presença porque pensavam que isso me poderia magoar. Eu tinha assumido que essa parte da minha vida tinha ficado para trás, por isso, quando pude experimentar a ComicCast, senti uma grande emoção e disse em voz alta que fiquei com pele de galinha. Consegui trazer à memória as personagens que tinha visto na minha infância e adolescência e desenhar na minha mente tudo o que estava a acontecer em cada detalhe.

Qual foi a importância simbólica de usar “Mortadelo e Salaminho” como primeiro exemplo? 
MJVG: “Mortadelo e Salaminho” tem uma importância simbólica significativa como o primeiro exemplo usado no projeto ComicCast. Sendo uma das bandas desenhadas mais icónicas da história de Espanha, a sua seleção ressoa imediatamente junto de um vasto público, criando uma forte ligação emocional com o projeto. Esta escolha demonstra o potencial da ComicCast para dar vida a obras amadas e culturalmente reconhecidas de uma forma nova e imersiva.
O apoio de Nuria Ibáñez, a filha do criador da banda desenhada, aumenta ainda mais o valor simbólico desta escolha. O seu apoio não só confere legitimidade ao projeto, mas também adiciona uma camada de valor sentimental. Ao envolver um membro da família do criador original, a ComicCast presta homenagem ao legado de “Mortadelo e Salaminho”, enquanto sinaliza o seu compromisso em preservar e celebrar o património cultural da banda desenhada espanhola.

Esta aplicação móvel poderá ser usada no futuro com obras de outras culturas e línguas? 
VMNB: Sim, sem dúvida. A tecnologia subjacente, nomeadamente os modelos disponíveis no Amazon Bedrock, é multilingue e está em constante evolução. Embora o protótipo inicial tenha sido treinado e otimizado para uma obra espanhola, a arquitetura foi concebida para ser escalável. A expansão para outras línguas e culturas é um passo natural e tecnicamente viável, dependendo apenas do treino e ajuste dos modelos para os novos contextos.

Estão a planear parcerias com editoras para tornar mais títulos compatíveis com a aplicação?
MJVG: A ComicCast foi concebida para “converter” qualquer banda desenhada, com a esperança de que seja compatível com todas elas. Além disso, como não armazena qualquer informação e não tem qualquer intenção comercial, em princípio, não infringe quaisquer leis de direitos de autor, uma vez que o seu único propósito é tornar este tipo de conteúdo acessível à comunidade de pessoas cegas.
De qualquer forma, estamos a dar os primeiros passos neste projeto. A ComicCast é, por agora, um simples protótipo e, obviamente, precisaremos do apoio de todas as partes interessadas (stakeholders), incluindo as editoras, para alcançar o nosso objetivo: que qualquer pessoa cega, em qualquer parte do mundo, possa desfrutar de qualquer banda desenhada.

Como veem o futuro da IA generativa aplicada à cultura e ao entretenimento inclusivos?
VMNB: Vemos um futuro imensamente promissor. Projetos como a ComicCast estão apenas a começar. A IA generativa tem o potencial de quebrar inúmeras barreiras de acessibilidade, não só para conteúdo visual, mas também na criação de experiências interativas personalizadas para diferentes necessidades. Estamos a trabalhar para que a nossa tecnologia possa ser usada para tornar os museus mais acessíveis, traduzir eventos culturais em tempo real ou até mesmo criar formas de arte inclusivas. O nosso objetivo é continuar a ser o parceiro tecnológico que permite que criadores e organizações transformem estas visões em realidade.
CSM: O uso da visão por inteligência artificial está a melhorar a um ritmo tão rápido que se está a tornar uma ferramenta que as pessoas cegas estão a integrar no seu dia a dia em muitas atividades. A possibilidade de não só receber uma descrição geral do que as outras pessoas podem ver, mas também de fazer perguntas específicas, tem possibilidades praticamente infinitas. Nestes casos, é importante para nós que as respostas não sejam apenas de natureza geral, mas que sejam geradas de uma forma que também seja útil para pessoas que não conseguem ver.
Por exemplo, não basta apenas ler a data de validade de um produto; é preciso que nos ajude a saber onde encontrá-la ou que evite verbalizar todo o texto do produto e distinga diretamente que a informação que queremos saber é a data, o valor nutricional, etc., dependendo da nossa necessidade específica em cada caso.
O mesmo se aplica, por exemplo, à ementa de um restaurante – se eu puder perguntar diretamente sobre pratos específicos e evitar aqueles que não me interessam, a experiência é muito melhor do que ter alguém a ler-me a ementa, pedindo-lhe para voltar a ler certas partes, etc.




Notícias Relacionadas

Ver Mais