북트레일러 영상을 전적으로 AI에게 맡길 수는 없는 걸까?

세상이 좋아지다 보니 AI영상물도 많이 쏟아지고 있다. 문제는 앞으로 나의 결과물이 어떤 일정 수준 이상으로 만들어질 수 있느냐, 없느냐다.

유감스럽게도 글은 모르겠는데, 영상 생성은 정말 힘들다.

AI 슬롭이 되고 싶지 않아

요즘 유튜브를 비롯해 많은 영상 플랫폼들이 AI영상물로 홍역을 앓는 중이다.

기승전결도 딱히 없고, 물리법칙이나 상식을 가뿐히 거스르는 말도 되지 않는 영상들이 만들어지고 있으니 말이다.

문제는 짧은 숏폼 콘텐츠에 이게 기가 막히게 잘 맞아 떨어지고 있다는 거다.

image to video라고 해서 구글의 veo3의 경우에는 스틸컷만 넣어주고 별다른 설명이 없어도 대충 5~8초가량 스틸컷이 움짤처럼 화면에서 움직일 있도록 만들어준다. 게다가 효과음이나 배경음도 AI가 적절하게 믹스해주니 딱히 일이 어렵지 않다.

문제는 그렇게 탄생하는 숏클립의 완성도다.

괜히 AI슬롭이라고 불리겠는가? 10초미만 한 컷은 좀 덜할지 몰라도 20초를 넘기려면 최소 3컷 정도가 필요한데, 이때부터 일관성 유지도 어렵고 자연 생성되는 영상들은 슬슬 인간의 제어를 벗어나기 시작한다.

그렇게 물리법칙과 상식을 거스르는 녀석이 갑자기 튀어나오는 거다.

그런데 과연 내가 이런 영상을 만들고 싶은 걸까? 절대 그건 아니다.

표면 비용에 속다

내가 영상을 만든다면, 그건 어디까지나 1분 정도의 북트레일러 영상이다. 실제로 영상 마무리쯤에 도서와 제목 등을 넣는 구간을 빼면 길어도 4~50초가량의 영상을 만들기 위해서 사용하는 거다.

이전에는 내가 그런 영상을 직접 찍거나 유료, 혹은 무료의 영상 클립들 중 적당한 것을 찾아내어 연결시켰었다.

문제는 그런 스톡이미지나 영상클립을 제공하는 업체의 단가가 미친 듯이 올라버렸다는 것이고, 얼핏 보니 그 가격보단 AI가 더 저렴해 보였던 게 사실이다. 많이 만들어봤자 달에 1편 정도였으니 돈을 비싸게 들일 필요는 없다고 생각했던 거다.

무엇보다 북트레일러는 없으면 허전하지만, 있다고 해서 그것 때문에 구매욕구가 펌핑되는 무엇은 아니기 때문에...

그렇지만, 막상 뚜껑을 열어보니 실망이 이만저만이 아니다.

표면적인 가격에 속았다는 생각만 든다.

AI는 결코 인간의 요구대로 쉽게 영상을 생성해주지 않았던 거다. 표면 단가는 더 저렴했을지 몰라도 내 노동력의 매몰비용은 훨씬 더 엄청났다.

태생적 한계

최근의 AI모델들이 대단하다는 평을 듣는 건 인간이 크게 요구하지 않아도 제법 그럴싸해 보이는 걸 생성하기 시작했기 때문이다.

자연어로 ‘합성해줘’ ‘생성해줘’ ‘이거 대신 저걸 넣어줘’ ‘교체해줘’

등의 말만해도 스틸컷은 아주 굉장히 높은 수준으로 생성해내기 시작했다. 그럼, 영상은 어떨까?

당장 시네마틱한 실사의 영상물부터 다양한 애니메이션 스타일까지 커버가 된다. 게다가 앞서도 말했지만, 알아서 효과음까지 삽입해주니 정말 대박이라면, 대박이다.

문제는 어디까지나 디테일에 있다. 유감스럽게도 디테일이 떨어진다.

부분 수정이 어렵고, 자신들의 내부 명령이 우선적이다. 기계는 기계란 소리다.

장문의 프롬프트도 소용없다.

그렇다면, 요즘 장문의 프롬프트는 어떨까? 몇몇의 사람들이 프롬프트 이렇게 쓰는 거라며 초장문의 프롬프트를 보여주고 유료 강의도 하는 세상이지 않은가?

그래서 나도 도전을 해봤다. 그런데 이 도전 자체의 벽이 높았다.

우선 난 영상 생성을 위해 제미나이 프로 플랜을 썼는데, 이건 꼴랑 하루에 3클립 생성이 가능하다. 당장 제미나이를 통해 이것보다 비싼 플랜을 써도 하루 5클립이라고 한다.

여기서부터 뭔가 좀 이상하다.

3클립? 5클립? 그런 거로 제대로 된 영상클립을 생성할 수 있나? 스틸컷만 해도 제대로 된 결과물을 얻고 싶을 땐 무수히 많은 재수정이 필요한데?

역시나 3클립으로는 어림도 없었다.

그러니 어쩌겠는가? 더욱 가열차게 AI들을 갈궈서 프롬프트를 뽑아봤지만, 역시나 소용없었다.

프롬프트가 정교해질수록 생성물은 최초 생성물의 자연스러움에서 멀어졌다. 통제가 강해지면 강해질수록 본연의 개성을 잃어버리는 셈이다.

그래서 잘된 점을 유지하고 싶어도 유지가 되지 않았고, 잘못된 점을 바로 잡으려고 하면 다른 문제점이 튀어나왔다.

프롬프트를 통해 통제권을 확보한다는 것도 한계가 있었다는 소리다.

현질로 가챠를 태우다.

그래서 알아보게 되는 게 결국 다시 현질이었다. 당장 토큰을 무한히 질러 더 많은 클립을 생성할 수 있는 AI모델들이 있는지, 있다면, 어떤 녀석이 제어가 쉬운지,

배보다 배꼽이 점점 더 커지기 시작했는데, 당장 일은 마무리가 되어야 하니 어쩔 수가 없었다.

아, 또 꽝이군.

그렇다고 막상 현질을 해서 단박에 해결이 나는 것도 아니었다. 여전히 공부가 부족한 상태에서는 쓰면서 익혀나가야 하는 법인데, 자꾸 삽질만 번복하게 된다.

정말 현질로 뽑기 가챠를 태우는 것과 다를 게 뭔가 하는 생각이 들었다.

터무니없음의 연속.

대체 얼마나 터무니없게 해서 그런지 이해가 되지 않을 분들을 위해 여기 이미지 한 장을 보여드리겠다.

이미지는 잘 익은 스테이크다. 포크로 찍어서 먹으려 하지만, 아무 맛도 느껴지지 않아 망설이다 말고 먹는 게 최종목표였다.

난 원활한 영상생성을 위해 우선 제미나이와 gpt를 써서 둘 중 더 그럴싸하게 그린 녀석을 찾았고, 제미나이가 우선 당첨이 되었다. 녀석은 내게 1:1 비율의 이미지를 생성해줬다.

난 16:9 비율로 이 이미지를 화면에 담아서 생성할 것을 요구했지만 무시당했다. 그렇게 처음에는 당장 비율 때문에 하루를 날렸다. 하루에 3클립 밖에 생성을 못했으니 말이다.

다음날은 우선 다시 이미지를 16:9로 새롭게 생성했고, 그걸 주니 이번에는 정상 비율로 생성은 해줬다. 문제는 포크에 찍힌 스테이크를 들더니 포크를 집어던졌다는 거다. 그리고 그 문제의 왼손을 오른손처럼 뒤집어 보였다. 하하하하.

다음날 다시 시도하니 이번에는 포크는 가만히 있고, 나이프로 스테이크를 화면 밖으로 멀리 치워버렸다. 다시 프롬프트를 교정하고 생성하니 이번에는 정상적으로 화면이 이어지나 싶더니 갑자기 접시 안에서 포크 하나가 새로 튀어나왔다.

또 다음날, 이번에는 일부러 프롬프트를 짜지 않고 이미지만 넣고 생성해 달라고 해봤다. 그러자 맞은편에서 없던 입이 튀어나와서 스테이크를 먹어치웠다.

그래서 난 당장 크레딧을 지급해준다는 (솔직히 이걸 무료로 준 건지, 예전에 쓰던 계정이라서 남아있던 건지는 잘 모르겠다;;;) Runway를 열었고,

다시 시도를 했는데, 여전히 바보같은 짓을 되풀이 하다가 크레딧을 다 소진해버리고 말았다. (이쯤에서 Luma Dream Machine이나 Kling을 언급하는 이들도 있겠지만, 그럼, 그것들은 돈 먹는 하마가 아니라고 말할 수 있나??)

일주일 동안 결과물을 만들지도 못하고 혼자 삽질을 했단 생각에 부아가 치밀어 올랐다.

어정쩡한 가성비

그렇다고 해서 해결책이 전혀 없는 건 아니다.

난 위 과정을 거치는 동안 본능적으로(?) 몇 가지 해결책을 스스로 고안해낼 수 있었다.

먼저 동작 주체는 한 컷 안에 오직 하나만 둔다.
둘 이상이 된다면, 레이어를 분리한다 생각하고 별개로 각각 생성한다.
이때 정확히 원하는 부분 외에는 초록색 바탕으로 둔다.
그렇게 프리미어 프로 등의 편집 프로그램에서 레이어와 레이어를 겹친 후 초록색을 없앤다.

문제는 이렇게까지 할 거면, 굳이 미완의 결과물을 뱉는 AI를 쓰는 게 맞나? 라는 거다.

빠르고 제법 그럴싸한 결과물 생성을 위해 AI를 쓰는 건데, 인간이 손수 크로마키 누끼를 딴다?? 이상해도 많이 이상하다.

그렇게 어정쩡한 가성비 앞에서 또 한 번 멘탈이 흔들렸다.

잘 생성해준다는 것과 일관된 완성도를 보장받는 것

혹자들은 그래도 잘 뽑아준다거나 프롬프트를 잘 쓰면 된다고들 하는데,

내 기준에서는 그렇게 탄생한 영상물이 결코 깔끔하지가 않다.

조금씩 어색한 부분이 있고, 물리법칙을 거스르거나 어딘가 비상식적인 부분을 보여줄 때가 있다.

이게 단순히 짧은 숏폼으로 소비될 거라면 문제가 되지 않지만, 일정한 톤을 유지해서 소비자에게 기대하는 정서적인 뭔가를 던지려는 사람에게는 많이 부족한 면이 있다.

배경음악과 효과음도 자동으로 깔아준다고 앞서 말을 했는데, 이것부터 사실 난 만족도가 크게 떨어진다. 1번 클립과 2번 클립의 배경음이 다르면, 효과음이 잘 들어갔어도 대체 그게 무슨 소용이겠는가?

물론, 이런 부분들은 배경음을 지워달라는 프롬프트를 쓸 수도 있고, AI모델 별로 차이가 있는 부분이긴 해도 모든 모델이 공통적으로 내게 전한 메시지는 명확하다.

그건 각 AI모델의 기본적인 생성 능력에 기대었을 때, 얻을 수 있는 장점만큼 단점도 포함되고 있다는 거다.

어쨌든, 어떤 모델을 쓰든, 아직까지는 - 일관성을 보장받기란 여러모로 힘든 부분이 있다.

당장에는 이전 방식대로

그래서 당장에는 스틸컷을 활용해 이전처럼 영상을 만들기로 했다 내 예상보다 이미 이틀이나 밀린 작업이다. 한숨만 나오지만 어쩌겠는가?

이렇게라도 시대를 따라가는 중이다...