AI 잡담 ...
요새 계속해서 핫한 AI에 관한 잡담입니다.
그래픽 카드 사고 빡세게 파보려고 했는데 개인 PC에서 돌릴 수 있는 AI 성능이 생각보다 꽤 올라와서 일단 깔짝대고 있습니다.
뭐 회원이 적어 보시는 분들은 거의 없지만 dim7회원들 시대에 뒤쳐지지 마시라고 AI동향 파악 겸 잡담 적어봅니다.
음악하는 사람들 AI 쓸 일 겁나 많으니까요.
AI관련해서 나오는 정보들이 개발자들만 알아 듣는 단어도 많고 해서 가급적 전문용어는 적게 사용해서 적어보겠습니다.
우리가 접하는 AI는 여러 종류가 있는데 언어를 주고 받는 모델, 이미지 관련 모델, 오디오 관련 모델 등이 있습니다.
언어를 통해 텍스트를 인식하고 생성하는 AI모델을 LLM(대형 언어 모델)이라고 합니다.
언어뿐만 아니라 이미지, 오디오 등도 학습한 모델은 LMM(대형 멀티모달 모델)이라고 합니다.
AI 이용 체험 ...
일단 AI 사용 체험은 다들 해보셨을 거 같지만 혹시라도 안해본 분들은 간단하게 체험해보시길 바랍니다.
[ 텍스트를 주고 받는 모델]
★ https://chat.openai.com/
★ https://claude.ai/chats
Edge브라우저의 copilot
현재 가장 유명하게 많이 쓰이는 놈들은 ChatGPT와 Claude3가 있습니다.
두 사이트 모두 구글 계정으로 가입가능하고 그냥 대화를 시작하면 됩니다.
ChatGPT는 유료 회원에게 더 성능이 좋은 모델을 쓸 수 있게 해주고 있고, claude는 성능은 좋은데 사용량 제한이 빡셉니다.
이런 모델들을 직접 돌리려면 엄청나게 좋은 사양의 하드웨어가 필요하고, 미세 조정도 해야합니다. 그래서 그냥 유료 회원이 되는 것도 좋습니다.
텍스트 주고 받는 모델들은 가사도 잘 만들어 줍니다.
[ 이미지 관련 모델 ]
★ https://wrtn.ai/
★ https://playgroundai.com/pricing
★ https://app.leonardo.ai/
https://www.canva.com/ko_kr/ai-image-generator/
이미지 생성 사이트도 많이 생겨나고 있습니다. 어렵지 않게 찾을 수 있습니다.
[ 오디오 관련 모델 ]
★ https://suno.com/
★ https://www.udio.com/
https://creators.aiva.ai/
https://soundful.com/
https://soundraw.io
오디오 쪽은 음악을 생성하는 사이트만 몇 개 적었습니다.
이거 말고도 엄청나게 많이 생겨나고 있습니다.
사이트마다 저작권 허용 범위가 다르기 때문에 상업적 이용시 주의해야 합니다.
구독취소 후 기존 음악의 상업적 이용권한이 사라지는 곳도 있습니다.
제가 써 본 곳 중에서 퀄리티는 현재 udio가 압도적으로 좋습니다.
그 밖의 기능을 가진 모델들도 있습니다. 오디오 파일에서 Instrumental, Acapella를 분리할 수도, 악기별로 분리할 수도 있습니다. (현재는 드럼, 베이스, 보컬, 나머지 이런식이지만 추후에 악기별 분리도 훨씬 세밀하게 가능할 것임)
자동으로 마스터링 할 수도 있습니다.
내 컴퓨터(로컬)에서 AI 구동 하기...
로컬 AI 구동이 필요한 사람(기업)
AI를 활용할 수 있는 사이트를 이용하면 편리합니다.
그런데 개인정보 유출이 걱정되는 분들도 있고, 고급 자료를 AI가 학습하길 원하지 않는 기업들도 있습니다.
아니면 그냥 하드웨어 사양이 좋아서 개인적으로 튜닝한 AI를 갖고 싶은 사람도 있고,
구독 비용이 바뀌거나 약관이 바뀌어 귀찮은 일이 벌어지는 걸 싫어하는 사람도 있습니다.
이런 사람(기업)들은 자신의 컴퓨터나 서버에서 AI를 구동시키고 싶어합니다.
추후에(혹은 이미) 음악 제작사들도 자체적으로 튜닝, 학습한 모델을 이용할 확률이 높다고 생각합니다.
AI 모델 만들기
AI를 직접 만드는 것은 보통 사람이나 기업에서는 할 짓이 못됩니다.
실력도 문제지만 엄청나게 많은 CPU, RAM, GPU 자원이 필요합니다.
그래서 거대 IT회사에서 만든 오픈소스 모델을 기반으로 고쳐서 사용합니다.
오픈 소스는 쉽게 말해 '소스 공개할테니 니들이 알아서 고쳐써라'라는 취지의 공개 소스입니다.
오픈 소스 모델은 수십, 수백개의 모델이 있지만 핫한 LLM 모델 몇 개 알려드리자면 구글의 gemma, MS의 phi, wizardlm2, 메타의 llama2, 3가 있습니다.
이 모델들은 지금도 열심히 개발되고 배포되고 있습니다. 그리고 빠른 속도로 발전하고 있습니다.
이런 모델들은 대부분 한국어를 제대로 인식하지 못했는데 가장 최근에 발표된 llama3는 한국어 튜닝을 하지 않아도 한국어를 꽤 잘 인식하고 번역합니다.
빠른 시일내에 한국어 튜닝 모델 나오면 훨씬 더 좋아질 겁니다.
이런 모델을 공유하는 사이트는 https://huggingface.co/ 입니다. 허깅페이스에 올라온 튜닝 모델들을 다운로드 받으면 내 컴퓨터에서도 AI를 구동할 수 있습니다. 참고로, 허깅 페이스에 투자한 회사들은 '구글, 엔비디아, 아마존, AMD, 인텔, IBM, 퀄컴, 세일즈포스 등'입니다. 지금 주식사는 많이 늦었...
로컬 AI 구동하는 법(개념만 알고 패스해도 됩니다.)
로컬로 AI를 구동하는 법은 여러가지가 있습니다. (컴덕 아니면 굳이 해보실 필요는 없는데 저는 요즘 여기에 빠져있습니다.)
초창기에는 직접 개발언어를 사용해서 구동했으나 현재는 개발자가 아니어도 쉽게 구동할 수 있는 소프트웨어들이 나와 있습니다.
개념만 알려드리자면 ollama라는 소프트웨어를 OS에서 구동하고 필요한 모델들을 다운로드 받으면 AI서버를 시작할 수 있습니다.
이 서버에 대화를 주고받기위해서는 Python같은 개발언어를 쓰거나 Curl같은 통신 프로토콜 명령어를 쓰거나 ollama webUI(open-webui로 이름 바뀜)를 이용해서 대화를 주고 받으면 됩니다. 그치만 안타깝게도 ollama WebUI가 아직 윈도우를 지원하지 않습니다.(도커로 구동시킬 순 있습니다.) 그래서 저는 ollama 서버는 그래픽카드 있는 PC에서, ollama webUI는 우분투깔려있는 미니PC에서 구동합니다.
Open WebUI(구 ollama-webui)는 요렇게 생겼습니다.
로컬 AI 전망
하드웨어 사양이 좋아지고, 오픈 소스 모델이 빠른 속도로 발전하기 때문에 로컬로 AI를 구동하는 비율은 점점 더 올라갈거라 예상합니다.
제가 현재 많이 사용하고 있는 모델(llama3 7b, wizardlm2 7b, EEVE-Korean-Instruct-10.8B-v1.0-GGUF 대부분 약 4~6GB정도)은 GTX1070에서도 별 불편함 없이 쓰고 있습니다.
추후에 시스템 메모리(현재 32GB)와 그래픽카드를 업그레이드하면 더 용량이 큰 모델을 쓸 수 있습니다.
고수분들은 자신이 원하는 내용을 추가로 학습시키거나 원하는 방향으로 튜닝해서 쓸 겁니다.
그렇게 자신만의 모델을 만들고 사고팔고 훔치고 그러겠죠.ㅋㅋ
suno, udio와 유사한 모델도 아마 오픈 소스로 등장하거나 불법으로 공유되거나 그럴거라 예상합니다.
그리고 현재는 개발자가 아니면 힘든 모델 학습, 미세조정도 쉬워질 거라 생각합니다.
로컬 AI 붐은 이미 시작됐고 추후에 OS에 포함되어 누구나 쉽게 사용할 수 있을 겁니다.
제가 생각하는 AI 관련 창작자들의 전망...
순수 창작 비율의 축소
요즘은 곡을 만들 때 사용하는 DAW, 가상악기, 이펙터에도 AI를 활용한 기능들이 추가되고 있습니다.
원하는 드럼 소스를 쉽게 고르거나 원하는 신스 소리를 만드는 기술들이 나오고 있습니다.
더 빠른 속도로 발전하는 건 그냥 한방에 만드는 기술들입니다.
지금도 claude로 가사 만들고, udio에 가사 넣고 곡만들기 하면 곡을 금방 만들 수 있습니다.(수정이 오래 걸릴 수도 있지만)
완성된 곡에서 소스를 분리해 다시 편곡하거나 악기를 다시 레코딩하면 저작권 이슈도 피해갈 수 있습니다.
믹싱, 마스터링도 어느 정도 AI로 해결할 수 있을 거라 생각합니다.
따라서, 창작 영역에서 작곡가, 편곡가, 작사가, 엔지니어, 연주자 들이 하는 역할은 꽤 많은 부분을 AI로 대체 가능합니다.
다만, AI가 생성한 것을 원하는 수준까지 편집하고 수정하는 역할은 어느 정도 기간동안 필요할 겁니다.
순수 창작의 비율은 줄고, 수정-편집의 비율이 늘어날 것 같습니다.
기술자(저작권자, 엔지니어, 연주자)의 역할은 줄고 프로듀서(기획자, 결정권자)의 역할이 더 늘어날 것 같습니다.
퀄리티있는 생산보다 마케팅 싸움이 치열해질 것 같습니다.(자본가에게 유리)
공연은 사람이 하겠지만 굳이 비주얼이 필요하다면 홀로그램이나 안드로이드로 대체할 수도 있겠죠.(사람들이 좋아할지는 모르겠지만)
몇 년이 걸릴지 모르겠지만 음악뿐만 아니라 다른 분야도 미래에는 IT회사들이 제작사 영역까지 확장할거 같습니다.
창작자의 대처 방법
그래서 어떻게 대처해야하나? 그건 저도 모르겠습니다. 얼마나 빠르게 바뀔지도 모르구요.
확실한 건 제가 가진 음악이론, 편곡법, 멜로디작법, 믹싱, 마스터링 등의 기술은 중요도가 떨어지고 있다는 사실입니다.
종이에 음표 적어서 작곡하는 분들이 줄어든 것처럼 DAW로 작곡하는 사람들도 줄어들겠죠.
프로듀서 역량은 중요해질 것 같습니다. 그래서 요즘은 기획자 한명, 가수 한명 영입해서 대량생산이나 해볼까하는 생각도 듭니다.
Udio가 한국말로도 곧잘 불러주긴하는데 SM곡 위주로 학습했나봐요. R&B곡 만들어 달랬더니 백현 목소리 많이 나오네요.ㅋㅋ
저도 이 시장이 도데체 어떻게 변할지 상상이 되질 않네요...