#2- AI 학습 데이터 서비스로 돈을 어떻게 벌까?

들어가며
워런 버핏은 어떤 산업의 톨게이트(지나가기 위해 반드시 돈을 내야하는...) 사업을 선호한다고 하듯 새로운 산업이 엄청나게 성장할 때에 그 산업의 톨게이트 사업이 무엇일까 생각해보게 됩니다. 오래 전부터 저는 인공지능 산업에서 할 수 있는 사업을 생각해볼 때, 인공지능 학습 데이터를 확보하는 것이 워런 버핏이 말한'톨게이트 사업' 에 해당하겠다 생각했었습니다. 지금까지 추상적으로 품었던 생각을 이 글을 통해 수익을 낼 수 있는 톨게이트 사업인지 돈 버는 구조를 살펴보려 합니다.
🚀한국의 AI 학습 데이터 회사
어떠한 시장에 대한 관심도와 규모, 변화해온 방향성, 서비스마다 생존하기 위해 택한 차별화 전략 등을 빠르게 파악하기 위해서는 시장의 주요 플레이어들을 살펴보면 됩니다. 한국에서 AI 학습 데이터 사업을 하는, 투자나 매출 규모에서 상위 7개인 회사를 아래 표 2개로 요약 정리해보았습니다.


7개의 회사를 비교 정리하며 이 업계 플레이어들에게서 발견할 수 있었던 특징을 세 가지로 정리해보았습니다.
- 2015년~2017년 사이의 설립연도: 2010년대부터 휴머노이드 로봇, 자율주행 등을 통해 인공지능에 대한 키워드가 대중 속으로 들어오기 시작하여 2016년 3월에 있었던 이세돌 vs 알파고 대국이 인공지능에 대한 관심을 정점으로 올려두었습니다. 이러한 트렌드를 빠르게 사업 기회로 포착한 창업가들이 비슷한 시기에 학습 데이터 구축 사업을 시작한 것으로 보입니다. 역시 같은 시대를 살아가면서도 그 안에서 기회를 발견하는 창조적인 사람들이 있기 마련입니다.
- 자동화와 품질 사이의 줄다리기: 데이터 구축 단계 중에서 데이터 수집, 라벨링, 검수와 같은 주요 작업에 '인간' 지능은 여전히 높은 비중을 차지합니다. 그래서 회사마다 좋은 AI 엔지니어를 채용하여 데이터 라벨링과 주석 작업(어노테이션)을 정확도 높게 자동화하는 인공지능을 개발하고 있고 이러한 경쟁력은 인건비를 효율적으로 감소시키고 데이터 품질을 높여 데이터 수요층을 더 만족시키는 선순환 사이클을 만들게 됩니다. 아직은 자동화와 수작업이 뒤섞여 있어 수작업 인력과 자동화 연구개발 인력을 동시에 채용하기 때문에 기업들이 상대적으로 높은 인건비 비중을 가져가고 있습니다.
- 상대적으로 작은 투자 규모: 최근 많은 주목을 받고 있는 생성형 AI 스타트업들이나 큼직한 인공지능 회사들의 투자 유치 소식과 비교해볼 때, 5~8년의 업력을 가진 학습 데이터 회사들의 투자 유치 규모는 작은 편입니다. 서두에서 이야기한 '게이트웨이' 사업임을 감안했을 때 상대적으로 작은 투자 규모, 매출 규모는 저에게 꽤나 눈에 띄는 정보였습니다. 이유를 생각해보면, 정부 주도의 B2G 형태가 주요 사업 구조라는 점과, 최종적으로 생산된 데이터 결과물의 권한이 데이터 구축 회사들에게 속하지 않아 일회성 매출로 그치는 점들이 상대적으로 작은 규모의 기대감을 형성했다고 추측합니다.
💸시장을 견인하는 수요
인공지능 학습 데이터 구축 사업은 인공지능 산업의 근간 서비스이자, 시장 형성 초기에 필요한 사업에 해당하여 정부와 같은 시장 형성 주체들의 투자를 필요로 합니다. 아직까지는 정부 주도의 수요가 눈에 띄고 민간과 기업의 데이터 수요는 물밑에서 점점 더 커지고 있을 거라 짐작합니다. 현재의 AI 학습 데이터 사업 수요를 아래와 같이 나누어볼 수 있겠습니다.
- 국가 주도의 B2G 용역 : 국가 사업 중 가장 큰 규모는 과기부 주도의 인공지능 학습용 데이터 구축 지원사업입니다. 2023년에 총 2,188억원의 예산이 투입되며, 2022년 5,382억원, 2021년 2,925억원이 투입되었습니다. 2023년 지정공모 분야에서 예산이 가장 크게 잡힌 분야로는 관절 및 관절염 데이터(51억원), 동화 데이터(45억원), 라이브 스트리밍 영상 통번역 데이터(42억원)가 있습니다. 특히 의료나 콘텐츠 영역이 꽤나 다양하고 많은 수를 차지해서 정부에서 밀어주는 인공지능 섹터가 어디인지 알 수 있었습니다. 이외에도 서울시, 대전시 등 지방자치단체와 공공 연구기관(정보통신산업진흥원, 한국전자통신연구원)에서도 필요한 데이터 구축 사업들을 공시하고 있습니다.
- 국가 R&D 연구용역 : 국가 R&D 통합공고 사이트 에 올라온 사업들을 살펴보면 인공지능 데이터 분야에서 컨설팅, 설계연구, 가이드라인 마련과 같은 종류의 용역이 많습니다. 이러한 용역은 사업비 1억원 내외로 작은 규모이며, 수량은 많지만 분야가 다양하면서도 좁고 깊은 전문성을 요구하기 때문에 회사 입장에서 집중할만한 수요층은 아니라고 생각합니다.
- 기업 B2B 용역 : 기업의 B2B 용역은 웹 리서치로는 명쾌한 자료가 나오지는 않았습니다. 위의 7개 회사 중 감사보고서가 공시되어 있는 몇 개 회사의 보고서 주석을 통해 유추해보면, 몇몇 대기업의 특수 데이터 용역은 규모가 클 경우 1건의 용역으로도 연간 2~30억원의 매출을 발생시키는 것으로 추측됩니다. 개인적으로기업들의 특수 영역(의료, 물류, 자율주행 등) 데이터 수요가 앞으로 전체 매출의 가장 큰 비중을 차지하지 않을까 생각합니다.
🔮미래를 위한 전략 3가지
여기까지 살펴보니, 내가 당장 AI 학습 데이터 회사의 대표라면 생존과 성장을 위해 어떠한 전략을 취해야할까 라는 재밌는 상상을 해보게 되었습니다. 다음과 같은 3가지 핵심 방향성으로 제 생각을 정리해보았습니다.
(1) 용역이 아닌 데이터 판매
데이터가 금이라는 말이 있듯이, 좋은 데이터는 지적재산권(IP)으로써의 가치를 가지기 때문에 구축된 데이터를 누가 소유하느냐의 문제는 중요합니다. 처음부터 모든 데이터의 주도권을 가져오기는 힘들 것입니다. 하지만, 단순 용역을 통해 확보한 현금을 꾸준히 회사에 재투자 해서 선제적으로 데이터 수요가 증가할 것 같은 분야의 데이터를 구축해두고 다수의 데이터 수요층에 데이터를 판매하는 형태의 매출 비중을 늘려나가는 것이 중요한 경쟁력이 될 것입니다.
(2) 해자가 있는 특수 영역의 데이터 구축
현재 정부 사업 공고나 회사의 큰 매출처를 살펴보면 자율주행, 의료 분야를 쉽게 찾을 수 있습니다. 이렇게 산업 별로, 인공지능을 활용해서 시장이 더 커지는 경우도 있고, 인공지능을 도입하면 아직 배보다 배꼽이 더 큰 경우도 분명 있을 것입니다. 이러한 현상을, 데이터 사업체 입장에서 본다면 인공지능 활용도가 앞으로 매우 높아질 것 같은 분야 순서대로 공략해서 해당 분야 전문으로 데이터를 쌓아나가는 것이 중요할 것입니다. 순도 높은 고품질 데이터를 필요로 하는 분야는 당장에 자율주행, 산업용 로보틱스, 스마트시티, 유통, 국방 영역을 생각해볼 수 있습니다. 주요 영역들만 집중 공략해서 좋은 평판을 얻는다면 깊은 해자를 가진 사업을 만들 수 있을 것입니다.
(3) 데이터 구축 '다음' 단계의 서비스
아직 이 영역에서는 ‘양적’ 팽창이 시급한 이슈이고 적어도 2025년까지는 데이터 양을 늘리는 게 주력이 될 것 같습니다. 하지만 양적팽창과 동시에 다음 단계로 준비해야할 것은, ML Ops(머신러닝 오퍼레이션)와 데이터 SaaS 같은 데이터 '관리' 서비스로 업그레이드하는 것입니다. 사람도 똑똑해지기 위해 평생 학습을 하듯 인공지능도 시간에 따라 업데이트된 데이터를 학습해야 합니다. 그리고 존재하는 데이터 안에서 최대한의 효율로 인공지능에 쓰일 수 있게끔 관리해주는 것이 필요해집니다. 그래서 인공지능 학습 데이터 회사들이 이미 확보해둔 고객층을 동일하게 타겟팅하면서 추가적인 매출을 낼 수 있도록, ML Ops와 데이터 SaaS 서비스를 준비해 장기적으로 플랫폼으로 진화할 필요가 있습니다.
나가며
최근 인공지능이 큰 관심을 받으면서 밸류체인 상의 회사들이 모두 큰 규모의 산업을 이루었을 거라 예상했었습니다. 조금 더 자세히 들여다보니 인공지능을 활용한 최종 제품 단계(소비자가 직접 사용하는 application 레벨)에 대한 기대감은 높지만, 전반적인 인공지능 수준을 높이는 데 필요한 밸류체인 앞 단의 사업들은 상대적으로 정직한 가치 평가를 받고 있었습니다. 그리고 '교육은 백년지대계' 라는 말처럼 좋은 인공지능을 만드는 데 기여한 좋은 데이터가 진가를 발휘하기까지는 꽤나 오랜 시간이 필요하겠다는 생각도 들었습니다. 인공지능이 미래를 가장 크게 변화시킬 기술이라고 믿고, 순도높은 데이터를 차곡차곡 쌓아나가며 수익을 내는 모습에 만족할 수 있으며, 궁극적으로 인류에 긍정적인 영향력을 미치는 것이 미션인 사업가에게는 분명 매력적인 사업 모델이라 생각합니다.