빅데이터와 인공지능_미래에셋증권
데이터 분석과 관련된 세부 카테고리를 대표하는 기업을 3개 산업군으로 나누어 소개한다.
데이터 산업의 40%를 차지하는 비즈니스 인텔리전스·애널리틱스 툴 영역인 데이터 분석,
2) 분석된 데이터를 관리 및 통합하는 작업과 관련된 소프트웨어인 데이터베이스,
3) 기업의 필수 역량이 된 분석과 성능 관리를 담당하는 데이터 모니터링으로 나누었다.
데이터는 정형 데이터와 비정형 데이터로 나뉜다. 정형 데이터란 미리 정해 놓은 형식과 구조에 따라 저장되는 데이터를 의미한다. 미리 정해 놓은 형식을 소프트웨어화한 것이 데이터베이스(DB)다. 데이터베이스의 형태에 따라 지정된 컬럼과 지정된 행렬에 데이터가 저장되는 경우 정형 데이터로 분류할 수 있다. 정형 데이터는 규칙에 따라 보존되어 있기 때문에 데이터 가공이 용이하다. 반면 정의된 구조 없이 정형화되어 있지 않은 데이터를 비정형 데이터라고 한다. 이 데이터는 각 이용자의 기기에서 발생하는 동영상 파일, 오디오 파일, 사진, 문서, 메일 본문 등이다. 이들 데이터는 기존 DB 형태에 맞지 않으며 인공지능이나 머신러닝 등으로 모델링하기 위해서는 전처리(preprocessing) 과정이 필요하다. 데이터 전처리란 데이터 분석에 앞서 데이터를 가공하여 정형 데이터 혹은 반정형 데이터로 변환하는 작업이다. 이때 인공지능은 필수적으로 사용된다. 따라서 비정형 데이터를 분석할 때 데이터 수집 단계부터 마지막 시각화 및 탐색 작업까지 모두 인공지능이 중요한 역할을 한다.대표적인 데이터의 전처리 사례로서 자연어 처리(Natural Language Processing, NLP) 기법이 있다. 텍스트 형태 데이터의 전처리인 '텍스트마이닝'을 위해 이 기법을 사용하는데, NLP는 사람이 쓰는 자연어를 인공지능으로 사람처럼 파악하고 추론하여 집단 상식을 가지고 어떤 대답을 할지를 결정하여 처리하는 방식을 말한다. 결국 데이터가 가치를 갖게 된 것은 인공지능(Artificial Intelligence) 덕분이다. 컴퓨터가 인간과 같은 학습능력과 추론능력을 갖게 되면서 쓸데없이 버려졌던 데이터가 가치를 갖게 된 것이다. 그래서 인공지능은 현 시점에서 가장 중요한 핵심 키워드다.실제로 인공지능은 빅데이터 영역에서 우리의 실생활에 적극 활용되고 있다. 따라서 향후 가공이 필요한 데이터의 빠른 수집이 필수 경쟁력이 되며, 인공지능 기술력을 기반으로 데이터 산업의 하위 카테고리인 데이터 관리, 분석, 모니터링 등의 고성장이 예상된다.
클라우드 인프라 기반이 되면 데이터 수집이 쉬워지는 분만이 아니라 손쉽게 인공지능을 이용한 고성능 분석 작업이 가능해진다. 이에 따라 과거 6개월에서 1년 이상 걸렸던 빅데이터 분석 작업은 불과 몇 시간 만에 끝날 수 있게 됐다. 이를 가능하게 하는 대표적인 기업은 스노우 플레이크(SNOW US), C3.AI US 등이다. 이들은 자 사서 솔루션을 기업의 ERP, CRM등에 연동하고 개발자들의 복잡한 고민을 헤교루함으로 기업의 일에 이터 활용 효율을 극대화하고 있다
데이터 분석 산업은 3개의 카테고리로 세분화되어 있다. 1) 비즈니스 인텔리전스 및 애널리틱스 툴(Business intelligence and analytics tools), 2) 분석된 데이터 관리 및 통합, 3) 분석 및 성능 관리로 나뉜다.우리가 흔히 알고 있는 알고리즘에 의한 데이터 분석과 이를 시각화하는 작업이 비즈니스 인텔리전스 및 분석 도구(BI)에 속한다. 전체 데이터 분석 시장에서 BI가 차지하는 비중은 40%다.
BI를 위해 필수불가결한 절차가 데이터를 관리 통합하는 기술이다. 실질적으로 많은 기업이 데이터관리 통합기술의 인프라가 부족해 빅데이터 분석기술을 마케팅에 적극 활용하지 못했다. 이러한 인프라를 단순화한 대표적인 기업이 데이터 웨어하우스 스노우 플레이크(SNOW US)이다
인공지능에 의한 빅데이터 분석을 위해서는 앞쪽에 정형 비정형 데이터 관리 통합 작업이 필요하기 때문에 해당 시장은 BI보다 높은 17%의 성장률을 기록했다.
산업 전망: 데이터 산업의 성장 밖에 없는 이유 3분의 1)Q의 무한한 성장기도래 데이터 산업Q의 고성장이 예상된다. 데이터 산업의 Q는 1)데이터량과 2)IoT디바이스로 분류할 수 있다. 우선 여기서 데이터란 컴퓨터가 생성 또는 처리하는 형태로 표시된 값을 의미한다. 컴퓨터 서버에서 발생하는 데이터는 서버의 고도화와 5G 통신의 발달, 클라우드 컴퓨팅 인프라의 확산으로 급증할 것으로 예상하고 있다. 또 다른 Q는 IoT 디바이스다. 최근 반도체 공급 문제가 발생하고 있는데, 이것은 모두 새로운 네트워크 시대에 대비한 디바이스의 증가에 의한 것이다. 고도의 반도체를 탑재한 IoT 디바이스가 늘어나면 자연스럽게 데이터도 증가할 수밖에 없다. IoT 디바이스 시장은 2025년에는 415.6억달러로 성장할 것으로 예상하고 있다. Non-IoT 디바이스 성장률의 3배의 성장률을 기록한다고 전망하고 있다.Q 증가에 따른 매출 증가:구매독 모델 덕분에 Q 증가를 기업의 외형 성장으로 직결시킬 수 있는 이유는 바로 이용량에 따라 비용을 청구하는 과금 방식 덕분이다. 구독 모델은 다양한 형태의 요금제가 존재한다. 크게 일곱 가지로 분류된다. 모든 제품, 기능에 단일 가격을 책정하는 고정가격정책(Flatrate pricing), 사용량만큼 요금을 과금하는 종량과금방식(Usage based pricing), 사용자당 가격모델(Peruser pricing), 기능별 가격부과방식(Perfeature pricing) 등이 있다. 이 중 데이터 분석의 경우 처리 데이터량 당 비용을 청구하거나 일정한 크레디트를 선불해 공제하거나 하는 형태의 비즈니스 모델도 존재한다. 이러한 비즈니스 모델에 의해서 기업이 「판매 확장 정책」으로 매출 성장률을 유지할 수 있다. 여전히 연간 단위로 기업 규모에 따라 계약을 체결하는 경우도 있다. 그러나 대부분은 구독형으로 바꾸는 절차를 진행하고 있다.이렇게 해서 발생하는 데이터를 저장하는 공간을 '데이터베이스'라고 한다. 여러 사람이 공유하고 사용하기 위해 데이터를 통합하여 관리하는 데이터 컬렉션이다. 이 플랫폼에서는 데이터를 잘 정리하는 것이 중요하다. 데이터 분석 작업 때문이다. 유통업에 대해 물류 시스템을 적용하기 위해 재고를 정리하는 것과 같은 개념이다. 스토리지에 저장하는 데이터를 관리하는 시스템을 DBMS(Database Management System)라고 한다. DMBS는 DB 관리를 위해 필요한 데이터의 추가, 변경, 삭제, 검색 등의 기능을 수행하는 소프트웨어이다. DBMS는 계속 진화하고 있다. 지금까지 인프라는, 관계형(relational) DBMS(RDBMS)를 중심으로 구축되어 왔다. RDBMS는 1980년대 오라클 등에 의해 등장했으며 1980년대 SQL(Structured Query Language)이 RDBMS의 표준언어로 채택됐다. 이 RDBMS 로 처리되는 데이터 형태가 보통의 정형 데이터이다. 그리고 최근 처리해야 할 데이터량이 급증하면서 RDBMS의 단점을 보완하는 새로운 방식의 DBMS가 등장하고 있다. 이를 표준인 SQL 이외의 방식이라는 의미로 NoSQL이라 부른다.
데이터모니터링이란IT시스템의상태나상황을지속적으로감시하고관찰하여예기치못한상황과오류를대비하여극복하는솔루션,






