빅데이터 – 이미 이것으로 모든 것이 스며들고 있다

— 업데이트됨:
빅데이터 – 이미 이것으로 모든 것이 스며들고 있다
사진: Supawat Kaydeesud | Dreamstime
Editorial
Promdevelop editorial team

“빅 데이터”라는 용어는 문자 그대로 모든 매체에 저장된 엄청난 양의 정보를 의미합니다.

게다가 이 볼륨은 너무 커서 일반적인 소프트웨어나 하드웨어를 사용하여 처리하는 것이 비현실적이며 경우에 따라 완전히 불가능합니다.

빅데이터는 데이터 그 자체일 뿐만 아니라 데이터를 처리하고 활용하는 기술, 필요한 정보를 대용량 배열로 찾는 방법입니다. 빅 데이터의 문제는 수십 년 동안 다양한 정보를 축적해 온 모든 시스템에 여전히 열려 있고 필수적입니다.

이 용어는 “볼륨, 속도, 다양성”이라는 표현과 관련이 있습니다. 이는 빅 데이터 작업의 기본 원칙입니다. 바로 정보의 양, 처리 속도 및 어레이에 저장된 다양한 정보입니다. 최근에는 가치라는 세 가지 기본 원칙에 하나의 원칙이 추가되었습니다. 이는 정보의 가치를 의미합니다. 즉, 저장 및 처리 비용을 정당화할 수 있는 이론적 또는 실제적 측면에서 유용하고 필요해야 합니다.

빅 데이터 소스

소셜 네트워크는 빅 데이터의 일반적인 소스의 한 예입니다. 각 프로필 또는 공개 페이지는 구조화되지 않은 정보의 바다에서 작은 드롭 하나입니다. 또한 특정 프로필에 저장된 정보의 양에 관계없이 각 사용자와의 상호 작용은 최대한 빨라야 합니다.

DevOps – 개발 및 운영
DevOps – 개발 및 운영

빅 데이터는 인간 생활의 거의 모든 영역에서 끊임없이 축적되고 있습니다. 여기에는 인간 상호 작용 또는 컴퓨팅과 관련된 모든 산업이 포함됩니다. 소셜 미디어, 의료, 은행 부문은 물론 일일 계산의 수많은 결과를 수신하는 장치 시스템이 있습니다. 예를 들어, 천문 관측, 기상 정보 및 지구 측심 장치의 정보.

실시간으로 다양한 추적 시스템의 정보가 특정 회사의 서버로 전송됩니다. 텔레비전 및 라디오 방송, 이동 통신 사업자의 통화 기반 – 각 개인과 그들 사이의 상호 작용은 최소화되지만 총체적으로 이 모든 정보는 빅 데이터가 됩니다.

빅 데이터 기술은 R&D 및 상거래에 필수 요소가 되었습니다. 더욱이, 그들은 공공 행정의 영역을 포착하기 시작했으며 모든 곳에서 정보를 저장하고 조작하기 위한 보다 효율적인 시스템의 도입이 필요합니다.

빅 데이터의 출현과 발전의 역사

“빅 데이터”라는 용어는 2008년 Nature의 편집자인 Clifford Lynch가 빅 데이터 기술의 도움으로 과학의 미래를 발전시키는 방법에 대한 기사를 발표하면서 언론에 처음 등장했습니다. 2009년까지 이 용어는 과학적 분석의 관점에서만 고려되었지만 몇 편의 기사가 추가로 발표된 후 언론에서 빅데이터의 개념을 널리 사용하기 시작했으며 현재도 계속 사용하고 있습니다.

Big Data
사진: T.L.Furrer | Dreamstime

2010년, 빅데이터의 증가하는 문제를 해결하기 위한 첫 번째 시도가 나타나기 시작했습니다. 거대한 정보 어레이를 사용할 때 위험을 최소화하는 것을 목표로 한 소프트웨어 제품이 출시되었습니다.

2011년까지 Microsoft, Oracle, EMC 및 IBM과 같은 대기업은 빅 데이터에 관심을 갖기 시작했습니다. 빅 데이터를 개발 전략에 처음으로 사용한 회사는 꽤 성공적이었습니다.

쿠키는 아는 사람이 거의 없는 신비한 파일입니다
쿠키는 아는 사람이 거의 없는 신비한 파일입니다

대학들은 이미 2013년부터 빅데이터를 별도의 주제로 연구하기 시작했습니다. 이제 데이터 과학뿐만 아니라 엔지니어링도 컴퓨팅 주제와 함께 이 영역에서 문제를 다루고 있습니다.

빅데이터 분석 및 처리 기술 및 방법

데이터 분석 및 처리의 주요 방법은 다음과 같습니다.

클래스 메서드 또는 데이터 마이닝

이러한 방법은 매우 많지만 정보 기술 분야의 성과와 함께 사용되는 수학적 도구라는 하나로 통합됩니다.

크라우드소싱

이 기술을 사용하면 여러 소스에서 동시에 데이터를 얻을 수 있으며 후자의 수는 거의 무제한입니다.

A/B 테스트

전체 데이터 양에서 요소의 제어 세트가 선택되고, 이는 요소 중 하나가 변경된 다른 유사한 세트와 차례로 비교됩니다. 이러한 테스트를 수행하면 통제 집단에 가장 큰 영향을 미치는 매개변수 변동을 결정하는 데 도움이 됩니다. 빅 데이터의 볼륨 덕분에 엄청난 수의 반복을 수행할 수 있으며 각 반복은 가장 신뢰할 수 있는 결과에 접근합니다.

도메인 주도 설계 – DDD 프로그래밍
도메인 주도 설계 – DDD 프로그래밍

예측 분석

이 분야의 전문가들은 이 상황에서 가장 유리한 결정을 내리기 위해 제어 대상이 어떻게 행동할지 미리 예측하고 계획합니다.

머신 러닝(인공 지능)

이는 정보에 대한 경험적 분석과 시스템에 대한 자가 학습 알고리즘의 후속 구성을 기반으로 합니다.

네트워크 분석

소셜 네트워크 연구를 위한 가장 일반적인 방법 – 통계 데이터를 받은 후 그리드에서 생성된 노드, 즉 개별 사용자와 커뮤니티 간의 상호 작용을 분석합니다.

빅 데이터 개발 전망 및 동향

빅데이터가 더 이상 새롭고 알려지지 않은 것이 아닌 2017년, 그 중요성은 줄어들 뿐만 아니라 더욱 커졌습니다. 이제 전문가들은 대규모 데이터 분석이 거대 조직뿐만 아니라 중소기업에서도 가능해지리라고 내기를 하고 있다. 이 접근 방식은 다음 구성 요소를 사용하여 구현될 예정입니다.

클라우드 스토리지

데이터 저장 및 처리가 더 빠르고 경제적이 되고 있습니다. 자체 데이터 센터를 유지 관리하는 비용과 가능한 직원 확장에 비해 클라우드를 임대하는 것이 훨씬 저렴한 대안인 것 같습니다.

Big Data
사진: Dzmitry Ryzhykau | Dreamstime

다크 데이터 사용

이른바 ‘다크 데이터’는 기업에 대한 모든 디지털화되지 않은 정보로, 직접적인 활용에는 핵심적인 역할을 하지 않지만 새로운 정보 저장 형식으로 전환하는 사유로 작용할 수 있다.

인공 지능 및 딥 러닝

인간 두뇌의 구조와 작동을 모방한 머신 지능 학습 기술은 끊임없이 변화하는 대량의 정보를 처리하는 데 가장 적합합니다. 이 경우 기계는 사람이 해야 할 모든 작업을 수행하지만 오류 가능성은 크게 줄어듭니다.

UX 디자인 – 사용자 경험 디자인
UX 디자인 – 사용자 경험 디자인

블록체인

이 기술을 사용하면 국제 거래를 포함하여 수많은 인터넷 거래의 속도를 높이고 단순화할 수 있습니다. 블록체인의 또 다른 장점은 거래 비용을 절감한다는 것입니다.

셀프 서비스 및 가격 인하

2017년에는 “셀프 서비스 플랫폼”을 도입할 계획입니다. 이 플랫폼은 중소기업 대표가 저장한 데이터를 독립적으로 평가하고 체계화할 수 있는 무료 플랫폼입니다.

마케팅 및 비즈니스의 빅 데이터

모든 마케팅 전략은 어떻게 든 정보 조작과 기존 데이터 분석을 기반으로 합니다. 그렇기 때문에 빅 데이터를 사용하면 회사의 향후 발전을 예측하고 조정할 수 있습니다.

스마트 홈 – 미래가 여기에 있습니다
스마트 홈 – 미래가 여기에 있습니다

예를 들어, 빅 데이터를 기반으로 생성된 RTB 경매를 사용하면 광고를 보다 효율적으로 사용할 수 있습니다. 특정 제품은 구매에 관심이 있는 사용자 그룹에게만 표시됩니다.

마케팅 및 비즈니스에서 빅 데이터 기술을 사용하면 어떤 이점이 있습니까?

  1. 그들의 도움으로 새로운 프로젝트를 훨씬 더 빨리 만들 수 있으며 이는 구매자 사이에서 인기를 끌 가능성이 높습니다.
  2. 고객 요구 사항을 기존 또는 계획된 서비스와 연결하여 조정하는 데 도움이 됩니다.
  3. 빅 데이터 방법을 사용하면 모든 사용자와 개별 사용자의 현재 만족도를 평가할 수 있습니다.
  4. 빅 데이터 처리 방식을 통해 고객 충성도를 높입니다.
  5. 대량의 데이터를 제어할 수 있는 능력으로 인해 인터넷에서 타겟 고객을 유치하는 것이 더 쉬워지고 있습니다.
Big Data
사진: Josefkubes | Dreamstime

예를 들어 특정 제품의 인기도를 예측하는 가장 인기 있는 서비스 중 하나는 Google.trends입니다. 마케터와 분석가가 널리 사용하여 과거에 주어진 제품의 사용에 대한 통계를 얻고 다음 시즌에 대한 예측을 할 수 있습니다. 이를 통해 회사 리더는 광고 예산을 보다 효과적으로 분배하고 어떤 영역에 돈을 투자하는 것이 가장 좋은지 결정할 수 있습니다.

빅 데이터 사용의 예

빅 데이터 기술을 시장과 현대 생활에 적극적으로 도입하기 시작한 것은 전 세계 거의 모든 지역에 고객을 보유한 세계적으로 유명한 회사에서 빅 데이터 기술을 사용하기 시작한 직후였습니다.

인포그래픽 – 정보를 표현하는 기술
인포그래픽 – 정보를 표현하는 기술

이들은 페이스북, 구글, IBM과 같은 사회적 거물들과 마스터카드, 비자, 뱅크오브아메리카와 같은 금융구조들이다.

예를 들어, IBM은 현금 거래에 빅 데이터 기술을 적용하고 있습니다. 그들의 도움으로 사기 거래가 15% 더 감지되어 보호 자금의 양이 60% 증가했습니다. 시스템의 오탐지 문제도 해결되었습니다. 그 수가 절반 이상 줄었습니다.

VISA는 유사하게 빅 데이터를 사용하여 특정 거래를 수행하려는 사기 시도를 추적했습니다. 덕분에 연간 20억 달러 이상의 누출을 절약할 수 있습니다.

독일 노동부는 실업 수당 발행 작업에 빅 데이터 시스템을 구현하여 100억 유로의 비용을 절감했습니다. 동시에 시민의 5분의 1이 정당한 이유 없이 이러한 혜택을 받고 있는 것으로 나타났습니다.

빅데이터는 게임 산업도 우회하지 않았다. 따라서 World of Tanks의 개발자는 모든 플레이어에 대한 정보 연구를 수행하고 사용 가능한 활동 지표를 비교했습니다. 이는 향후 플레이어 이탈 가능성을 예측하는 데 도움이 되었습니다. 가정을 기반으로 조직 대표는 사용자와 보다 효과적으로 상호 작용할 수 있었습니다.

Google Ads: 사용해야 하는 이유
Google Ads: 사용해야 하는 이유

빅 데이터를 사용하는 주목할만한 조직에는 HSBC, Nasdaq, Coca-Cola, Starbucks 및 AT&T도 있습니다.

빅 데이터 문제

빅데이터의 가장 큰 문제는 처리 비용이다. 여기에는 값비싼 장비와 방대한 양의 정보를 제공할 수 있는 자격을 갖춘 전문가의 임금 비용이 모두 포함될 수 있습니다. 분명히 장비는 데이터 양이 증가함에 따라 최소 성능을 잃지 않도록 정기적으로 업데이트해야 합니다.

Big Data
사진: Anatoly Stojko | Dreamstime

두 번째 문제는 처리해야 하는 많은 양의 정보와 관련이 있습니다. 예를 들어 연구가 2-3이 아니라 많은 결과를 제공하는 경우 객관적인 상태를 유지하고 일반적인 데이터 스트림에서 현상의 상태에 실질적인 영향을 미칠 것만 선택하는 것은 매우 어렵습니다.

빅 데이터 개인 정보 문제. 대부분의 고객 서비스 서비스가 온라인 데이터 사용으로 이동함에 따라 사이버 범죄자의 다음 표적이 되기는 매우 쉽습니다. 온라인 거래 없이 단순히 개인 정보를 저장하는 것만으로도 클라우드 스토리지 고객에게 바람직하지 않은 결과를 초래할 수 있습니다.

클라우드 게임 – 게임 분야의 최첨단 기술
클라우드 게임 – 게임 분야의 최첨단 기술

정보 손실 문제. 주의 사항은 데이터의 단순한 1회 백업에 국한되지 않고 저장소의 백업 복사본을 2-3개 이상 만들어야 합니다. 그러나 볼륨이 증가함에 따라 중복성의 복잡성이 증가하고 IT 전문가는 이 문제에 대한 최상의 솔루션을 찾기 위해 노력하고 있습니다.

러시아 및 전 세계의 빅 데이터 기술 시장

2014년 기준 빅데이터 시장의 40%가 서비스다. 이 지표보다 약간 열등한(38%) 컴퓨터 장비에서 빅 데이터 사용으로 인한 수익입니다. 나머지 22%는 소프트웨어에 있습니다.

통계에 따르면 빅 데이터 문제를 해결하기 위해 글로벌 부문에서 가장 유용한 제품은 인메모리 및 NoSQL 분석 플랫폼입니다. 시장의 각각 15%와 12%는 로그 파일 분석 소프트웨어와 Columnar 플랫폼이 점유하고 있습니다. 그러나 Hadoop/MapReduce는 실제로 빅데이터의 문제에 대처하는 것이 그다지 효과적이지 않습니다.

IT 보안을 지키는 Caesar의 암호
IT 보안을 지키는 Caesar의 암호

빅 데이터 기술 구현 결과:

  • 고객 서비스 품질 향상
  • 공급망 통합 최적화
  • 조직 계획 최적화,
  • 고객과의 상호작용 가속화
  • 고객 요청 처리 효율성 향상
  • 서비스 비용 절감
  • 클라이언트 요청 처리 최적화.

빅 데이터에 관한 최고의 책

릭 스몰란(Rick Smolan)과 제니퍼 어윗(Jennifer Erwitt)의 “빅 데이터의 인간적 얼굴”

빅 데이터 처리 기술의 초기 연구에 적합합니다. 쉽고 명확하게 최신 정보를 제공합니다. 풍부한 정보가 과학, 비즈니스, 의학 등 일상 생활과 모든 분야에 어떻게 영향을 미쳤는지 명확하게 보여줍니다. 수많은 삽화가 포함되어있어 많은 노력없이 인식됩니다.

Pang-Ning Tan, Michael Steinbach 및 Vipin Kumar의 데이터 마이닝 소개

또한 “단순한 것에서 복잡한 것까지” 빅 데이터를 다루는 방법을 설명하는 빅 데이터 초보자를 위한 유용한 책입니다. 처리 준비, 시각화, OLAP, 데이터 분석 및 분류 방법 등 초기 단계의 많은 중요한 사항을 다룹니다.

Jacque Fresco – 우리 시대의 뛰어난 과학자
Jacque Fresco – 우리 시대의 뛰어난 과학자

Sebastian Raska의 Python 기계 학습

Python 프로그래밍 언어를 사용하여 빅 데이터를 사용하고 작업하는 방법에 대한 실용적인 가이드입니다. 공학도와 지식을 심화하려는 전문가 모두에게 적합합니다.

“Hadoop for Dummies”, Dirk Derus, Paul S. Zikopoulos, Roman B. Melnik

Hadoop은 수천 개의 노드에서 동시에 작업 실행을 구성하는 분산 프로그램과 함께 작동하도록 특별히 설계된 프로젝트입니다. 이것에 대해 알면 빅 데이터의 실제 적용을 더 자세히 이해하는 데 도움이 될 것입니다.

6
콘텐츠 공유하다