Большие данные: определение и примеры

Кажущаяся вездесущей в мире бизнеса и технологий и вызывающая страстные споры, тема Больших данных оказала глубокое влияние на современную экономику, которая становится все более оцифрованной. В то время как сторонники бизнес-модели подчеркивают различные применения этих накопленных данных, все больше критиков этой практики высказывают свою озабоченность вопросами конфиденциальности. Откровения таких разоблачителей, как Эдвард Сноуден, пролили новый свет на практику слежки правительственных агентств, таких как АНБ, в результате чего многие пользователи с опаской относятся к программам и приложениям, которые просят их поделиться своей личной информацией. По этой причине у многих граждан появилось чувство осторожности и скептицизма по отношению к термину «Большие данные». Но при ближайшем рассмотрении оказывается, что в этой практике гораздо больше того, что описано в заголовках газет и журналов.

Большие данные: определение?

Под «большими данными» понимаются такие объемы данных, которые настолько сложны, что обычное программное и аппаратное обеспечение, используемое для их обработки, уже бесполезно. Это означает, что по своей сути Большие данные — нейтральный термин, поскольку он используется для описания безобидных объемов данных, которые можно наблюдать в исследовательских или других некоммерческих средах. Однако, учитывая тот факт, что такие данные могут относиться и к личной информации, например, к общению или потребительскому поведению интернет-пользователей, этот термин часто несет в себе негативные коннотации. Противники этой практики обеспокоены потенциальным нарушением прав личности, когда речь идет о сборе и оценке данных.

Насколько «большими» являются Большие данные?

Термин «Большие данные» не относится к какому-то определенному объему данных. Не существует четкой границы, указывающей, когда то или иное количество данных следует классифицировать как «большие данные». Обычно, однако, этот термин относится к таким объемам данных, которые настолько велики, что их уже нельзя измерить в гигабайтах.

Как накапливаются Большие данные?

Объем данных достиг огромных масштабов: в 2014 году потребовалось всего 10 минут, чтобы собрать такое же количество данных, которое было произведено людьми с момента зарождения человечества до 2002 года. Согласно некоторым прогнозам, этот огромный объем данных будет только увеличиваться, удваиваясь каждые два года. Поток данных в основном вызван растущей оцифровкой повседневной жизни. Большие данные создаются путем объединения различных источников данных, таких как:

  • использование мобильного интернета
  • социальные сети
  • Геотаргетинг
  • облачные вычисления
  • Измерения жизненно важных данных
  • Потоковая передача медиаданных

Большие данные относятся не только к собранным данным; использование этой информации и ее анализ также являются частью этого определения. Цель состоит в том, чтобы найти закономерности и взаимосвязи и поместить их в нужный контекст. Одной из самых больших проблем при этом является не только работа с огромными объемами данных; скорость передачи данных и разнообразие такой информации также играют свою роль. Данные постоянно стекаются в неструктурированный пул. Там их нужно собирать, сохранять и обрабатывать, по возможности в режиме реального времени. Для того чтобы правильно интерпретировать эти данные и рассматривать их в контексте, необходима сложная инфраструктура данных.

Как работать с большими данными

Согласно определению, объемы данных, с которыми работают Большие данные, настолько велики, что обычное программное и аппаратное обеспечение просто не в состоянии справиться с таким количеством информации. При работе с такими масштабами к программному обеспечению предъявляются особые технические требования. Только с помощью специальных программных средств можно анализировать данные. Программное обеспечение должно быть способно максимально быстро обрабатывать большое количество наборов данных и, кроме того, должно быть способно быстро импортировать большое количество данных. Более того, программное обеспечение должно быть способно предоставлять пользователям объемы данных в режиме реального времени и, при необходимости, иметь возможность одновременно отвечать на несколько запросов к базе данных.

Hadoop — популярное решение с открытым исходным кодом, но из-за сложной реализации его использование часто требует поддержки специалиста по анализу данных. К счастью, существуют варианты облачных вычислений, которые не требуют таких знаний.

Примеры применения Больших данных

Существует широкий спектр приложений для Больших Данных, которые отвечают требованиям многих областей и тем. Даже очень простые, повседневные приложения, которые известны пользователям Интернета во всем мире, основаны на этой технологии. Популярное применение Big Data, которое можно наблюдать на сайтах крупных интернет-магазинов, — это небольшое окошко, информирующее вас о том, какие дополнительные товары приобрели другие покупатели, просмотревшие интересующий вас товар. Эти рекомендации появляются в результате оценки данных о покупках других покупателей.

Другие области, которые выигрывают от использования Больших Данных:

  • Медицинские исследования: оценивая большие объемы данных, врачи могут разрабатывать оптимальные решения и планы лечения для своих пациентов.
  • Производство: компании могут отслеживать данные своих машин и тем самым повышать эффективность и устойчивость своего производства.
  • Бизнес: Большие данные помогают компаниям лучше узнать своих клиентов и позволяют им лучше согласовывать свои предложения с их желаниями.
  • Энергетика: для того чтобы адаптировать потребление энергии к индивидуальным потребностям, необходимо знать показатели использования. Собранные данные пользователей обеспечивают более устойчивое энергоснабжение в долгосрочной перспективе.
  • Маркетинг: с точки зрения маркетинга, Большие данные часто используются для ретаргетинга. Целью здесь является улучшение взаимоотношений с клиентами.
  • Борьба с преступностью: правительства и оборонные ведомства по всему миру используют Большие данные для поддержки своих усилий в борьбе с терроризмом.

Критика Больших Данных

Большая часть критики вокруг Больших Данных связана с вопросами защиты данных. Большие массивы данных открывают потенциал для компаний и брендов; благодаря Большим данным маркетинговые меры легче корректировать. Однако для таргетинга применяемые данные могут быть использованы для создания точного профиля пользователя. Активисты по защите данных и организации по защите гражданских свобод рассматривают эти меры как вторжение в частную жизнь человека. 

Еще одним спорным вопросом является практически полный контроль некоторых компаний над такими данными. Там, где есть Большие данные, часто можно найти большие деньги. Весь этот потенциал для получения огромных прибылей создает среду, в которой крупные игроки, такие как Google, определяют правила игры. Эта монополия власти, которой обладают крупные поставщики поисковых систем, широко критикуется. Без четких правил и норм защиты данных и их анонимизации невозможно полностью исключить злоупотребления.

Ответственное использование Больших Данных

Несмотря на эту критику, Большие данные могут быть очень полезны, если правильно применять технологию. Важные подвиги в исследовании рака были бы невозможны, если бы не мощь Больших Данных. Данные, собранные из систем электроснабжения и дорожного движения, оцениваются и используются для оптимизации существующих структур. Но, несмотря на весь потенциал, открывающийся перед такими дисциплинами, как медицина, управление дорожным движением и мир бизнеса, остается множество этических вопросов, требующих решения. Прогнозирование определенных событий, например, вероятности развития у человека того или иного заболевания, по крайней мере, для многих является тревожной перспективой. Необходимо разработать продуманную стратегию, чтобы обеспечить соблюдение прав частных лиц и при этом не упустить из виду цель проекта «Большие данные».

Оцените статью
cdelat.ru
Добавить комментарий