Что такое Small Data

В рунете до сих пор нет внятного определения, что такое small data, хотя, казалось бы, о больших данных (big data) говорят уже давно. Эти две формы данных похожи и не похожи друг на друга одновременно. Разбираемся, что к чему.

что такое small data

Small Data. Определение

Малые данные (small data) — это когда анализируется информация об одном человеке и делаются выводы (соответственно, большие данные — это когда анализируется множество людей и находятся закономерности в их поведении).

Для сбора, обработки и интерпретации малых данных не нужно много ресурсов: это может сделать и один человек. Такие данные предназначены для решения повседневных задач, в случае с e-commerce: узнавая пол, возраст, физиологические параметры, социальный статус пользователя и другие данные, вы сегментируете пользователей по узнанным критериям и более эффективно проводите рекламные кампании, рекомендуете товары.

Малые данные — это о повседневных задачах: например, собирая электронные адреса покупателей в базу и делая рассылку, вы тоже работаете с малыми данными.

Нужны ли малые данные ритейлерам

У малых данных есть более известный собрат — Big Data, технологический тренд последних нескольких лет. Ритейлерам нужны большие данные: они помогают получить общую картину рынка, увидеть тренды, спрогнозировать спрос или конкуренцию, увеличить продажи за счет понимания поведения покупателей и т.д. Способов применения Big Data действительно много — актуальный пример с рекомендательными системами: они используют большие данные и сложные программные алгоритмы, чтобы спрогнозировать потребности и интересы пользователя по его действиям, сравнивая его модель поведения с тысячами других похожих пользователей. После анализа биг дата такие системы предлагают ему наиболее релевантные товары.

Но пример выше с рекомендательными системами — скорее, единичный случай в онлайн-ритейле, когда бы большие данные применялись так просто и с таким уровнем автоматизации. На деле получается, что если просто взять все эти данные о пользователях и отдать их ритейлу, то единицы будут заниматься анализом и учитывать их при разработке рекламных кампаний или планировании ассортиментна. Причины банальны: сложно, долго, а если писать программные алгоритмы для анализа — дорого.

С малыми данными попроще. На то есть как минимум три причины:

  • Они доступны. Для сбора small data не нужны научные методы, программный движок для аналитики, построение сложных гипотез и всё такое прочее. Малые данные — об известных вещах. Так же, как и big data, малым данным нужен анализ, но его можно провести, ограничиваясь стандартным бизнес-софтом.
  • Они точны. Вы всегда в силах самостоятельно обновить или уточнить данные ваших клиентов: будь то верификация e-mail и телефона на сайте или даже обзвон колл-центром.
  • Они функциональны. Большие наборы данных требуют соответствующей экспертизы аналитика, времени и специализированного программного обеспечения. Кроме того, всегда есть риск сделать неправильные выводы или переусердствовать с анализом. Малые данные легче обрабатывать вручную и потом на основании полученных выводов принимать стратегические решения.

В книге «Принципы Больших Данных» содержатся ключевые отличия малых и больших данных. Приведем их здесь, чтобы окончательно понять суть вопроса.

Small Data Big Data
Цели Ответ на конкретный вопрос или решение определенной задачи. Есть нечеткая цель и представление о том, что источник больших данных будет содержать и как будут структурированы данные внутри него, как они будут связаны с другими ресурсами и проанализированы.
Местонахождение Как правило, содержатся в одной компании, часто на одном компьютере и иногда в одном файле. Распространены по всей Сети, обычно хранятся на нескольких серверах, расположенных в самых разных местах Земли.
Структура и содержание Обычно хорошо структурированные данные. Область данных: одна дисциплина или субдисциплина. Часто хранятся в виде однородных данных в упорядоченных таблицах. Большой объем неструктурированных данных (например, текстовые документы, изображения, фильмы, звукозаписи, физические объекты). Предметом больших данных могут быть сразу несколько дисциплин, у каждого объекта могут быть связи с другими, казалось бы, никак не связанными, информационными ресурсами.
Подготовка данных Обычно люди, которые занимались подготовкой данных, их и используют. Данные поступают из многих источников, подготовкой занимается множество людей. При этом используют данные другие люди, не принимавшие участия в подготовке.
Долговечность Хранятся в течение ограниченного периода времени (обычно не более 7 лет), а затем архивируются. Данные хранятся неограниченное количество времени. В идеале, когда текущий источник данных прекращает существование, данные из него «всасываются» в другой источник.
Измерение Как правило, данные измерены одним экспериментальным протоколом. Так как данные поступают в разных электронных форматах, они могут быть измерены разными протоколами. Проверка качества больших данных — одна из самых сложных задач.
Воспроизводимость Проекты повторяются: если есть сомнения в качестве данных или обоснованности выводов, весь проект может быть повторен для получения нового набора данных. Тиражирование данных большого проекта неосуществимо. Если было замечено, что присутствуют некачественные данные, остается только надеяться, что кто-то найдет их и отметит.
Стоимость Стоимость проекта ограничена. Лаборатории и учреждения, как правило, могут оправиться от случайного провала. Проекты стоят неприлично дорого. Некачественные данные могут привести компанию к банкротству, массовым увольнениям и прекращению существования источника данных.
Самоанализ Каждая единица данных идентифицируется по строке и столбцу, зная их названия, вы можете найти и указать все ячейки данных в таблице. Если источник данных не исключительно хорошо структурирован, он может быть непонятен. Для анализа применяются машинные алгоритмы.
Анализ В большинстве случаев все данные проекта могут быть проанализированы сразу и в полном объеме. Обычно анализируются поэтапно (за исключением машинного анализа на суперкомпьютере или нескольких компьютерах сразу). Данные проходят этапы: извлечение, обзор, ограничение, нормализация, трансформация, визуализация, интерпретация и повторный анализ различными методами.

Надеемся, различия стали более очевидными. Так как наш продукт напрямую связан как с Big Data, так и со Small Data, поясним роль последних в работе REES46.

Малые данные в рекомендательной системе

Когда в магазин приходит новый пользователь, для сервиса рекомендаций он — чистый лист. О нем ничего не известно, коллаборативная фильтрация и другие методы обработки больших данных не работают: ведь мы не знаем, что пользователь покупал, что смотрел и т.д.

Поэтому REES46 наравне с большими использует малые данные, делая на их основе выводы и превращая их в качественные товарные рекомендации.

Пример 1. Покупатель просмотрел несколько товаров в категории «детская одежда». Система делает вывод, что у пользователя есть дети, а глядя на параметры просмотренной одежды, делает запись о том, какого пола ребенок и сколько ему лет. Далее этому пользователю рекомендуются подходящие ему детские товары, при этом используется Small Data: таким образом компенсируются недостатки Big Data.

Пример 2. Покупатель положил в корзину корм Pro Plan для собак. По объему сервис рекомендация делает предположение о том, насколько это крупная порода собаки, а по марке предполагает, что покупателю подойдут товары из высокого ценового сегмента (корм качественный и дорогой). Поэтому в рекомендуемых товарах будут выводиться только качественные аксессуары или игрушки для крупных собак — и это повысит вероятность покупки.

В целом, малые данные — это то, чем нужно пользоваться, когда на обработку Big Data нет времени, вычислительных мощностей или когда о пользователе ничего не известно.

Самое то для принятия решений здесь и сейчас.

Читаете наш блог?

Подпишитесь и один раз в неделю мы будем рассказывать вам об обновлениях продукта и делиться новыми статьями.