Метод кластерного анализа

Вы можете воспользоваться функцией. Однако практика показывает, что метод кластерного анализа нашей стране многие исследовательские компании и отделы метод кластерного анализа исследований в производственных и торговых компаниях весьма ограниченно используют аппарат статистических методов анализа данных а часто и вообще не используют, ограничиваясь лишь аналитическими и графическими методиками. Следует метод кластерного анализа, что статистика отнюдь не является универсальным методом анализа в маркетинговых исследованиях, в целом ряде метод кластерного анализа приходится сознательно отказываться от их использования в пользу чисто когнитивных методик т. Вместе с тем статистика обладает и массой положительных сторон для исследователя: именно с помощью статметодов можно четко метод кластерного анализа на конкретных цифрах аргументировать свои выводы по итогам исследования. Решение о применении или, напротив, о не применении статистики должно приниматься в каждом конкретном случае отдельно, и при этом данное решение должно быть основано на объективной информации о возможности или не возможности их использования. Для того чтобы метод кластерного анализа подобное решение необходимо хорошо ориентироваться в наиболее распространенных статистических методах. Настоящая статья имеет целью, не вдаваясь в теоретические выкладки, ознакомить читателя с основами практического использования одного из методов статистики — кластерного анализа — в маркетинговых исследованиях. Общие сведения о методике кластерного анализа Методика кластерного анализа была впервые описана Как группа статистических методов она относится к категории классификационного анализа. При этом классификация может производиться как на заранее известные логистическая регрессия и дискриминантный анализтак и на заранее неизвестные группы кластерный и факторный анализ. Как уже было отмечено выше, разделение отдельных элементов переменных или респондентов на группы проводится на основании метод кластерного анализа индивидуальных параметров например, для организаций это могут быть: численность сотрудников, сфера деятельности, наличие определенных потребностей и т. Конкретные значения этих индивидуальных характеристик, выявленные в результате проведения исследования, позволяют рассчитать так называемые меры сходства или расстояние между элементами. Ниже различие между данными мерами будет наглядно проиллюстрировано на конкретном примере из реального маркетингового исследования. Отметим лишь, что при использовании мер сходства элементы объединяются в группы на основании схожести их характеристик. Меры расстояния предполагают отнесение к одной группе тех метод кластерного анализа, которые существенно отличаются от всех остальных, но не друг от друга. В общем случае кластерный анализ метод кластерного анализа ряд этапов. Начинается он с того, что все исследуемые элементы относятся к числу групп, равному количеству этих элементов. Затем критерии «уникальности» этих элементов т. Эта процедура может проводиться до тех пор, пока метод кластерного анализа останется всего один кластер, включающий все исходные элементы. Так как кластерный анализ не предполагает наличия заранее известных групп, в которые следует относить элементы, основной задачей исследователя является определение того шага в процессе объединения, на котором следует остановить процедуру. Полученные на данном шаге кластеры и будут являться результатом сегментирования. Следует отметить, метод кластерного анализа, несмотря на имеющуюся возможность с помощью кластерного анализа классифицировать переменные по аналогии с факторным анализомв подавляющем большинстве случаев он применяется все же для классификации респондентов. Это связано с существенно большим числом ограничений и сложностей у кластерного анализа при классификации переменных, чем, например, у факторного анализа. Поэтому мы предлагаем оставить задачи классификации переменных специализированным методам, а для сегментирования потребителей респондентов применять кластерный анализ. Необходимо также отметить, что иногда особенно в случае большого числа переменных — характеристик метод кластерного анализа, по которым необходимо проводить сегментирование факторный и кластерный анализ используются в паре, причем первый предшествует второму. В результате факторного анализа удается сократить большое число переменных характеристик респондентов до малого числа значимых «факторов», объединяющих сразу несколько исходных переменных. Затем уже на этом малом числе значимых «макрохарактеристик» проводится кластерный анализ и, собственно, сегментирование потребителей. Кластерный анализ может проводиться несколькими способами: иерархическим и методом «k-средних». В первом случае автоматизированная статистическая процедура позволяет в наиболее «автономном» от исследователя режиме определить оптимальное число кластеров, а также ряд других параметров, необходимых для кластерного анализа. Второй тип анализа применяется в основном при очень больших выборках, крайне редко встречающихся в практике маркетинговых исследований. Кроме того, для него необходимо самостоятельно определять и точное количество выделяемых кластеров, и начальные значения центров каждого кластера «центроиды» метод кластерного анализа, и некоторые другие статистики, так что он не подходит для исследователей, которые не метод кластерного анализа хорошо владеют статметодами. В целом для всех задач, встречающихся в маркетинговых исследованиям, мы рекомендуем использовать именно иерархический способ. Прежде чем начать описание проведения иерархического кластерного анализа метод кластерного анализа практике, хотелось бы выделить еще два весьма важных момента. Во-первых, метод кластерного анализа проведении кластерного анализа чрезвычайно важную роль играет правильное разделение всех характеристик потребителей на метод кластерного анализа сегментирования т. В общем случае в качестве критериев сегментирования рекомендуется выбирать те, и только те характеристики, которые реально могут определять поведение сегментов. Это правило не является универсальным, так как в ряде случаев, например, социально-демографические параметры потребителей могут являться ключевыми в определении их покупательского поведения. Выбор критериев сегментирования и дескрипторов сегментов — процедура, целиком зависящая от опыта и знаний исследователя. Причем неправильное решение в данной области может привести к неудовлетворительным результатам кластерного анализа например, когда невозможно выделить оптимальное число групп или когда получающиеся сегменты не поддаются практической интерпретации. Во-вторых, следует особо оговориться, что в настоящей статье мы описываем лишь одно из возможных применений кластерного анализа в маркетинговых исследованиях. Вместе с тем данная методика позволяет решать также и множество других задач, постоянно встающих перед исследователем например, разделение гистограмм частотных распределений на группы по принципу: высшая—средняя—низшая и т. К примеру, мы имеем линейное распределение ответов на вопрос: «Какие марки антивирусов установлены в Вашей организации? Для формирования выводов метод кластерного анализа данному распределению необходимо разделить марки антивирусов на несколько групп обычно 2-3. Для разделения всех марок, предположим, на три группы наиболее популярные марки, средняя популярность и непопулярные марки лучше всего воспользоваться именно кластерным анализом, хотя в реальной жизни исследователи обычно разделяют элементы частотных таблиц на глазок, основываясь на субъективных соображениях. В метод кластерного анализа такому подходу кластерный анализ позволяет научно метод кластерного анализа сделанную группировку. Для этого следует ввести значения каждого параметра в SPSS при этом эти значения целесообразно выражать в процентах и затем выполнить кластерный анализ над этими данными. Сохранив кластерное решение для необходимого количества групп в нашем случае 3 в виде новой переменной, мы получим статистически обоснованную группировку. Проведение иерархического кластерного анализа в SPSS Описание практического подхода к выделению сегментов потребителей методом иерархического кластерного анализа мы будем проводить на следующем примере из реального маркетингового исследования цифры по понятным соображениям изменены. При этом в качестве статистического программного обеспечения будет использован наиболее популярный на сегодняшний день в России специализированный пакет SPSS. Пусть исследуется поведение потребителей пельменей. В ходе опроса респондентам задавался целый ряд вопросов, предназначенных для решения стоящих перед исследованием задач. В том числе задавались следующие вопросы: 1 частота покупки возможные ответы: «1 раз в неделю и чаще», «1-3 метод кластерного анализа в месяц», «Реже 1 раза в месяц» ; 2 кратность единовременной покупки возможные ответы: «0,5 кг и менее», «0,5-1 кг», «1-2 кг», «Более 2 кг» ; 3 наличие марочных предпочтений возможные варианты: «Обращаю внимание на марку», «Не обращаю внимания на марку» ; 4 парное сравнение важности характеристик «цена» и «качество» по пятибалльной метод кластерного анализа, где предпочтение цены отражается меньшими значениями, а предпочтение качества — большими. Также выяснялись социально-демографические параметры респондентов: пол, возраст и уровень доходов. В целом в кластерном анализе можно использовать переменные с любым типом шкалы как в нашем случае : номинальные, дихотомические, или интервальные. В данном случае применяют процедуру стандартизации см. Однако следует отметить, что в общем случае лучше, чтобы все переменные, участвующие в анализе, были измерены по одной и той же шкале. Это требование далеко не всегда осуществимо на практике, однако в принципе позволяет получить более точные результаты. Переменные с порядковым типом шкалы следует сначала преобразовать в интервальный вид на основании центров интервалов или анализировать как номинальные конкретное решение различно в каждом конкретном случае. В качестве дескрипторов сегментов будем использовать пол, возраст и уровень доходов. Иерархический кластерный анализ проводится в два этапа. Единственным метод кластерного анализа первого этапа должно стать число кластеров целевых сегментов метод кластерного анализа, на которые следует разделить исследуемую выборку респондентов. Процедура кластерного анализа как таковая не может самостоятельно определить оптимальное число кластеров, она только может подсказать это искомое число. Поэтому, а также ввиду особой важности определения релевантного целям исследования количества сегментов данная задача обычно выносится в отдельный этап анализа. На втором этапе производится собственно кластеризация респондентов по тому числу кластеров, которое было определено в ходе первого этапа анализа. Рассмотрим теперь по порядку вышеназванные шаги кластерного анализа. Процедура кластерного анализа в SPSS запускается с помощью меню: Analyze ® Classify ® Hierarchical Cluster Анализ метод кластерного анализа Классификация ® Иерархический кластерный анализ. В открывшемся диалоговом окне рис. По умолчанию кроме интересующей метод кластерного анализа таблицы с результатами формирования кластеров, по которой мы и определим их оптимальное число, SPSS выводит также специальную перевернутую гистограмму, метод кластерного анализа «Icicle» сосульковидная диаграмма. По замыслу создателей программы, она помогает определить оптимальное количество кластеров вывод метод кластерного анализа видов диаграмм осуществляется с помощью кнопки «Plots» диаграммы. Однако, если мы оставим задействованным данный параметр, мы потратим весьма много времени на обработку даже сравнительно небольшого файла данных. Кроме «Icicle» SPSS позволяет выбрать более быструю линейчатую диаграмму «Dendogram» дендограмма. Она представляет собой лежачие столбики, отражающие ход процесса формирования кластеров. Теоретически при небольшом до 50—100 количестве респондентов данная диаграмма действительно помогает выбрать оптимальное решение относительно требуемого числа кластеров. Однако практически во всех примерах из реальных маркетинговых исследований размер выборки превышает метод кластерного анализа значение. Дендограмма в данном случае становится совершенно бесполезной, так как даже при относительно небольшом числе наблюдений представляет метод кластерного анализа очень длинную последовательность номеров строк исходного файла данных, соединенных между собой горизонтальными и вертикальными линиями. Таким образом, метод кластерного анализа практических целей ни «Icicle», ни «Dendogram» непригодны. Поэтому в главном диалоговом окне «Hierarchical Cluster Analysis» рекомендуется не выводить диаграммы любого вида, отменив выбранный по умолчанию параметр «Plots» в области «Display» отображениекак показано на рисунке 1. Диалоговое окно «Hierarchical Cluster Analysis» После указания критериев сегментирования следует выбрать метод проведения кластерного анализа. Это позволяет сделать специальное диалоговое окно «Hierarchical Cluster Analysis: Method» рис. Эксперименты с параметрами, задаваемыми с помощью данного диалогового окна, позволяют в том числе добиться большей точности и в определении оптимального числа кластеров. Первое, на что следует обратить внимание исследователю в описываемом диалоговом окне, — это метод формирования кластеров т. При этом первый метод используется наиболее часто ввиду его универсальности и относительной простоты статистической процедуры, на которой он основан. При этом методе расстояние между кластерами вычисляется как среднее значение расстояний между всеми возможными парами наблюдений респондентовпричем в каждой итерации принимает участие одно наблюдение из одного кластера, а другое метод кластерного анализа из другого. Информация, необходимая для расчетов расстояния метод кластерного анализа наблюдениями, находится на основании всех теоретически возможных пар наблюдений. Данный метод состоит из множества этапов и основан на усреднении значений всех переменных для каждого наблюдения и последующем суммировании квадратов расстояний от метод кластерного анализа средних до каждого наблюдения. Метод кластерного анализа вдаваясь метод кластерного анализа детальное описание обоих названных методов, мы рекомендуем для решения практических задач из маркетинговых исследований использовать метод «Between-groups linkage», установленный по умолчанию. Метод кластерного анализа окно «Hierarchical Cluster Analysis: Method» После выбора статистической процедуры кластеризации следует выбрать метод для вычисления расстояний между наблюдениями область «Measure» шкала в рассматриваемом диалоговом окне. Существуют различные методы определения расстояний для всех типов переменных критериев сегментированиякоторые могут принимать участие в кластерном анализе. Другие типы дихотомических переменных например, мужчина — женщина следует рассматривать и анализировать как номинальные «Counts». Как уже было отмечено выше, порядковые метод кластерного анализа для участия в кластерном анализе следует либо рассматривать как номинальные, либо что существенно лучше предварительно преобразовать в интервальный вид. Наиболее часто используемым методом определения расстояний для интервальных переменных является квадрат евклидового расстояния «Squared Euclidean Distance»устанавливаемый по умолчанию. Именно данный метод наиболее хорошо зарекомендовал себя в маркетинговых исследованиях как наиболее точный и универсальный и поэтому рекомендуется и нами к повсеместному применению. Для метод кластерного анализа переменных, где наблюдения представляются только двумя значениями например, 0 и 1данный метод не вполне подходит. Наиболее комплексной мерой расстояния, учитывающей все самые важные типы взаимодействий между двумя дихотомическими переменными, является метод Лямбда «Lambda». Мы рекомендуем применять именно данный метод ввиду его наибольшей универсальности. При указании метода определения расстояний для дихотомических переменных в соответствующем поле необходимо также указать конкретные значения, которые могут принимать исследуемые дихотомические переменные: в поле «Present» событие наступило — код ответа «Да», а в поле «Absent» событие не наступило — код ответа «Нет». Как можно заметить, для описанных выше типов переменных «Interval» и «Binary» существует большое разнообразие методов определения расстояния. Для переменных, имеющих номинальный тип шкалы, SPSS предлагает всего два возможных метода: c2 метод кластерного анализа measure» и j2 «Phi-square measure». Мы рекомендуем использовать первый метод как наиболее универсальный. В рассматриваемом диалоговом окне метод кластерного анализа также метод кластерного анализа «Transform Values» трансформация значенийв которой находится поле «Standardize» стандартизация. Данное поле применяется в том метод кластерного анализа, когда в кластерном анализе принимают участие переменные с различным типом шкалы например, интервальные и номинальные. Для того чтобы использовать данные переменные в кластерном анализе, следует провести их стандартизацию, чтобы привести к единому типу шкалы чаще всего интервальному. Наиболее распространенным методом стандартизации переменных является так называемый z-стандартизация «Z scores». При данном методе все переменные приводятся к единому диапазону значений от —3 до +3 и после преобразования являются интервальными. Следует особо отметить одно весьма метод кластерного анализа обстоятельство. При указании метода вычисления расстояний в области «Measure» следует указывать тот тип шкалы, который получается после стандартизации значений стандартизация всегда приводит переменные к интервальному метод кластерного анализа. Например, в нашем случае мы используем z-стандартизацию, приводящую все анализируемые переменные в интервальный вид. Поэтому в области «Measure» мы выбираем метод вычисления расстояний именно для интервальных переменных. Если бы мы использовали в качестве критериев сегментирования неинтервальные переменные без стандартизации, следовало бы выбирать меры расстояния соответственно для номинального или дихотомического типа шкалы. Итак, после указания всех требуемых параметров расчетов все метод кластерного анализа для выполнения первого этапа кластерного анализа. Процедура запускается нажатием на кнопку «ОК». Через некоторое время в окне «SPSS Viewer» отчет SPSS появятся результаты. Как было сказано выше, единственным значимым для нас итогом первого этапа анализа будет таблица «Average Linkage Between Groups » усредненные связи между группамипредставленная на рисунке 3. По ней мы и должны определить оптимальное число кластеров. Необходимо сразу оговориться, что единого универсального метод кластерного анализа определения оптимального числа кластеров не существует. В каждом конкретном случае исследователь должен сам определить это число. Здесь мы будем использовать следующую схему данного процесса. Таблица «Average Linkage Between Groups » Прежде всего попробуем применить наиболее распространенный, стандартный метод для определения числа кластеров. Он состоит в следующем. Сначала по таблице «Average Linkage Between Groups » следует определить, на каком шаге процесса формирования кластеров колонка «Stage» происходит первый сравнительно большой скачок коэффициента агломерации колонка «Coefficients». Данный скачок означает, что до него в кластеры объединялись наблюдения, находящиеся на достаточно малых расстояниях друг от друга т. В нашем случае коэффициенты плавно возрастают от 0 до 1,056, т. Однако начиная с 287 шага происходит первый существенный скачок коэффициента: с 1,056 до 3,690 на 2,634. Таким образом, мы определили шаг, на котором происходит первый скачок коэффициента: 287. Теперь, чтобы определить оптимальное количество кластеров, необходимо вычесть полученное значение из общего числа наблюдений размера выборки. Мы получили достаточно большое число кластеров, которое в дальнейшем будет сложно интерпретировать. Поэтому теперь мы должны исследовать полученные кластеры и определить, какие из них являются значимыми, а какие следует попытаться сократить. Данная задача решается на втором этапе кластерного анализа. Вновь откроем главное диалоговое окно процедуры кластерного анализа меню: Analyze ® Classify ® Hierarchical Cluster. В поле для метод кластерного анализа переменных у нас уже есть необходимые нам четыре параметра. Щелкнем на кнопку «Save» сохранить. Открывшееся диалоговое окно рис. Выберем параметр «Single Solution» единственное решение и укажем в соответствующем поле необходимое нам число кластеров: 13 как было определено на первом этапе кластерного анализа. Теперь следует вновь запустить процедуру кластерного анализа. Как видно из рисунка 5, в кластерах с 7 по 13 число наблюдений колеблется от 1 до 2. Подобная ситуация встречается практически всегда, поэтому число кластеров, определенное на первом этапе анализа, почти никогда не бывает истинно оптимальным весьма часто статистически значимое количество респондентов оказывается только в первом кластере. Поэтому наряду с вышеописанным универсальным методом определения оптимального количества кластеров на основании разности между общим числом респондентов и первым скачком коэффициента агломерации существует также дополнительное ограничение: размер кластеров должен быть статистически значимым и практически приемлемым. Например, при нашем размере выборки такое критическое значение можно установить хотя бы на уровне 10 респондентов на метод кластерного анализа кластер. Итак, нам необходимо вновь перестроить кластерную модель, теперь для 3-кластерного решения. В общем случае данную процедуру следует продолжать до тех пор, пока не получится решение, в котором на каждый кластер будет приходиться статистически значимое число респондентов. В нашем случае 3-кластерное решение оказалось оптимальным. Необходимо особо отметить, что пошаговый критерий практической и статистической значимости численности кластеров не является единственным, по которому можно определить оптимальное число кластеров. Исследователь может самостоятельно, на основании имеющегося у него опыта, предложить число кластеров при этом конечно же все равно должно удовлетворяться условие метод кластерного анализа. Другим вариантом является довольно распространенная ситуация, когда в целях исследования заранее ставится метод кластерного анализа сегментировать респондентов по заданному числу целевых групп. В данном случае необходимо просто один раз провести иерархический кластерный анализ с сохранением требуемого числа кластеров и затем пытаться интерпретировать то, что получится. Итак, мы определили оптимальное число кластеров для нашей задачи и провели собственно сегментирование респондентов по четырем выбранным критериям. Теперь можно считать основную цель нашей задачи достигнутой. Можно приступать к завершающему этапу кластерного анализа: интерпретации полученных целевых групп сегментов. Описание полученных сегментов проводится также как и сама процедура кластерного анализа в два этапа: описание с точки зрения критериев сегментирования и описание с точки зрения дескрипторов сегментов. Метод кластерного анализа, выделенные в результате кластерного анализа, характеризуются однородностью значений критериев сегментирования внутри каждого кластера метод кластерного анализа различием между кластерами. Поэтому, во-первых, следует определить, какими конкретно значениями переменных, выбранных в качестве критериев сегментирования, характеризуются полученные кластеры. Таким образом, можно видеть, в какой кластер попадают респонденты с тем или иным значением критерия сегментирования. Например, в нашем случае мы получили 3 сегмента, которые с помощью перекрестного распределения описываются следующим образом. Частые покупатели пельменей 1 раз в неделю и чащекоторые за один приход в магазин покупают небольшое количество продукта до 1 кг ; при этом метод кластерного анализа не обращают внимания на марку и ориентируются в метод кластерного анализа на цену. Относительно редкие покупатели пельменей реже 1 раза в неделюкоторые за один приход в магазин покупают значительное количество продукта более 1 кг ; при этом они не обращают внимания на марку и ориентируются в основном на цену. Относительно редкие покупатели пельменей реже 1 раза в неделюкоторые за один приход в магазин покупают значительное количество продукта более 1 кг ; при этом они обращают внимание на марку и ориентируются в основном на качество. Итак, после построения перекрестного распределения становится очевидной разница в ключевых характеристиках сегментов. Выделенным сегментам становится возможным дать вербальные названия. Кроме того, из процентного соотношения полученных сегментов можно оценить долю рынка, занимаемую каждым из них, и выявить наиболее привлекательные целевые группы. Метод кластерного анализа, заключительным этапом в интерпретации результатов кластерного анализа является углубленное описание полученных сегментов с помощью дескрипторных переменных. Таким образом, сегменты все больше обретают «человеческое лицо». Описание сегментов дескрипторными переменными также проводится с помощью построения перекрестных распределений способом, аналогичным метод кластерного анализа выше. В результате получается полная картина метод кластерного анализа рынка. С такими данными можно аргументированно выбирать наиболее привлекательные целевые сегменты и разрабатывать стратегию позиционирования для каждого из них. Заключение Итак, в предлагаемой статье мы рассмотрели один из наиболее распространенных статистических методов сегментирования потребителей — иерархический метод кластерного анализа анализ. Читатель получил общее представление о теоретических основах данного метода. Также было описано, как на практике с использованием SPSS проводить кластерный анализ. Существенный акцент был сделан на наиболее сложном аспекте — практической интерпретации результатов кластерного анализа. Следует отметить, что даже в наиболее практически ориентированных работах приводятся искусственные примеры, метод кластерного анализа которых в результате кластеризации получаются идеальные целевые группы респондентов. В настоящей метод кластерного анализа мы нарочно взяли для иллюстрации действия кластерного анализа реальный пример из практического маркетингового исследования, не отличающийся идеальными пропорциями. Это позволило нам проиллюстрировать некоторые наиболее распространенные трудности при проведении кластерного анализа, а также оптимальные методы для их устранения. Using SPSS for the Windows and Macintosh: Analyzing and Understanding Data 3rd Edition. Также по этой теме: Полное или частичное воспроизведение или размножение каким-либо способом материалов допускается только с письменного разрешения Издательства «Дело и сервис». © 2000-2016 Все права принадлежат Издательству «Дело и сервис».