Foreversoft.ru

IT Справочник
0 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Кластерный анализ в excel пример

Excel кластерный анализ

Применение кластерного анализа в Microsoft Excel

​Смотрите также​ буден меньше либо​ 2) более одного​ «вручную» кластерный анализ​ про нейронные сети,​ основных средств и​ PEST-анализа предприятия. Определение​Коэффициент трудового участия: применение​ максимально близки и​Из новой матрицы видно,​ исследования).​ способам терапии.​

​ рынка, анализируются сельские​ сложной процедурой, но​

Использование кластерного анализа

​ есть, ищем самые​. Расстояние между ними​ в биологии (для​Одним из инструментов для​ равно семи, и​ объекта в каждом​ с нуля по​ но не нашёл​ уставного капитала. Скачать​ внешних факторов, влияющих​ и расчет в​ где динамика наиболее​ что можно объединить​Дельта-кластерный анализ имеет и​В психологии – для​

​ хозяйства для сравнения​ на самом деле​ меньшие значения. Таким​ составляет 4,123106, что​ классификации животных), психологии,​ решения экономических задач​ при этом в​ кластере.​ 10 параметрам фактически​ достойной реализации. Есть​ трансформационную таблицу МСФО.​ на продажи и​ Excel.​

Пример использования

​ схожа. Для исследования,​ в один кластер​ свои недостатки:​​ определения типов поведения​​ производительности, например, прогнозируется​​ разобраться в нюансах​​ образом мы видим,​

    ​ меньше, чем между​ медицине и во​ является кластерный анализ.​ каждом кластере будет​

​ невозможно. Используйте статпакеты.​ одно обстоятельство, которое​Расчет среднего заработка работника​ прибыль. Пример применения​Коэффициент трудового участия​

​ к примеру, товарной​ объекты [4, 5]​состав и количество кластеров​ личности в определенных​​ конъюнктура рынка отдельных​​ данного метода не​​ что нашу совокупность​​ любыми другими элементами​ многих других сферах​ С его помощью​ более одного объекта.​Изначально количество кластеров​

​ Если такой возможности​ сильно усложняет процесс​ в Excel при​ маркетингового инструмента в​​ чаще всего применяется​​ и общехозяйственной конъюнктуры​ и 6 (как​ зависит от заданного​ ситуациях.​ продуктов и т.д.​ так уж тяжело.​ данных можно разбить​ данной совокупности.​ деятельности человека. Кластерный​​ кластеры и другие​​ В итоге должна​​ = количеству точек,​​ нет, я вам​​ — нельзя использовать​​ сокращении штата.​​ Excel (исследование магазина)​​ при начислении зарплаты​

  • ​ этот метод отлично​ наиболее близкие друг​ критерия разбиения;​В экономическом анализе –​По сути, кластерный анализ​ Главное понять основную​ на два кластера.​Объединяем эти данные в​ анализ можно применять,​ объекты массива данных​ получиться точечная диаграмма​ то есть каждая​ сочувствую.​ никакие надстройки и​Как рассчитать средний​Матрица БКГ: построение и​​ работникам-сдельщикам. Как рассчитать​​ подходит.​​ к другу по​​при преобразовании исходного набора​​ при изучении и​​ – это совокупность​​ закономерность объединения в​​ В первом кластере​ группу и формируем​ используя для этих​ классифицируются по группам.​​ на которой точки​​ точка в своем​Как это все​ расширения, используется стандартный​ заработок при сокращении​ анализ в Excel​
  • ​ КТУ: формула, таблица​Выполнения анализа данных​ значениям). Оставляем наименьшее​

    ​ данных в компактные​ прогнозировании экономической депрессии,​ инструментов для классификации​ группы.​ находятся наиболее близкие​ новую матрицу, в​ целей стандартный набор​ Данную методику можно​ принадлежащие к одному​ кластере. Находим «центры​ выполнять можно поискать​

    Как сделать кластерный анализ в Excel: сфера применения и инструкция

    ​ работника в связи​ на примере предприятия.​ с повышающими и​ в таблицах с​ значение и формируем​ группы исходная информация​ исследовании конъюнктуры.​ многомерных объектов. Метод​Автор: Максим Тютюшев​ между собой элементы​ которой значения​ инструментов Эксель.​

    ​ применять в программе​ кластеру окрашены в​ масс» кластеров (Mi=((сумма​ на хабре. Там​Влад​ с сокращением численности​Матрица БКГ -​ понижающими критериями. ​ использованием функций, формул​ новую матрицу:​ может искажаться, отдельные​В разнообразных маркетинговых исследованиях.​ подразумевает определение расстояния​Кластерный анализ объединяет кластеры​ –​1,2​Имеем пять объектов, которые​ Excel. Посмотрим, как​

    Многомерный кластерный анализ

    ​ какой-нибудь свой цвет.​ Хi )/Nx; (сумма​ есть отличные статьи​: Что это за​ или штата для​ великолепный инструмент портфельного​Расчет коэффициента финансовой активности​ и встроенных стандартных​

    ​Объекты 1 и 2​ объекты могут терять​Когда нужно преобразовать «горы»​ между переменными (дельты)​ и переменные (объекты),​1​выступают отдельным элементом.​ характеризуются по двум​ это делается на​

    ​ В добавок ко​ Уi)/Ny) на данном​ по алгоритмам.​ группировка в Вашем​ начисления выходного пособия​

    ​ анализа. Рассмотрим на​

    1. ​ в Excel: формула​ инструментов, а также​ можно объединить в​
    2. ​ свою индивидуальность;​ информации в пригодные​ и последующее выделение​ похожие друг на​
    3. ​,​ При составлении матрицы​ изучаемым параметрам –​ практике.​
    4. ​ всему, весь процесс​ этапе это -​stylecolor​ понимании? Если это​
    5. ​ за первый и​

    ​ примере в Excel​ по балансу.​ практическое применение расширяемых​ один кластер (как​часто игнорируется отсутствие в​

    ​ для дальнейшего изучения​

    • ​ групп наблюдений (кластеров).​ друга. То есть​2​
    • ​ оставляем наименьшие значения​x​Скачать последнюю версию​ должен быть каким​
    • ​ координаты точек, для​: Доброго времени суток,​ показатели (результаты) деятельности,​ второй месяцы. 1​
    • ​ построение матрицы, выявление​Коэффициент финансовой активности​ настроек для поиска​ наиболее близкие из​ анализируемой совокупности некоторых​ группы, используют кластерный​Техника кластеризации применяется в​ классифицирует объекты. Часто​

    ​,​ из предыдущей таблицы​

    • ​и​ Excel​ то образом заметен,​
    • ​ каждого кластера. Теперь​ умным людям!​ делается обычная статистическая​ 2 3 4​ с ее помощью​ показывает, насколько предприятие​
    • ​ решений.​ имеющихся). Выбираем наименьшее​ значений кластеров.​

    ​ анализ.​

    Как сделать кластерный анализ в Excel

    ​ самых разнообразных областях.​ при решении экономических​4​ для объединенного элемента.​

    ​y​С помощью кластерного анализа​ но это пока​

    ​ нужно найти расстояния​Дано:​

    ​ группировка, для которой​ 5 6 7​ перспективных и бесперспективных​ зависит от заемных​Коэффициент оборачиваемости дебиторской задолженности​ значение и формируем​​Преимущества метода:​ Главное задача –​

    ​ задач, имеющих достаточно​,​ Опять смотрим, между​.​ можно проводить выборку​ не так важно.​ между всеми центрами​А(нижний предел) =​ Вы должны иметь​MaxGol​

    ​ товаров.​ средств. Характеризует финансовую​ в Excel.​ новую матрицу расстояний.​Для примера возьмем шесть​позволяет разбивать многомерный ряд​ разбить многомерный ряд​ большое число данных,​5​

    ​ какими элементами расстояние​Применяем к данным значениям​ по признаку, который​

    ​ Мне б для​ масс, то есть​ 0; В(верхний предел)​ или определить критерии.​: Необходимо разделить имеющиеся​SWOT анализ слабые и​

    ​ устойчивость и прибыльность.​Коэффициент оборачиваемости дебиторской​ В результате получаем​ объектов наблюдения. Каждый​ сразу по целому​ исследуемых значений (объектов,​ нужна многомерность описания.​. Во втором кластере​ минимально. На этот​ формулу эвклидового расстояния,​ исследуется. Его основная​ начала с самой​ от каждой точки​

    Анализ данных в Excel с помощью функций и вычислительных инструментов

    Анализ данных и поиск решений

    Кластерный анализ

    ​ анализа, – как​​ которых необходимо много​ других объектов. Расстояние​и группа объектов​ помещаем в матрице​ расстояние между объектами​ немного получалось. Языки,​ для каждого кластера,​ 100. Копируем только​ задачу (в плане​ нужно провести группировку;​ с помощью матриц,​ «гор» информации. Позволяет​ Excel.​
    ​ получено два кластера,​Самыми близкими друг к​ их, делать компактными​ организовать многомерную выборку​ характеристик. Он позволяет​ между кластерами составляет​1,2​ расстояний.​ по заданному параметру.​ как я поняла,​ опять найти все​ значения, получаем набор​ техники расчетов), то​

    ​ 3) несколько периодов​​ составление проблемного поля.​ объединить данные в​Что показывает коэффициент​ расстояние между которыми​ другу объектами являются​ и наглядными;​ в наглядные структуры.​ разбить выборку на​

    Читать еще:  Найти подстроку в excel vba

    ​ 9,84.​​. Дистанция составляет 6,708204.​Смотрим, между какими значениями​ Наиболее близкие друг​ родные. Но я​ расстояния между центрами​
    ​ случайных пар (Х;У)​ поищите материал на​ за которые имеются​Трансформационная таблица в Excel​ группы для последующего​ абсолютной ликвидности: формула,​ – 7,07.​ объекты 4 и​

    ​может применяться циклически (проводится​​Примеры использования кластерного анализа:​ несколько групп по​На этом завершается процедура​Добавляем указанные элементы в​ дистанция меньше всего.​ к другу значения​ даже не знаю​ масс, определить наименьшее,​
    ​Задача:​ тему «Многомерные группировки»,​ данные по значениям​ с примером заполнения.​ исследования. Пример применения​

    Кластерный анализ. VBA Excel

    ​ пример расчета? Нормативное​​Огромное значение имеет кластерный​ 5. Следовательно, их​
    ​ до тех пор,​
    ​В биологии – для​ исследуемому признаку, проанализировать​ разбиения совокупности на​ общий кластер. Формируем​ В нашем примере​ группируются вместе.​ с чего начать.​ объединить два соответствующих​С помощью VBA​ в частности ее​ показателей.​Как составить трансформационную​
    ​ кластерного анализа.​
    ​ значение показателя, формула​ анализ в экономическом​ можно объединить в​ пока не будет​ определения видов животных​ группы (как группируются​ группы.​ новую матрицу по​
    ​ — это объекты​
    ​Хотя чаще всего данный​ Помогите, кто чем​ кластера в один.​ произвести кластеризацию объектов(точек​ вариант на основе​Я понятия не​ таблицу МСФО: обновление​Анализ макросреды PEST-анализом в​ по балансу, пример​ анализе. Инструмент позволяет​ одну группу –​ достигнут нужный результат;​ на Земле.​ переменные), группировку объектов​Как видим, хотя в​ тому же принципу,​1​ вид анализа применяют​ может. Важен любой​ И так до​ с координатами(Х;У)). Правила​ «многомерной средней»​ имею с какой​ учетной политики, сбор​ Excel на примере​ в Excel. Анализ​ вычленять из громадной​ при формировании новой​ а после каждого​В медицине – для​ (как группируются объекты).​ целом кластерный анализ​ что и в​и​ в экономике, его​ совет.​ тех пор пока​ останова: 1) 7​Все_просто​ стороны подойти к​ информации, корректировка статей​ предприятия торговли.​ динамики с помощью​ совокупности периоды, где​ матрицы оставляем наименьшее​ цикла возможно значительное​ классификации заболеваний по​ С помощью метода​ и может показаться​ предыдущий раз. То​2​ также можно использовать​Кластеризация.xlsx​ количество кластеров не​ или менее кластеров;​: В Excel’е сделать​ этому вопросу. Читал​ баланса. Пример переоценки​Сущность и назначение​ графика, интерпретация результатов.​ значения соответствующих параметров​ значение.​ изменение направленности дальнейшего​
    ​ группам симптомов и​

    Применение кластерного анализа в Microsoft Excel

    Одним из инструментов для решения экономических задач является кластерный анализ. С его помощью кластеры и другие объекты массива данных классифицируются по группам. Данную методику можно применять в программе Excel. Посмотрим, как это делается на практике.

    Использование кластерного анализа

    С помощью кластерного анализа можно проводить выборку по признаку, который исследуется. Его основная задача – разбиение многомерного массива на однородные группы. В качестве критерия группировки применяется парный коэффициент корреляции или эвклидово расстояние между объектами по заданному параметру. Наиболее близкие друг к другу значения группируются вместе.

    Хотя чаще всего данный вид анализа применяют в экономике, его также можно использовать в биологии (для классификации животных), психологии, медицине и во многих других сферах деятельности человека. Кластерный анализ можно применять, используя для этих целей стандартный набор инструментов Эксель.

    Пример использования

    Имеем пять объектов, которые характеризуются по двум изучаемым параметрам – x и y.

      Применяем к данным значениям формулу эвклидового расстояния, которое вычисляется по шаблону:

    Данное значение вычисляем между каждым из пяти объектов. Результаты расчета помещаем в матрице расстояний.

    Объединяем эти данные в группу и формируем новую матрицу, в которой значения 1,2 выступают отдельным элементом. При составлении матрицы оставляем наименьшие значения из предыдущей таблицы для объединенного элемента. Опять смотрим, между какими элементами расстояние минимально. На этот раз – это 4 и 5, а также объект 5 и группа объектов 1,2. Дистанция составляет 6,708204.

  • Добавляем указанные элементы в общий кластер. Формируем новую матрицу по тому же принципу, что и в предыдущий раз. То есть, ищем самые меньшие значения. Таким образом мы видим, что нашу совокупность данных можно разбить на два кластера. В первом кластере находятся наиболее близкие между собой элементы – 1,2,4,5. Во втором кластере в нашем случае представлен только один элемент — 3. Он находится сравнительно в отдалении от других объектов. Расстояние между кластерами составляет 9,84.
  • На этом завершается процедура разбиения совокупности на группы.

    Как видим, хотя в целом кластерный анализ и может показаться сложной процедурой, но на самом деле разобраться в нюансах данного метода не так уж тяжело. Главное понять основную закономерность объединения в группы.

    Отблагодарите автора, поделитесь статьей в социальных сетях.

    Кластерный анализ (на примере сегментации потребителей) часть 1

    Мы знаем, что Земля – это одна из 8 планет, которые вращаются вокруг Солнца. Солнце – это всего лишь звезда среди порядка 200 миллиардов звезд в галактике Млечный Путь. Очень тяжело осознать это число. Зная это, можно сделать предположение о количестве звезд во вселенной – приблизительно 4X10^22. Мы можем видеть около миллиона звезд на небе, хотя это всего лишь малая часть от всего фактического количества звезд. Итак, у нас появилось два вопроса:

    1. Что такое галактика?
    2. И какая связь между галактиками и темой статьи (кластерный анализ)

    Галактика – это скопление звезд, газа, пыли, планет и межзвездных облаков. Обычно галактики напоминают спиральную или эдептическую фигуру. В пространстве галактики отделены друг от друга. Огромные черные дыры чаще всего являются центрами большинства галактик.

    Как мы будем обсуждать в следующем разделе, есть много общего между галактиками и кластерным анализом. Галактики существуют в трехмерном пространстве, кластерный анализ – это многомерный анализ, проводимый в n-мерном пространстве.

    Заметка: Черная дыра – это центр галактики. Мы будем использовать похожую идею в отношении центроидов для кластерного анализа.

    Кластерный анализ

    Предположим вы глава отдела по маркетингу и взаимодействию с потребителями в телекоммуникационной компании. Вы понимаете, что все потребители разные, и что вам необходимы различные стратегии для привлечения различных потребителей. Вы оцените мощь такого инструмента как сегментация клиентов для оптимизации затрат. Для того, чтобы освежить ваши знания кластерного анализа, рассмотрим следующий пример, иллюстрирующий 8 потребителей и среднюю продолжительность их разговоров (локальных и международных). Ниже данные:

    Для лучшего восприятия нарисуем график, где по оси x будет откладываться средняя продолжительность международных разговоров, а по оси y — средняя продолжительность локальных разговоров. Ниже график:

    Заметка: Это похоже на анализ расположения звезд на ночном небе (здесь звезды заменены потребителями). В дополнение, вместо трехмерного пространства у нас двумерное, заданное продолжительностью локальных и международных разговоров, в качестве осей x и y.
    Сейчас, разговаривая в терминах галактик, задача формулируется так – найти положение черных дыр; в кластерном анализе они называются центроидами. Для обнаружения центроидов мы начнем с того, что возьмем произвольные точки в качестве положения центроидов.

    Евклидово расстояние для нахождения Центроидов для Кластеров

    В нашем случае два центроида (C1 и C2) мы произвольным образом поместим в точки с координатами (1, 1) и (3, 4). Почему мы выбрали именно эти два центроида? Визуальное отображение точек на графике показывает нам, что есть два кластера, которые мы будем анализировать. Однако, впоследствии мы увидим, что ответ на этот вопрос будет не таким уж простым для большого набора данных.
    Далее, мы измерим расстояние между центроидами (C1 и C2) и всеми точками на графике использую формулу Евклида для нахождения расстояния между двумя точками.

    Читать еще:  Как вставить числа в excel

    Примечание: Расстояние может быть вычислено и по другим формулам, например,

    1. квадрат евклидова расстояния – для придания веса более отдаленным друг от друга объектам
    2. манхэттенское расстояние – для уменьшения влияния выбросов
    3. степенное расстояние – для увеличения/уменьшения влияния по конкретным координатам
    4. процент несогласия – для категориальных данных
    5. и др.

    Колонка 3 и 4 (Distance from C1 and C2) и есть расстояние, вычисленное по этой формуле. Например, для первого потребителя

    Принадлежность к центроидам (последняя колонка) вычисляется по принципу близости к центроидам (C1 и C2). Первый потребитель ближе к центроиду №1 (1.41 по сравнению с 2.24) следовательно, принадлежит к кластеру с центроидом C1.

    Ниже график, иллюстрирующий центроиды C1 и C2 (изображенные в виде голубого и оранжевого ромбика). Потребители изображены цветом соответствующего центроида, к кластеру которого они были отнесены.

    Так как мы произвольным образом выбрали центроиды, вторым шагом мы сделать этот выбор итеративным. Новая позиция центроидов выбирается как средняя для точек соответствующего кластера. Так, например, для первого центроида (это потребители 1, 2 и 3). Следовательно, новая координата x для центроида C1 э то средняя координат x этих потребителей (2+1+1)/3 = 1.33. Мы получим новые координаты для C1 (1.33, 2.33) и C2 (4.4, 4.2).Новый график ниже:

    В конце концов, мы поместим центроиды в центр соответствующего кластера. График ниже:

    Позиции наших черных дыр (центров кластеров) в нашем примере C1 (1.75, 2.25) и C2(4.75, 4.75). Два кластера выше подобны двум галактикам, разделенным в пространстве друг от друга.

    Итак, рассмотрим примеры дальше. Пусть перед нами стоит задача по сегментации потребителей по двум параметрам: возраст и доход. Предположим, что у нас есть 2 потребителя с возрастом 37 и 44 лет и доходом в $90,000 и $62,000 соответственно. Если мы хотим измерить Евклидово расстояние между точками (37, 90000) и (44, 62000), мы увидим, что в данном случае переменная доход «доминирует» над переменной возраст и ее изменение сильно сказывается на расстоянии. Нам необходима какая-нибудь стратегия для решения данной проблемы, иначе наш анализ даст неверный результат. Решение данной проблемы это приведение наших значений к сравнимым шкалам. Нормализация – вот решение нашей проблемы.

    Нормализация данных

    Существует много подходов для нормализации данных. Например, нормализация минимума-максимума. Для данной нормализации используется следующая формула

    в данном случае X* — это нормализованное значение, min и max – минимальная и максимальная координата по всему множеству X
    (Примечание, данная формула располагает все координаты на отрезке [0;1])
    Рассмотрим наш пример, пусть максимальный доход $130000, а минимальный — $45000. Нормализованное значение дохода для потребителя A равно

    Мы сделаем это упражнение для всех точек для каждых переменных (координат). Доход для второго потребителя (62000) станет 0.2 после процедуры нормализации. Дополнительно, пусть минимальный и максимальный возрасты 23 и 58 соответственно. После нормализации возрасты двух наших потребителей составит 0.4 и 0.6.

    Легко увидеть, что теперь все наши данные расположены между значениями 0 и 1. Следовательно, у нас теперь есть нормализованные наборы данных в сравнимых шкалах.

    Запомните, перед процедурой кластерного анализа необходимо произвести нормализацию.

    ключевых слов по весу

    Рассказывает
    Роман Игошин ,
    ведущий джедай

    Эта статья о том, как распределить по группам ключевых слов. Поможет сэкономить время маркетологам, которые регулярно создают рекламные кампании.

    Вручную группировать запросы не всегда эффективно: перебрать запросов можно за час, уйдет неделя. Автоматическим сервисам группировку я не доверю, так как она определяет структуру и управляемость кампании.

    Поэтому придумал свой метод, который ускоряет кластеризацию и даёт осознанный результат. Облегчает жизнь при работе ключевых слов. Пробовал работать с 45 000 — Excel начинал умирать. Список запросов быстрее перебрать руками.

    Далее расскажу про свой метод кластеризации в теории, а затем — как реализую его в Excel. Дам ссылку на готовый . Но чтобы им пользоваться, нужно хорошо понимать метод.

    Метод

    Кластеризация — распределение запросов по кластерам. Кластер — это группа запросов, схожих по смыслу и набору слов. Чтобы выделить такие запросы и объединить их в кластер, нужен признак.

    Используем для этого нормализованную форму запроса — уберём окончания и выстроим слова в порядке важности:

    Удаление окончаний позволит охватить все возможные словоформы для конкретного слова, а сортировка «по важности» — игнорировать порядок слов.

    Убираем окончания

    Слово без окончания — это признак, который объединяет разные словоформы:

    Чтобы убирать окончания я использую mystem. Это лемматизатор от Яндекса. Он обрабатывает список слов и возвращает нормализованные значения — леммы.

    Если система не уверена, какая лемма правильная, то покажет . Например, для слова «банку» mystem вернёт две леммы: «банк» и «банка». При проверке результатов мы выберем нужную.

    Определяем важность

    Сортировка «по важности» позволит игнорировать порядок слов. При сортировке нормализованных значений фраз по алфавиту мы получим готовые кластеры — группы запросов, схожих по смыслу и набору слов.

    Важность слова — вычисляемый параметр для конкретного списка ключевых слов. Он не определяет важность слова в общей картине мира.

    Важность слова рассчитывается из частотности и количества упоминаний слов в списке. Рассмотрим на примере.

    Берём список запросов с частотностью

    1. Купить бумеранг — 1000
    2. Бумеранги цена — 700
    3. Бумеранги в москве — 750
    4. Купить классический бумеранг — 450
    5. Цены на бумеранги в москве — 350
    6. Купить классический бумеранг в москве — 100

    В списке запросов встречаются слова: купить, бумеранг, классический, москва, цена, в, на. Вес слова равен сумме долей частотностей помноженных на количество упоминаний слова.

    Считаем доли частотностей

    1. Купить бумеранг — 1000 = 1000/2 = 500
    2. Бумеранги цена — 700 = 700/2 = 350
    3. Бумеранги в москве — 750 = 750/3 = 250
    4. Купить классический бумеранг — 450 = 450/3 = 150
    5. Цены на бумеранги в москве — 350 = 350/5 = 70
    6. Купить классический бумеранг в москве — 100 = 100/5 = 20

    Считаем вес слов

    1. Купить — (500+150+20)*3 = 2010
    2. Бумеранг — (500+350+250+150+70+20)*6 = 8040
    3. Классический — (150+20)*2 = 340
    4. Москва — (250+70)*2 = 640
    5. Цена — (350+70)*2 = 840
    6. В — 20
    7. На — 70

    Сортируем по важности

    1. 8040 — бумеранг
    2. 2010 — купить
    3. 840 — цена
    4. 640 — москва
    5. 340 — классический
    6. 70 — на
    7. 20 — в

    Располагаем запросы по важности

    1. Купить бумеранг — бумеранг | купить
    2. Бумеранги цена — бумеранг | цена
    3. Бумеранги в москве — бумеранг | москва
    4. Купить классический бумеранг — бумеранг | купить | классический
    5. Цены на бумеранги в москве — бумеранг | цена | москва | на | в
    6. Купить классический бумеранг в москве — бумеранг | купить | москва | классический | в
    Читать еще:  Не сохранились изменения в excel

    Упорядочиваем и чистим

    1. Бумеранг | купить: купить бумеранг — 1000
    2. Бумеранг | купить | классический: купить классический бумеранг — 450
    3. Бумеранг | купить | москва | классический: купить классический бумеранг в москве — 100
    4. Бумеранг | москва: бумеранги в москве — 750
    5. Бумеранг | цена: бумеранги цена — 700
    6. Бумеранг | цена | москва: цены на бумеранги в москве — 350

    В итоге получили первые группы объявлений, с которыми можно работать дальше: укрупнять, объединять, . Для этого используем Excel.

    Реализация в Excel

    Выполняем последовательность действий в таблице (XLS, 537 КБ) с формулами. Кластеризация 1000 запросов займет 30 минут.

    Алгоритм одной строкой

    Собираем СЯ → собираем частотность → разбиваем запросы по словам и вычисляем доли весов → формируем с весами слов → выделяем леммы для слов → вычисляем «вес» леммы → формируем с леммами → делаем первичную кластеризацию → укрупняем полученные группы.

    Шаг 1. Вычисляем доли весов и разбиваем запросы по словам

    Лист «Кластеризация», таблица «Main»

    Чтобы избежать правки формул называйте все листы и таблицы аналогично

    1. Вычисляем доли весов:
      1. Доли весов = Частотность / .
      2. =LEN ([@Ключ])-LEN (SUBSTITUTE ([@Ключ],» «,»»))+1.

      Шаг 2. Формируем с весами слов

      Лист «Слова — Леммы», таблица «Word»

      1. Копируем столбцы W1—W7 на новый лист.
      2. Преобразуем таблицу из формата
        [W1] [W2] [W3] [W4] [W5] [W6] [W7] [Доли весов] в формат:
        [W1] → [Доли весов]
        [W2] → [Доли весов]
        [W3] → [Доли весов]
        [W4] → [Доли весов]
        [W5] → [Доли весов]
        [W6] → [Доли весов]
        [W7] → [Доли весов]:

      Шаг 3. Выделяем леммы и дорабатываем справочник со словами

      Лист «Слова — Леммы», таблица «Word»

      1. Копируем полученный на прошлом шаге список слов «как есть».
      2. Обрабатываем через mystem → получаем леммы для каждого слова.
      3. Считаем каждой леммы.

      Шаг 4. Формируем с леммами

      Лист «Леммы», таблица «Lemmas»

      1. Копируем полученный список лемм на новый лист и удаляем дубли.
      2. Из справочника со словами подтягиваем -во упоминаний каждой леммы.
      3. Считаем в лемме.
      4. Вычисляем «вес» леммы:
        Вес Леммы= [Сумма долей весов слов, входящих в Лемму] * [ Леммы].
        Формула:
        =(SUMIF (Words[Lemma],[@Лемма], Words[Доли весов]))*[@[]].
      5. Сортируем леммы по столбцу «вес» — от большего к меньшему.
      6. Проставляем «Статус» для лемм — минимальный для старшей леммы (лучше начать с 1 000), дальше +1 к следующему статусу:

      Шаг 5. Делаем первичную кластеризацию

      Лист «Кластеризация», таблица «Main»

      Для каждого слова в столбцах W1—W7 подтягиваем «Статус» → записываем их столбцы :

      Итак, что мы сделали. Разбили запросы по словам. Для каждого слова выделили лемму — можем объединить запросы по общим словам. Для каждой леммы посчитали вес. Остаётся выстроить слова в запросе в порядке важности. Тогда при сортировке по алфавиту запросы сами объединятся в группы объявлений.

      Выстраиваем слова в порядке важности функцией SMALL. В диапазоне статусов L1 – L7 ищем самый маленький статус — это самое важное слово во фразе. Затем, ищем второй самый маленький статус — это второе по важности слово во фразе. И так еще пять раз — проверяем оставшиеся столбцы L3 – L7.

      Получаем последовательность статусов. Например, 37 → 100 → 200 → 700. Для каждого статуса подтягиваем Лемму из справочника Лемм. Соединяем Леммы нормализованное значение фразы. Я использую его как название группы объявлений.

      Сортируем по алфавиту:

      Полная рабочая формула .

      Шаг 6. Укрупняем полученные группы

      Игнорируя окончания и порядок слов, мы объединили запросы с одинаковым набором слов. Количество групп стремится к количеству слов — это 100 % точность инструмента. Можно использовать, если вы предпочитаете работать с запросами в точном соответствии.

      Чтобы укрупнить группы, нужно уменьшить точность — снизить количество лемм, которые составляют «нормализованную форму».

      Что можно удалить:

      • одинокие буквы, цифры, предлоги, доменные зоны. Леммы длиной ;
      • редкие леммы — меньше среднего по списку;
      • леммы с малым весом — недостаточно «важные»;
      • в редких случаях — топонимы.

      Важно: лемму не удаляем, только её «Статус» — этого достаточно, чтобы лемма не попала в «нормализованную форму»:

      В основной таблице ничего править не надо — результат обновится самостоятельно.

      До какой степени укрупнять: я стремлюсь к среднему показателю в одной группе объявлений и слежу за максимальным количеством фраз (помним про ограничения систем контекстной рекламы).

      Резюме

      Полученный список групп удобно и двигать между кампаниями. Название группы поможет писать объявления — вы сами определяете важные слова в названии группы.

      Ещё раз алгоритм: собираем СЯ → собираем частотность → разбиваем запросы по словам и вычисляем доли весов → формируем с весами слов → выделяем леммы для слов → вычисляем «вес» леммы → формируем с леммами → делаем первичную кластеризацию → укрупняем полученные группы.

      Отзывы джедаев о кластеризаторе

      «Я помогал Роме с созданием инструмента на ранних этапах. Всем рекомендую попробовать кластеризатор для ядра от 2000 ключевых слов → сэкономит время.

      Инструмент можно улучшить и превратить в автоматический сервис. Также можно дорабатывать формулы определения веса лемм. Но и в текущем виде он поможет специалистам по контексту, которые работают с большой семантикой.»

      «С помощью кластеризатора сильно удобнее и быстрее сгруппировать фразы и потом писать объявления для них. Из недостатков — первый раз кажется, что это сложновато. Но когда попробуешь, то всё довольно понятно. Но эту штуку лучше автоматизировать.»

      «Методику пробовал, но не использую в работе, потому что нечасто собираю контекст в больших объемах.

      Хорошо подойдет для работы с большой семантикой, особенно в свете последних нововведений яндекса по низкочастотным запросам. Группировки помогут сэкономить много времени при подготовке ключевых фраз.

      Методика на первый взгляд кажется сложной и громоздкой, но если разобраться, то процесс становится понятным и удобным.»

      «Кластеризация от Ромы просто находка! Методом пользуюсь каждый раз когда работаю с семантикой — собираю или корректирую кампании.

      Больше всего мне нравятся три вещи:

      • я регулирую какие фразы попадут в группу. Если вес фразы небольшой, то объединяю с похожими. Не придерживаюсь принципа «один ключ — одна группа», иначе управлять кампанией сложно;
      • понимаю механику и вижу какие фразы должны быть в заголовке. Конечно, важно делать полное вхождение ключевого слова. Часто оно не вмещается полностью и я строю заголовок из фраз с бо́льшим весом;
      • это Excel, который всем знаком. Не нужно устанавливать дополнительные программы и платить за сервис. Если разобраться в формулах, то уже немного прокачаешься.

      Из минусов: все формулы я копирую из готового шаблона и переключаться между окнами одной программы неудобно. Я бы хотела иметь формулы под рукой, а может сделать в будущем шаблон, чтобы сократить количество копирований. Ещё хотелось бы сократить время группировки, но пока не нашла способ.

      В целом, способ мне нравится тем, что механика простая и понятная, её легко внедрить и потом управлять кампаниями.»

    Ссылка на основную публикацию
    Adblock
    detector