neuroproject.ru

Алексей Юрьевич

Хотелось бы узнать, какова последовательность решения задачи разделения массива данных на однородные элементы по нескольким признакам (например для товаров, которые продает компания):

цена (например, от 50 до 1000 руб),
сумма проданного (от 10 тысяч до 1 млн)
остатки (то же, что и проданное)
артикул
наименование.
Таких товаров (позиций) может быть несколько тысяч.
Как я понял, Deductor очень негативно относится к столбцам данных в виде артикул (много ячеек различного формата, букв и цифр вместе).
Опытным путем установил, что два столбца – артикул и наименование - следует отнести в крайнюю правую часть таблицы. Крайним левым столбцом будет тогда столбец «цена». После этого при попытке перейти сразу к вкладке «Карта Кохонена» во вкладке «Настройка назначений столбцов» рядом с названиями столбцов в окне «Назначение» возникает (автоматически) указание «Непригодны», то есть эти данные не могут быть использованы для анализа.
Какова причина, при импорте они не были правильно обозначены, тип и вид данных был указан неправильно?
Далее, во вкладках «Очистка данных» проводим «Парциальную обработку», во вкладке «Трансформация данных» проводим «Настройку набора данных» и «Квантование», при этом в графе «Тип данных» для столбцов «цена», «продажи» и «остатки» указываем «тип данных – целое», «назначение» - «входное», для столбцов «артикул» и «наименование» - назначение «информационные», «строковые».
После этого карта Кохонена создается, но по ее виду понятно, что хотя и указано примерное количество кластеров как 3 (что рекомендуют многие монографии как первичное входное значение, например программа Statistica), карта построена не совсем корректно, отдельные части кластеров разбросаны по карте и единой картины не образуют, таким же образом распределены высокие и низкие значения массива по признакам (столбцам).
Если же не указывать количество кластеров, то Deductor строит автотматически до 10-12 кластеров, что совсем не поддается никакому логическому толкованию.
При попытке вычислить значения коэффициентов корреляции между, например, ценой и продажами диаграмма рассеяния значений некорректна, много значений факторов-признаков находится вне поля допуска.
Где в этих рассуждениях скрыта ошибка?
Программы Statistica, SPSS и другие предлагают нормирование (стандартизацию) значений, в Deductor она также есть, но каким бы образом указанные данные (цена, продажи, остатки) не были бы обозначены (тип и вид данных), вкладка «нормализация» недоступна.
И еще один вопрос, после получения схемы нейронной сети, примем, что она правильно обучена, какие действия далее возможны, внизу схемы указаны коэффициенты для узлов нейронной сети, как я понимаю, это коэффициенты уравнения, но каков его вид и как далее применять обученную нейронную сеть, каким образом подставлять эти коэффициенты и в какое уравнение?
Я считаю, именно с такими и им подобными данными сталкивается большинство пользователей, работающих в коммерции, и сталкиваются они с теми же проблемами.
Вид данных я указал, цели анализа указал, все этапы работы также указал. Как мне кажется, вопросы достаточно ясные – в каком виде эти данные должны быть введены в Data Mining и что поможет оценить корректность результатов?

Victor G. Tsaregorodtsev

Не в тот раздел форума написали, и вообще не на тот форум Wink

>После этого карта Кохонена создается, но по ее виду понятно, что хотя и указано примерное количество кластеров

Карта Кохонена не решает задачу кластеризации данных.

>Если же не указывать количество кластеров, то Deductor строит автотматически до 10-12 кластеров, что совсем не поддается никакому логическому толкованию.

При кластерном анализе используется некоторая гипотеза компактности данных (собственно, и позволяющая какие-то данные сводить в один кластер, а какие-то данные - разводить по разным кластерам). Эта гипотеза компактности формулируется на языке математики и в виде, допускающем её программную реализацию. Ваше субъективное толкование результатам работы этой гипотезы может и не соответствовать - поэтому либо переходите к мышлению с использованием реализованной гипотезы компактности, либо формализуйте свои субъективные мысли и сами реализуйте их в виде компьютерного алгоритма кластеризации.

Ну и я не думаю, что Ваши данные вообще можно кластеризовать. По показателям
>цена (например, от 50 до 1000 руб),
>сумма проданного (от 10 тысяч до 1 млн)
>остатки (то же, что и проданное)
скорее всего получится обычное трехмерное унимодальное распределение (типа асимметричного гауссова распределения, если позволено будет так не совсем корректно обобщить). Но это только моя гипотеза - я Ваши данные не видел, кластера в них может быть и будут существовать.
_________________
neuropro.ru - нейронные сети, анализ данных, прогнозирование