Список форумов neuroproject.ru neuroproject.ru
Форум сайта компании НейроПроект
 
 FAQFAQ   ПоискПоиск   ПользователиПользователи   ГруппыГруппы   РегистрацияРегистрация 
 ПрофильПрофиль   Войти и проверить личные сообщенияВойти и проверить личные сообщения   ВходВход 

Каким образом определить объем обучающей выборки?

 
Начать новую тему   Ответить на тему    Список форумов neuroproject.ru -> Нейронные сети
Предыдущая тема :: Следующая тема  
Автор Сообщение
Arsen
Новый посетитель
Новый посетитель


Зарегистрирован: 23 Ноя 2005
Сообщения: 3
Откуда: Пермь

СообщениеДобавлено: Ср Ноя 23, 2005 5:40 pm    Заголовок сообщения: Каким образом определить объем обучающей выборки? Ответить с цитатой

Доброе время суток. Я смотрю здесь есть хорошие специалисты по нейронным сетям, потому решил задать сюда вопрос

Тема моей работы - прогнозирование уровня шума от автотранспорта на основе экспериментальных данных.

Я хочу построить и обучить нейронную сеть, чтобы на основании данных об интенсивности транспортного потока и прочих факторов (7 входных параметров) она выдавала уровень максимального и эквивалентного шума.

Предполагаю что это будет двух- или трехслойный персептрон.

На данном этапе я планирую эксперимент по измерению этих параметров и соответствующего им уровня шума, и мне надо до начала эксперимента оценить количество измерений, необходимое для формирования обучающей выборки.

Хотелось бы чтобы это количество было небольшим (т. к. одно измерение длится не менее получаса), но в то же время заведомо достаточным для обучения сети обобщению этих данных (т. к. после осуществления серии измерений прибор нужно возвращать).

К сожалению я не нашел в сети критериев оценки объема обучающей выборки, может кто-нибудь подскажет?

Ну и впоследствии мне также придется еще определить более точно количество слоев и нейронов, хотя наверное это уже быстро можно будет сделать эмпирическим путем.

Спасибо.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Посетить сайт автора
Victor G. Tsaregorodtsev
Эксперт
Эксперт


Зарегистрирован: 28 Июн 2005
Сообщения: 114
Откуда: Красноярск

СообщениеДобавлено: Чт Ноя 24, 2005 10:21 am    Заголовок сообщения: Re: Каким образом определить объем обучающей выборки? Ответить с цитатой

Arsen писал(а):

надо до начала эксперимента оценить количество измерений, необходимое для формирования обучающей выборки.


Такое вряд ли получится сделать - нужный объем задается моментом достижения состоятельности оценок модели: здесь под состоятельностью я понимаю не традиционное для статистики определение свойства алгоритма оценивания параметра, а прекращение осцилляций свойств модели и свойств ее прогноза при малых приращениях размера выборки (при переходе за рубеж достаточности объема выборки) и малые расхождения между обученными нейросетями одного и того же размера при таких объемах выборки.

О возможных рецептах:
1. Попробовать увеличить малую выборку путем ее зашумления - добавления в выборку возмущенных шумом копий исходных векторов.
2. Не использовать нейросети (по крайней мере, многослойный персептрон), а использовать растущие алгоритмы (растущие сети наподобие сетей каскадной корреляции, алгоритм МГУА) - на каждом шаге наращивания размера модели тогда придется оценивать гораздо меньшее число параметров модели, и выборка, недостаточная, например, для модели с 100 переменными, станет представительной для настройки подблока модели с числом переменных=5 (например).
_________________
www.neuropro.ru - нейросети, анализ данных, прогнозирование
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
Arsen
Новый посетитель
Новый посетитель


Зарегистрирован: 23 Ноя 2005
Сообщения: 3
Откуда: Пермь

СообщениеДобавлено: Чт Ноя 24, 2005 3:08 pm    Заголовок сообщения: Re: Каким образом определить объем обучающей выборки? Ответить с цитатой

Victor G. Tsaregorodtsev писал(а):

Такое вряд ли получится сделать - нужный объем задается моментом достижения состоятельности оценок модели


то есть подавать новые примеры до тех пор, пока не обучится? а сколько примеров (хотябы примерно) для этого необходимо - сто, тысяча или сто тысяч - оценить предварительно вообще невозможно?

Мне доцент кафедры информационных технологий сказала что количество примеров для обучения перспептрона должно примерно в десять раз превышать кол-во его связей. Но что-то я нигде не встречал такой формулы, интересно откуда она взялась.

Цитата:

1. Попробовать увеличить малую выборку путем ее зашумления -
добавления в выборку возмущенных шумом копий исходных векторов.


Спасибо, это интересная идея. Таким образом можно увеличить обучающую выборку насколько угодно, правильно я понял? но все-же непонятно сколько мне замеров сделать надо. Одного-то явно недостаточно.

Цитата:

2. Не использовать нейросети (по крайней мере, многослойный персептрон), а использовать растущие алгоритмы (растущие сети наподобие сетей каскадной корреляции, алгоритм МГУА)


это надо будет мне посмотреть.. хотя в сети и в книжке что у меня есть, написано что нейронные сети чуть ли не лучше всех остальных методов справляются с подобными задачами.

спасибо за быстрый ответ и информацию!
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Посетить сайт автора
Victor G. Tsaregorodtsev
Эксперт
Эксперт


Зарегистрирован: 28 Июн 2005
Сообщения: 114
Откуда: Красноярск

СообщениеДобавлено: Чт Ноя 24, 2005 3:57 pm    Заголовок сообщения: Re: Каким образом определить объем обучающей выборки? Ответить с цитатой

Arsen писал(а):

то есть подавать новые примеры до тех пор, пока не обучится?


нет, не "пока не обучится", а пока выборка не станет репрезентативной для этой задачи. На тестовой и обучающей выборках, извлеченных из одной генеральной совокупности, нейросеть должна показывать близкую точность решения (т.е. чтобы не было так, что сеть полностью правильно отвечает на обучающей выборке и врет в 50% случаев на тестовой). Существенные различия в значениях ошибок обучения и обобщения показывают на нерепрезентативность обучающей выборки или неадекватность модели (даже построенной по репрезентативной обучающей выборке - например, если нейросетка "переучится" и запомнит шум в данных). Иных рекомендаций нет.

Цитата:

Мне доцент кафедры информационных технологий сказала что количество примеров для обучения перспептрона должно примерно в десять раз превышать кол-во его связей. Но что-то я нигде не встречал такой формулы, интересно откуда она взялась.


Не знаю - спрашивайте ее

Цитата:

но все-же непонятно сколько мне замеров сделать надо. Одного-то явно недостаточно.


Знал бы прикуп - жил бы в Сочи. Ваше пожелание из этой оперы, а ясновидящих на форуме нет.

Цитата:

в сети и в книжке что у меня есть, написано что нейронные сети чуть ли не лучше всех остальных методов справляются с подобными задачами.


Сильно смелое утверждение. Универсальные аппроксимационные способности доказаны и для нейросеток, и для методов полиномиальной аппроксимации, и для иных методов - т.е. насчет "запоминания" обучающей выборки все подобные методы равнозначны с теоретической точки зрения. А какое качество обобщения будет (интер- и экстраполяционная точность) в конкретной задаче - это надо у гадалок спрашивать или самому проверять все методы и сопоставлять их результаты.
Еще даже данные не собраны - как можно прикинуть, какой из методов будет предпочтительнее, не зная свойства задачи и набора данных?
_________________
www.neuropro.ru - нейросети, анализ данных, прогнозирование
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
Arsen
Новый посетитель
Новый посетитель


Зарегистрирован: 23 Ноя 2005
Сообщения: 3
Откуда: Пермь

СообщениеДобавлено: Чт Ноя 24, 2005 4:15 pm    Заголовок сообщения: Re: Каким образом определить объем обучающей выборки? Ответить с цитатой

Victor G. Tsaregorodtsev писал(а):

...
На тестовой и обучающей выборках, извлеченных из одной генеральной совокупности, нейросеть должна показывать близкую точность решения
....
Еще даже данные не собраны - как можно прикинуть, какой из методов будет предпочтительнее, не зная свойства задачи и набора данных?


Спасибо, мне кажется многое прояснилось в моей голове. За исключением того, как правильно запланировать эксперимент (сколько данных надо собирать).

Я так понял, невозможно запланировать его таким образом, чтобы быть уверенным что выборка на основе его результатов будет репрезентативной для данной задачи.

То есть в любом случае нет гарантии, что за одну серию измерений, сколько бы их ни было, я смогу получить достаточно репрезентативную выборку. Нужно руководствоваться принципом "чем больше - тем лучше", исходить из реальных возможностей и при этом ничего не гарантировать. Научный руководитель меня подвесит, если после всех усилий ничего не получится
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Посетить сайт автора
Victor G. Tsaregorodtsev
Эксперт
Эксперт


Зарегистрирован: 28 Июн 2005
Сообщения: 114
Откуда: Красноярск

СообщениеДобавлено: Чт Ноя 24, 2005 4:59 pm    Заголовок сообщения: Re: Каким образом определить объем обучающей выборки? Ответить с цитатой

Arsen писал(а):

Я так понял, невозможно запланировать его таким образом, чтобы быть уверенным что выборка на основе его результатов будет репрезентативной для данной задачи.


Не буду сильно настаивать на такой формулировке - ссылки на доказательства такого утверждения вряд ли смогу предоставить (да и особо не интересовался именно такой постановкой вопроса). А эмпирическое мое мнение примерно так и можно переформулировать, поскольку заранее даже требуемая сложность модели неизвестна (при одной независимой переменной и зависящей от нее линейно зависимой переменной линейную модель можно построить только по двум точкам - но утверждение, что двух точек может хватить, делается после получения третьей и т.д. точек и показа, что они все с первыми двумя лежат на одной прямой и хорошо будут прогнозироваться линейной моделью, построенной по первым двум точкам) и все оценки числа точек, минимально необходимых для идентификации модели той или иной степени, будут взяты с потолка (поскольку мы чаще всего заранее не знаем, какой степени нелинейности зависимость между зависимыми и независимыми признаками, какое число шумовых или дублирующих независимых признаков).

Подождите, может, кто еще к обсуждению подключится и даст еще советы.
_________________
www.neuropro.ru - нейросети, анализ данных, прогнозирование
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
Показать сообщения:   
Начать новую тему   Ответить на тему    Список форумов neuroproject.ru -> Нейронные сети Часовой пояс: GMT + 4
Страница 1 из 1

 
Перейти:  
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах


Rambler's Top100 Rambler's Top100