350 руб
Журнал «Нейрокомпьютеры: разработка, применение» №11 за 2014 г.
Статья в номере:
Иерархическая система интеллектуального анализа и распознавания аудио- и видеообъектов
Ключевые слова:
распознавание образов
классификация
иерархическое распознавание
последовательный анализ
метод ближайшего соседа
проверка надежности решения
правило Чоу
нейронная сеть
Авторы:
А. В. Савченко - к.т.н., доцент, НИУ Высшая школа экономики (г. Н. Новгород); докторант-соискатель, Нижегородский государственный технический университет им. Р.Е. Алексеева. E-mail: avsavchenko@hse.ru
В. Р. Милов - д.т.н., профессор, зав. кафедрой «Электроника и сети ЭВМ», Нижегородский государственный технический университет им. Р.Е. Алексеева. E-mail: vladimir.milov@gmail.com
Аннотация:
Для решения задач автоматического анализа изображений и речи разработана структурная схема системы иерархического распознавания. В отличие от традиционных аналогов (таких как пирамиды гистограмм ориентированных градиентов), предложена схема последовательной детализации, в которой распознавание на следующем уровне иерархии продолжается только при получении на предыдущем уровне недостаточно надежных решений. Для проверки надежности применяется оптимальное правило Чоу сопоставления апостериорной вероятности принадлежности входного объекта с наперед заданным порогом. Для уточнения решения на каждом уровне использованы сопутствующие параметры - автоматически выделенные характеристики анализируемых объектов, такие как ракурс, гендерная принадлежность, возрастная категория человека для фотографий лиц или типы звуков (вокализованные, шипящие и т.п.) для сегментов речевого сигнала. Приведены примеры практического применения в задачах распознавания лиц и устной речи.
Страницы: 23-30
Список источников
- Hawkins J., Blakeslee S. On Intelligence. N.Y.: St. Martin-s Griffin. 2005. 272 с.
- Баранов В.Г., Милов В.Р., Зарипова Ю.Х. Интеллектуализация системы распознавания образов на основе сравнения эффективности методов классификации // Информационно-измерительные и управляющие системы. 2010. № 2. С. 35-38.
- Bosch A., Zisserman A., Munoz X. Representing Shape with a Spatial Pyramid Kernel // Proceedings of the 6th ACM International Conference on Image and Video Retrieval CIVR - 07. N.Y.: ACM. 2007. С. 401-408.
- Munoz D., Bagnell J.A., Hebert M. Stacked Hierarchical Labeling // Proceedings of the 11th European Conference on Computer Vision: Part VI ECCV-10. Berlin, Heidelberg: Springer-Verlag. 2010. С. 57-70.
- УтробинВ.А. Введениевтеориюактивноговосприятия // Датчикиисистемы. 2013. № 7(170). С. 34-39.
- Gai V.E. Signal comparison algorithm in terms of a priori uncertainty // Pattern Recognition and Image Analysis. 2013. V. 23. № 3. P. 348-351.
- LeCun Y., Bottou L., Bengio Y., Haffner P. Gradient-based learning applied to document recognition // Proceedings of the IEEE. 1998. V. 86. № 11. P. 2278-2324.
- Cireşan D., Meier U., Masci J., Schmidhuber J. Multi-column deep neural network for traffic sign classification // Neural Networks. 2012. V. 32. P. 333-338.
- Savchenko A.V. Directed enumeration method in image recognition // Pattern Recognition. 2012. V. 45. № 8. P. 2952-2961.
- Dalal N., Triggs B. Histograms of oriented gradients for human detection // IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2005). 2005. P. 886-893.
- Chow C.K. On optimum recognition error and reject trade-off // IEEE Transactions on Information Theory.1970.V. 16.P. 41-46.
- Савченко В.В., Савченко А.В. Принцип минимального информационного рассогласования в задаче распознавания дискретных объектов // Изв. вузов. Сер. Радиоэлектроника. 2005. Вып.3. С.10-18.
- WangH., WangY., CaoY. Video-basedfacerecognition: asurvey // WorldAcademyofScience. EngineeringandTechnologies. 2009. V. 60. P. 293-302.
- Bellustin N., Kovalchuck A., Telnykh A., Shemagina O., Yakhno V., Kalafati Y., Abhishek Vaish, Pinki Shar-ma, Shirshu Verma. Instant Human Face Attributes Recognition System // IJACSA. International Journal of Advanced Computer Science and Applications, Special Issue on Artificial Intelligence. 2011. P. 112-120.
- Theodoridis S., Koutroumbas K. Pattern Recognition, Fourth Edition. Burlington. MA; London: Academic Press. 2008. 984 p.
- Savchenko A.V. Adaptive video image recognition system using a committee machine // Optical Memory and Neural Networks. 2012. V. 21. № 4. P. 219-226.
- Журавлев Ю.И. Об алгебраическом подходе к решению задач распознавания или классификации // Проблемы кибернетики. 1978. Т. 33. С. 5-68.
- Savchenko A.V., Khokhlova Ya.I. About neural-network algorithms application in viseme classification problem with face video in audiovisual speech recognition systems // Optical Memory and Neural Networks (Information Optics). 2014. V. 23. № 1. P. 34-42.
- RealSpeaker Audio-Visual Speech Recognition - Voice to Text. http://realspeaker.net/
- Campr P., Pražák A., Psutka J.V., Psutka J. Online Speaker Adaptation of an Acoustic Model Using Face Recognition // Proceedings of the International Conference on Text, Speech, and Dialogue TSD-2013 Int.Conf. LNCS/LNAI. 2013. V. 8082. P. 378-385.
- МиловВ.Р. Адаптивныйприемсигналов. Н.Новгород: НГТУ. 2005. 15 с.
- Pawlak Z. Rough Sets: Theoretical Aspects of Reasoning About Data. Norwell. MA: Kluwer Academic Publishers. 1992.
- Wald A. Sequential Analysis. N.Y.: Dover Publications. 2013. 224 с.
- Savchenko A.V. Probabilistic neural network with homogeneity testing in recognition of discrete patterns set // Neural Networks. 2013. V. 46. P. 227-241.
- Specht D.F. Probabilistic neural networks // Neural Networks. 1990. V. 3. № 1. P. 109-118.
- Benesty J., Sondhi M.M., Huang Y. Springer Handbook of Speech Processing. Berlin: Springer. 2008. 1176 p.
- Савченко Л.В. Алгоритм пофонемного распознавания устной речи на основе метода нечеткого фонетического кодирования-декодирования слов // Информационно-измерительные и управляющие системы. 2014. №1. С. 23-31.
- Савченко А.В. Метод фонетического кодирования в задаче распознавания изолированных слов // Радиотехника и электроника. 2014. № 4. C. 339-345.
- Yale Face Database. http://vision.ucsd.edu/content/yale-face-database
- AT&T Database of Faces. http://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html
- Савченко А.В. Выбор параметров алгоритма распознавания изображений на основе коллектива решающих правил и принципа максимума апостериорной вероятности // Компьютерная оптика. 2012. Т. 36. № 1. С. 117-124.
- Савченко А.В., Милов В.Р. Вероятностные нейросетевые модели и методы распознавания составных объектов // Труды VIВсерос. научно-практ. конф. «Нечеткие системы и мягкие вычисления-2014». СПб.: Политехника-сервис. 2014. Т. 2. С. 200-208.