350 руб
Журнал «Нейрокомпьютеры: разработка, применение» №11 за 2014 г.
Статья в номере:
Нейросетевые методы распознавания кусочно-однородных объектов
Ключевые слова:
распознавание составных объектов
классификация
многослойная нейронная сеть
приближенные методы ближайшего соседа
марковские модели
фонема
словарь
Авторы:
А. В. Савченко - к.т.н., доцент, НИУ Высшая школа экономики (г. Н. Новгород); докторант-соискатель, Нижегородский государственный технический университет им. Р.Е. Алексеева. E-mail: avsavchenko@hse.ru
В. Р. Милов - д.т.н., профессор, зав. кафедрой «Электроника и сети ЭВМ», Нижегородский государственный технический университет им. Р.Е. Алексеева. E-mail: vladimir.milov@gmail.com
Аннотация:
На примере задач распознавания изображений и речи выполнен обзор современных архитектур нейронных сетей, применяемых для классификации объектов, состоящих из нескольких независимых сегментов. Приведена классификация методов распознавания в зависимости от доступного числа эталонов и количества классов. Рассмотрены быстрые приближенные методы ближайшего соседа, позволяющие повысить вычислительную эффективность для больших баз данных эталонов.
Страницы: 10-20
Список источников
- Theodoridis S., Koutroumbas K. Pattern Recognition, Fourth Edition. Burlington, MA. London: Academic Press. 2008. 984 p.
- Орлов А.И. О развитии математических методов теории классификации (обзор) // Заводская лаборатория. Диагностика материалов. 2009. Т. 75. № 7. С. 51-63.
- Журавлев Ю.И., Рязанов В.В., Сенько О.В. Распознавание. Математические методы. Программная система. Практические применения. М.: ФАЗИС. 2006. 176 с.
- Абусев Р.А., Лумельский Я.П. Статистическая групповая классификация: Учеб. пособие по спецкурсу. Пермь: Перм. ун-т. 1987. 97 с.
- Баранов В.Г., Кондратьев В.В., Милов В.Р., Зарипова Ю.Х. Нейросетевые алгоритмы распознавания образов // Нейрокомпьютеры: разработка, применение. 2007. № 11. С. 20-27.
- Haykin S.O. Neural Networks and Learning Machines. 3 ed. Harlow: Prentice Hall. 2008. 936 p.
- Rutkowski L. Computational Intelligence: Methods and Techniques. Softcover reprint of hardcover 1st ed. 2008 edition. Springer. 2010. 514 p.
- Abusev R.A. On group choice procedures for problems of classification and reliability in the case of lognormal variance // Journal of Mathematical Sciences. 2013. V. 189. № 6. P. 911-918.
- Савченко А.В. Образ как совокупность выборок независимых одинаково распределенных значений признаков в задачах распознавания сложноструктурированных объектов // Заводская лаборатория. Диагностика материалов. 2014. Т. 80. № 3. С. 70-80.
- Dalal N., Triggs B. Histograms of oriented gradients for human detection // IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2005. CVPR 2005. 2005. P. 886-893.
- Savchenko A.V. Directed enumeration method in image recognition // Pattern Recognition. 2012. V. 45. № 8. P. 2952-2961.
- Lowe D.G. Distinctive Image Features from Scale-Invariant Keypoints // International Journal of Computer Vision. 2004. V. 60. № 2. P. 91-110.
- Benesty J., Sondhi M.M., Huang Y. Springer Handbook of Speech Processing. Berlin: Springer. 2008. 1176 p.
- Qiao Y., Shimomura N., Minematsu N. Unsupervised optimal phoneme segmentation: Objectives, algorithm and comparisons // IEEE International Conference on Acoustics, Speech and Signal Processing. ICASSP 2008. 2008. P. 3989-3992.
- Myers C.S., Rabiner L.R. A comparative study of several dynamic time-warping algorithms for connected-word recognition // Bell System Technical Journal. 1981. V. 60. № 7. P. 1389-1409.
- Rabiner L., Juang B.-H. Fundamentals of Speech Recognition. Englewood Cliffs, N.J.: Prentice Hall. 1993. 496 p.
- Chapelle O., Schölkopf B., Zien A. Semi-Supervised Learning. 1 edition. Cambridge, Mass.: The MIT Press. 2010. 528 p.
- Erman L.D., Hayes-Roth F., Lesser V.R., Reddy D.R. The Hearsay-II Speech-Understanding System: Integrating Knowledge to Resolve Uncertainty // ACM Comput. Surv. 1980. V. 12. № 2. P. 213-253.
- Hinton G.E., Osindero S., Teh Y.-W. A Fast Learning Algorithm for Deep Belief Nets // Neural Computation. 2006. V. 18. № 7. P. 1527-1554.
- LeCun Y., Bottou L., Bengio Y., Haffner P. Gradient-based learning applied to document recognition // Proceedings of the IEEE. 1998. V. 86. № 11. P. 2278-2324.
- Hochreiter S., Schmidhuber J. Long Short-Term Memory // Neural Computation. 1997. V. 9. № 8. P. 1735-1780.
- Fukushima K. Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position // Biological Cybernetics. 1980. V. 36. P. 193-202.
- Shapiro L.G., Stockman G.C. Computer Vision. Upper Saddle River, NJ: Prentice Hall. 2001. 608 p.
- Savchenko A.V. Adaptive video image recognition system using a committee machine // Optical Memory and Neural Networks. 2012. V. 21. № 4. P. 219-226.
- Cireşan D., Meier U., Masci J., Schmidhuber J. Multi-column deep neural network for traffic sign classification // Neural Networks. 2012. V. 32. P. 333-338.
- Cireşan D., Meier U., Gambardella L.M., Schmidhuber J. Deep, Big, Simple Neural Nets for Handwritten Digit Recognition // Neural Computation. 2010. V. 22. № 12. P. 3207-3220.
- Schmidhuber J. Multi-column Deep Neural Networks for Image Classification // Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Washington. DC. USA: IEEE Computer Society. 2012. P. 3642-3649.
- Krizhevsky A., Sutskever I., Hinton G.E. ImageNet Classification with Deep Convolutional Neural Networks // Advances in Neural Information Processing Systems 25 / Ed. Pereira F. et al. Curran Associates, Inc. 2012. P. 1097-1105.
- Gillick L., Cox S.J. Some statistical issues in the comparison of speech recognition algorithms // International Conference on Acoustics, Speech, and Signal Processing (ICASSP-89). 1989. P. 532-535.
- Hand D.J. Classifier Technology and the Illusion of Progress // Statistical Science. 2006. V. 21. № 1. P. 1-14.
- Schuller B., Batliner A., Steidl S., Seppi D. Recognising realistic emotions and affect in speech: State of the art and lessons learnt from the first challenge // Speech Communication. 2011. V. 53. № 9-10. P. 1062-1087.
- Waibel A., Hanazawa T., Hinton G., Shikano K., Lang K.J. Phoneme recognition using time-delay neural networks // IEEE Transactions on Acoustics, Speech and Signal Processing. 1989. V. 37. № 3. P. 328-339.
- Bottou L., Fogelman Soulié F., Blanchet P., Liénard J.S. Speaker-independent isolated digit recognition: Multilayer perceptrons vs. Dynamic time warping // Neural Networks. 1990. V. 3. № 4. P. 453-465.
- Hinton G. et al. Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups // IEEE Signal Processing Magazine. 2012. V. 29. № 6. P. 82-97.
- Ghoshal A., Swietojanski P., Renals S. Multilingual training of deep neural networks // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2013. P. 7319-7323.
- Huang J.-T., Li J., Yu D., Deng L., Gong Y. Cross-language knowledge transfer using multilingual deep neural network with shared hidden layers // 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2013. P. 7304-7308.
- Graves A., Fernández S., Gomez F. Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks // In Proceedings of the International Conference on Machine Learning (ICML 2006). 2006. P. 369-376.
- Chow C. On optimum recognition error and reject tradeoff // IEEE Transactions on Information Theory. 1970. V. 16. № 1. P. 41-46.
- Graves A., Mohamed A., Hinton G.E. Speech recognition with deep recurrent neural networks // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2013). 2013. P. 6645-6649.
- Tan X., Chen S., Zhou Z.-H., Zhang F. Face recognition from a single image per person: A survey // Pattern Recognition. 2006. V. 39. № 9. P. 1725-1745.
- Милов В.Р. Синтез непараметрического классификатора на основе искусственных нейронных RBF-сетей // Изв. вузов. Сер. Радиофизика. 2003. Т. 46. № 2.
- Liao S., Zhu X., Lei Z., Zhang L., Li S.Z. Learning Multi-scale Block Local Binary Patterns for Face Recognition // Advances in Biometrics / Ed. Lee S.-W., Li S.Z. Springer Berlin Heidelberg. 2007. P. 828-837.
- Zhang G., Huang X., Li S.Z., Wang Y., Wu X. Boosting Local Binary Pattern (LBP)-Based Face Recognition // Advances in Biometric Person Authentication / Ed. Li S.Z. et al. Berlin Heidelberg: Springer. 2005. P. 179-186.
- Kullback S. Information Theory and Statistics. Mineola, N.Y.: Dover Publications. 1997. 432 p.
- СавченкоВ.В. Автоматическаяобработка речи по критерию минимума информационного рассогласования на основе метода обеляющего фильтра // Радиотехника и электроника. 2005. Т. 50. № 3.
- Specht D.F. Probabilistic neural networks // Neural networks. 1990. V. 3. № 1. P. 109-118.
- Боровков А.А. Математическая статистика: дополнительные главы. М.: Наука. 1984. 144 p.
- Савченко А.В. Метод фонетического кодирования в задаче распознавания изолированных слов // Радиотехника и электроника. 2014.Т. 59. № 4.
- Savchenko A.V. Probabilistic neural network with homogeneity testing in recognition of discrete patterns set // Neural Networks. 2013. V. 46. P. 227-241.
- Ушмаев О.С. Адаптация биометрической системы к искажающим факторам на примере дактилоскопической идентификации // Информатика и ее применения. 2009. Т. 3. № 2. С. 25-33.
- Silpa-Anan C., Hartley R. Optimised KD-trees for fast image descriptor matching // IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2008). 2008. P. 1-8.
- Gonzalez E.C., Figueroa K., Navarro G. Effective Proximity Retrieval by Ordering Permutations // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2008. V. 30. № 9. P. 1647-1658.
- Savchenko A.V. Face Recognition in Real-Time Applications: A Comparison of Directed Enumeration Method and K-d Trees // Perspectives in Business Informatics Research / Ed. Aseeva N., Babkin E., Kozyrev O. Berlin Heidelberg: Springer. 2012. P. 187-199.