350 руб
Журнал «Нейрокомпьютеры: разработка, применение» №11 за 2014 г.
Статья в номере:
Нейросетевые методы распознавания кусочно-однородных объектов
Авторы:
А. В. Савченко - к.т.н., доцент, НИУ Высшая школа экономики (г. Н. Новгород); докторант-соискатель, Нижегородский государственный технический университет им. Р.Е. Алексеева. E-mail: avsavchenko@hse.ru В. Р. Милов - д.т.н., профессор, зав. кафедрой «Электроника и сети ЭВМ», Нижегородский государственный технический университет им. Р.Е. Алексеева. E-mail: vladimir.milov@gmail.com
Аннотация:
На примере задач распознавания изображений и речи выполнен обзор современных архитектур нейронных сетей, применяемых для классификации объектов, состоящих из нескольких независимых сегментов. Приведена классификация методов распознавания в зависимости от доступного числа эталонов и количества классов. Рассмотрены быстрые приближенные методы ближайшего соседа, позволяющие повысить вычислительную эффективность для больших баз данных эталонов.
Страницы: 10-20
Список источников

  1. Theodoridis S., Koutroumbas K. Pattern Recognition, Fourth Edition. Burlington, MA. London: Academic Press. 2008. 984 p.
  2. Орлов А.И. О развитии математических методов теории классификации (обзор) // Заводская лаборатория. Диагностика материалов. 2009. Т. 75. № 7. С. 51-63.
  3. Журавлев Ю.И., Рязанов В.В., Сенько О.В. Распознавание. Математические методы. Программная система. Практические применения. М.: ФАЗИС. 2006. 176 с.
  4. Абусев Р.А., Лумельский Я.П. Статистическая групповая классификация: Учеб. пособие по спецкурсу. Пермь: Перм. ун-т. 1987. 97 с.
  5. Баранов В.Г., Кондратьев В.В., Милов В.Р., Зарипова Ю.Х. Нейросетевые алгоритмы распознавания образов // Нейрокомпьютеры: разработка, применение. 2007. № 11. С. 20-27.
  6. Haykin S.O. Neural Networks and Learning Machines. 3 ed. Harlow: Prentice Hall. 2008. 936 p.
  7. Rutkowski L. Computational Intelligence: Methods and Techniques. Softcover reprint of hardcover 1st ed. 2008 edition. Springer. 2010. 514 p.
  8. Abusev R.A. On group choice procedures for problems of classification and reliability in the case of lognormal variance // Journal of Mathematical Sciences. 2013. V. 189. № 6. P. 911-918.
  9. Савченко А.В. Образ как совокупность выборок независимых одинаково распределенных значений признаков в задачах распознавания сложноструктурированных объектов // Заводская лаборатория. Диагностика материалов. 2014. Т. 80. № 3. С. 70-80.
  10. Dalal N., Triggs B. Histograms of oriented gradients for human detection // IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2005. CVPR 2005. 2005. P. 886-893.
  11. Savchenko A.V. Directed enumeration method in image recognition // Pattern Recognition. 2012. V. 45. № 8. P. 2952-2961.
  12. Lowe D.G. Distinctive Image Features from Scale-Invariant Keypoints // International Journal of Computer Vision. 2004. V. 60. № 2. P. 91-110.
  13. Benesty J., Sondhi M.M., Huang Y. Springer Handbook of Speech Processing. Berlin: Springer. 2008. 1176 p.
  14. Qiao Y., Shimomura N., Minematsu N. Unsupervised optimal phoneme segmentation: Objectives, algorithm and comparisons // IEEE International Conference on Acoustics, Speech and Signal Processing. ICASSP 2008. 2008. P. 3989-3992.
  15. Myers C.S., Rabiner L.R. A comparative study of several dynamic time-warping algorithms for connected-word recognition // Bell System Technical Journal. 1981. V. 60. № 7. P. 1389-1409.
  16. Rabiner L., Juang B.-H. Fundamentals of Speech Recognition. Englewood Cliffs, N.J.: Prentice Hall. 1993. 496 p.
  17. Chapelle O., Schölkopf B., Zien A. Semi-Supervised Learning. 1 edition. Cambridge, Mass.: The MIT Press. 2010. 528 p.
  18. Erman L.D., Hayes-Roth F., Lesser V.R., Reddy D.R. The Hearsay-II Speech-Understanding System: Integrating Knowledge to Resolve Uncertainty // ACM Comput. Surv. 1980. V. 12. № 2. P. 213-253.
  19. Hinton G.E., Osindero S., Teh Y.-W. A Fast Learning Algorithm for Deep Belief Nets // Neural Computation. 2006. V. 18. № 7. P. 1527-1554.
  20. LeCun Y., Bottou L., Bengio Y., Haffner P. Gradient-based learning applied to document recognition // Proceedings of the IEEE. 1998. V. 86. № 11. P. 2278-2324.
  21. Hochreiter S., Schmidhuber J. Long Short-Term Memory // Neural Computation. 1997. V. 9. № 8. P. 1735-1780.
  22. Fukushima K. Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position // Biological Cybernetics. 1980. V. 36. P. 193-202.
  23. Shapiro L.G., Stockman G.C. Computer Vision. Upper Saddle River, NJ: Prentice Hall. 2001. 608 p.
  24. Savchenko A.V. Adaptive video image recognition system using a committee machine // Optical Memory and Neural Networks. 2012. V. 21. № 4. P. 219-226.
  25. Cireşan D., Meier U., Masci J., Schmidhuber J. Multi-column deep neural network for traffic sign classification // Neural Networks. 2012. V. 32. P. 333-338.
  26. Cireşan D., Meier U., Gambardella L.M., Schmidhuber J. Deep, Big, Simple Neural Nets for Handwritten Digit Recognition // Neural Computation. 2010. V. 22. № 12. P. 3207-3220.
  27. Schmidhuber J. Multi-column Deep Neural Networks for Image Classification // Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Washington. DC. USA: IEEE Computer Society. 2012. P. 3642-3649.
  28. Krizhevsky A., Sutskever I., Hinton G.E. ImageNet Classification with Deep Convolutional Neural Networks // Advances in Neural Information Processing Systems 25 / Ed. Pereira F. et al. Curran Associates, Inc. 2012. P. 1097-1105.
  29. Gillick L., Cox S.J. Some statistical issues in the comparison of speech recognition algorithms // International Conference on Acoustics, Speech, and Signal Processing (ICASSP-89). 1989. P. 532-535.
  30. Hand D.J. Classifier Technology and the Illusion of Progress // Statistical Science. 2006. V. 21. № 1. P. 1-14.
  31. Schuller B., Batliner A., Steidl S., Seppi D. Recognising realistic emotions and affect in speech: State of the art and lessons learnt from the first challenge // Speech Communication. 2011. V. 53. № 9-10. P. 1062-1087.
  32. Waibel A., Hanazawa T., Hinton G., Shikano K., Lang K.J. Phoneme recognition using time-delay neural networks // IEEE Transactions on Acoustics, Speech and Signal Processing. 1989. V. 37. № 3. P. 328-339.
  33. Bottou L., Fogelman Soulié F., Blanchet P., Liénard J.S. Speaker-independent isolated digit recognition: Multilayer perceptrons vs. Dynamic time warping // Neural Networks. 1990. V. 3. № 4. P. 453-465.
  34. Hinton G. et al. Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups // IEEE Signal Processing Magazine. 2012. V. 29. № 6. P. 82-97.
  35. Ghoshal A., Swietojanski P., Renals S. Multilingual training of deep neural networks // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2013. P. 7319-7323.
  36. Huang J.-T., Li J., Yu D., Deng L., Gong Y. Cross-language knowledge transfer using multilingual deep neural network with shared hidden layers // 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2013. P. 7304-7308.
  37. Graves A., Fernández S., Gomez F. Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks // In Proceedings of the International Conference on Machine Learning (ICML 2006). 2006. P. 369-376.
  38. Chow C. On optimum recognition error and reject tradeoff // IEEE Transactions on Information Theory. 1970. V. 16. № 1. P. 41-46.
  39. Graves A., Mohamed A., Hinton G.E. Speech recognition with deep recurrent neural networks // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2013). 2013. P. 6645-6649.
  40. Tan X., Chen S., Zhou Z.-H., Zhang F. Face recognition from a single image per person: A survey // Pattern Recognition. 2006. V. 39. № 9. P. 1725-1745.
  41. Милов В.Р. Синтез непараметрического классификатора на основе искусственных нейронных RBF-сетей // Изв. вузов. Сер. Радиофизика. 2003. Т. 46. № 2.
  42. Liao S., Zhu X., Lei Z., Zhang L., Li S.Z. Learning Multi-scale Block Local Binary Patterns for Face Recognition // Advances in Biometrics / Ed. Lee S.-W., Li S.Z. Springer Berlin Heidelberg. 2007. P. 828-837.
  43. Zhang G., Huang X., Li S.Z., Wang Y., Wu X. Boosting Local Binary Pattern (LBP)-Based Face Recognition // Advances in Biometric Person Authentication / Ed. Li S.Z. et al. Berlin Heidelberg: Springer. 2005. P. 179-186.
  44. Kullback S. Information Theory and Statistics. Mineola, N.Y.: Dover Publications. 1997. 432 p.
  45. СавченкоВ.В. Автоматическаяобработка речи по критерию минимума информационного рассогласования на основе метода обеляющего фильтра // Радиотехника и электроника. 2005. Т. 50. № 3.
  46. Specht D.F. Probabilistic neural networks // Neural networks. 1990. V. 3. № 1. P. 109-118.
  47. Боровков А.А. Математическая статистика: дополнительные главы. М.: Наука. 1984. 144 p.
  48. Савченко А.В. Метод фонетического кодирования в задаче распознавания изолированных слов // Радиотехника и электроника. 2014.Т. 59. № 4.
  49. Savchenko A.V. Probabilistic neural network with homogeneity testing in recognition of discrete patterns set // Neural Networks. 2013. V. 46. P. 227-241.
  50. Ушмаев О.С. Адаптация биометрической системы к искажающим факторам на примере дактилоскопической идентификации // Информатика и ее применения. 2009. Т. 3. № 2. С. 25-33.
  51. Silpa-Anan C., Hartley R. Optimised KD-trees for fast image descriptor matching // IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2008). 2008. P. 1-8.
  52. Gonzalez E.C., Figueroa K., Navarro G. Effective Proximity Retrieval by Ordering Permutations // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2008. V. 30. № 9. P. 1647-1658.
  53. Savchenko A.V. Face Recognition in Real-Time Applications: A Comparison of Directed Enumeration Method and K-d Trees // Perspectives in Business Informatics Research / Ed. Aseeva N., Babkin E., Kozyrev O. Berlin Heidelberg: Springer. 2012. P. 187-199.