350 руб
Журнал «Информационно-измерительные и управляющие системы» №9 за 2013 г.
Статья в номере:
Методы автоматической постобработки результатов распознавания в задачах оцифровки архивных документов
Авторы:
С.В. Смирнов - аспирант, Санкт-Петербургский институт информатики и автоматизации РАН (СПИИРАН)
Аннотация:
Рассмотрены ключевые задачи разработки и построения систем автоматической корректировки ошибок в результатах работы OCR систем. Приведена классификация ошибок распознавания, показаны существующие методы нахождения и корректировки ошибок.
Страницы: 22-32
Список источников
- Karen Kukich«Techniques for Automatically Correcting Words in Text». ACM Comput. Surv., 24(4):377-439, 1992.
- Kai Niklas«Unsupervised Post-Correction of OCR Errors». Leibniz Universit at Hannover, 2010.
- Jones M. A, Story G. A., Ballard B. W.1991. Integrating multiple knowledge sourcesm a Bayesian OCR post-processor. In Proceedings of IDCAR-91 (St Malo, France), 925-933.
- Tesseract-ocr - An OCR Engine that was developed at HP Labs between 1985 and 1995... and now at Google. Google Project Hosting // http://code.google.com/p/tesseract-ocr/.
- Volk, Martin; Furrer, Lenz; Sennrich, Rico Strategies for reducing and correcting OCR error. University of Zurich, 2011.
- Программа для распознавания текста ABBYYFineReader// http://www.abbyy.ru/finereader/.
- Wing-Soon Wilson Lian. «Heuristic-Based OCR Post-Correction for Smart Phone Applications». Honors thesis, 2009
- Rusell R. C. Odell M. K.Patent Numbers, 1,261,167 (1918) and 1,435,663 (1922). U.S. Patent Office, 1918.
- Lawrence Philips. The Double Metaphone Search Algorithm. C/C++ Users J., 18(6):38-43, 2000.
- Joseph J. Pollock and Antonio Zamora. Automatic Spelling Correction in Scientific and Scholarly Text. Commun. ACM, 27(4):358-368, 1984.
- Eric Mays, Fred J. Damerau, and Robert L. Mercer. Context Based Spelling Correction. Inf. Process. Manage., 27(5):517-522, 1991.
- Google Web 1T Data. http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp-catalogId=LDC2006T13.
- Davide Fossati and Barbara Di Eugenio A Mixed Trigrams Approach for Context Sensitive Spell Checking. In CICLing - 07: Proceedings of the 8th International Conference on Computational Linguistics and Intelligent Text Processing, pages 623 - 633, Berlin, Heidelberg, 2007. Springer-Verlag.
- Filip Ginter, Jorma Boberg, Jouni J¨arvinen, and Tapio Salakoski New Techniques for Disambiguation in Natural Language and Their Application to Biological Text. J. Mach. Learn. Res., 5:605-621, 2004.
- Wick M., Ross M., and Learned-Miller E. Context-Sensitive Error Correction: Using Topic Models to Improve OCR. In ICDAR - 07: Proceedings of the Ninth International Conference on Document Analysis and Recognition, pages 1168 - 1172, Washington, DC, USA, 2007. IEEE Computer Society.
- Christian M.Strohmaier. Methoden der lexikalischen Nachkorrektur OCR-erfasster Dokumente, 2004.
- Программа для распознавания текста OmniPage // http://www.nuance.com/for-business/by-product/omnipage/index.htm.
- Levenshtein V. I.Binary Codes Capable of Correcting Deletions, Insertions, and Reversals. Soviets Physics Doklady, 10(8): 707 - 710, 1966.
- Martin Reynaert Text Induced Spelling Correction. In COLING - 04: Proceedings of the 20th international conference on Computational Linguistics, page 834, Morristown, NJ, USA, 2004. Association forComputational Linguistics.