И.М. Лернер1, А.Х. Мариносян2, С.Г. Григорьев3, А.Р. Юсупов4, М.А. Аникьева5, Г.А. Гарифуллина6
1 Казанский национальный исследовательский технический университет
им. А.Н. Туполева – КАИ (г. Казань, Россия)
2,3 Московский городской педагогический университет (Москва, Россия)
4 Башкирский государственный педагогический университет им. М. Акмуллы (г. Уфа, Россия)
5 Сибирский федеральный университет (г. Красноярск, Россия)
6 Казанский национальный исследовательский технологический университет (г. Казань, Россия)
1 aviap@mail.ru, 2 marinos.andrey@yandex.ru, 3 grigorsg@yandex.ru, 4 azat.yusupov@bk.ru, 5 MAnikieva@sfu-kras.ru, 6 gulnarakdrv03@mail.ru
Постановка проблемы. Сегодня, в эпоху перехода к информационному обществу, проблема анализа и обработки научной информации стоит крайне остро. Это обусловлено тем, что использование результатов и обработки прямо и косвенно влияет на стратегию страны в области образовательной деятельности. Прямое влияние проявляется во внедрении результатов научной деятельности в образовательный процесс в форме учебного материала. В то же время косвенное влияние задействует более сложный механизм, который имеет более долговременный результат за счёт реализации эффектов от поколенческих ценностей, которые формируются в возрасте 12–14 лет под воздействием существующего технологического развития, семейных ценностей и социокультурной обстановки, что, в свою очередь, формирует образцы поведения, которые влияют на процесс выбора и изучения новой информации, выработки новых подходов, принятия ключевых решений, что напрямую оказывает воздействие на промышленный потенциал страны. В настоящее время существует достаточно обширное число наукометрических методов для исследования научной информации. Однако все эти методы используют в той или иной форме формальный анализ и бесконтекстный подход к оценке цитирований, которые не позволяют качественно оценить обработку и трансформацию информации в процессе научной деятельности, что является необходимым условием для развития промышленности страны.
Цель. Разработать алгоритм классификации научной информации посредством формирования запросов с использованием больших языковых моделей для обеспечения контекстного анализа цитирований в научных работах и классификации научной информации на основании глубокого семантического анализа.
Результаты. Сформированы требования к выборке научной информации, обеспечивающие наиболее качественные результаты анализа с точки зрения экспертного мнения. Представлен алгоритм формирования запросов к большим языковым моделям, позволяющий обеспечить контекстный анализ и классификацию библиографических ссылок в научной информации. Предложен подход для кластеризации научной информации с учётом мультидисциплинарного характера исследований и обеспечения преемственности исследований на базе лингвистических базисов. Показано, что качество контекстного анализа библиографических ссылок за счёт разработанного алгоритма возросло на 27% по сравнению с использованием большой языковой модели без данного алгоритма.
Практическая значимость. На основе экспериментальных данных можно выполнить предсказания изменений в социальной и образовательной сферах.
Лернер И.М., Мариносян А.Х., Григорьев С.Г., Юсупов А.Р., Аникьева М.А., Гарифуллина Г.А. Подход к формированию интеллектуальной академической генеалогии с использованием больших языковых моделей // Электромагнитные волны и электронные системы. 2024. Т. 29. № 4. С. 108−120. DOI: https://doi.org/10.18127/j15604128-202404-09
- Шрайберг Я.Л. Информационный рынок, образовательная и библиотечная среда в современном цифровом окружении: новые веяния и ожидаемые результаты // Восьмой Междунар. профессиональный форум «Книга. Культура. Образование. Инновации» М.: Государственная публичная научно-техническая библиотека России. 2024. 48 с. DOI 10.33186/978-5-85638-274-6-2024.
- Лернер И.М., Карелина Е.А., Григорьев С.Г., Байков Ф.Ю., Дымкова С.С., Ильин В.И. Модель отбора информационных ресурсов на базе теории поколений, наукометрии и факторной методики исследования личности как инструмент развития глобальных цифровых платформ // Научные и технические библиотеки. 2024. № 1. С. 15–50.
- Лернер И.М., Байков Ф.Ю., Карелина Е.А., Григорьев С.Г., Сычев А.С., Дымкова С.С. Построение типичных профилей обучаемых поколения Z для повышения качества образовательного процесса // Информатика и образование. 2023. Т. 38. № 6. С. 5–13.
- Price D.J. Little science, big science and beyond. NY: Columbia University Press. 1986. 336 p.
- Garfield E. Citation analysis as a tool in journal evaluation // Science. 1972. V. 178. № 4060. P. 471–479. DOI 10.1126/science. 178.4060.471.
- Garfield E. Citation indexing: Its theory and application in science, technology, and humanities. NY: John Wiley & Sons. 1979. 274 p.
- Rousseau R., Zhang L. Betweenness centrality and Q-measures in directed valued networks // Scientometrics. 2008. V. 75. № 3. P. 575–590. DOI 10.1007/s11192-007-1772-2.
- Roth C., Wu J., Lozano S. Assessing impact and quality from local dynamics of citation networks // Journal of Informetrics. 2012. V. 6. № 1. P. 111–120. DOI 10.1016/j.joi.2011.08.005.
- Small H. Co-citation in the scientific literature: A new measure of the relationship between two documents // Journal of the American Society for Information Science. 1973. V. 24. № 4. P. 265–269. DOI 10.1002/asi.4630240406.
- Leydesdorff L. The Evolutionary Dynamics of Discursive Knowledge. Qualitative and Quantitative Analysis of Scientific and Scholarly Communication. Cham: Springer. 2021. 248 p.
- Daraio C., Di Leo S., Leydesdorff L. A heuristic approach based on Leiden rankings to identify outliers: evidence from Italian universities in the European landscape // Scientometrics. 2023. V. 128. № 1. P. 483–510. DOI 10.1007/s11192-022-04551-y.
- Leydesdorff L., Bornmann L. Disruption indices and their calculation using web-of-science data: Indicators of historical developments or evolutionary dynamics? // Journal of Informetrics. 2021. V. 15. № 4. P. 101219. DOI 10.1016/j.joi.2021.101219.
- Funk R.J., Owen-Smith J. A dynamic network measure of technological change // Management Science. 2017. V. 63. № 3. P. 791–817. DOI 10.1287/mnsc.2015.2366.
- Wu S., Wu Q. A confusing definition of disruption. [Электронный ресурс] – Режим доступа: https://osf.io/preprints/socarxiv/ d3wpk/, дата обращения 21.06.2024.
- Zhang L., Leydesdorff L. The scientometric measurement of interdisciplinarity and diversity in the research portfolios of Chinese Universities // Journal of Data and Information Science. 2021. V. 6. № 4. P. 13–35. DOI 10.2478/jdis-2021-0027.
- Дымкова С.С. Методы и процедурная модель повышения публикационной активности научных организаций на основе наукометрических инструментов: дис. ... канд. техн. наук. М. 2022. 170 с.
- David S.V., Hayden B.Y. Neurotree: A collaborative, graphical database of the academic genealogy of neuroscience // PloS One. 2012. V. 7. № 10. P. e46608. DOI 10.1371/journal.pone.0046608.
- Madeira G., Borges E.N., Lucca G., Santos H., Dimuro G. A tool for analyzing academic genealogy // Enterprise Information Systems. 2019. P. 443–456. DOI 10.1007/978-3-030-40783-4_21.
- Rossi L., Damaceno R.J., Mena-Chalco J.P., Freire I.L. Topological metrics in academic genealogy graphs // Journal of Informetrics. 2018. V. 12. № 4. P. 1042–1058. DOI 10.1016/j.joi.2018.08.004.
- Hirshman B.R., Tang J.A., Jones L.A., Proudfoot J.A., Carley K.M., Marshall L., Carter B.S., Chen C.C. Impact of medical academic genealogy on publication patterns: An analysis of the literature for surgical resection in brain tumor patients // Annals of Neurology. 2016. V.79. № 2. P. 169–177. DOI 10.1002/ana.24569.
- Шрайберг Я.Л. Особенные компоненты цифровой трансформации общества, активно влияющие на технологические и поведенческие модели деятельности современных библиотек // Научные и технические библиотеки. 2023. № 8. С. 13–84. DOI 10.33186/1027-3689-2023-8-13-84.
- Борсук Н.А., Дерюгина Е.О., Гартман В.А. Разработка специализированной библиотечной системы // Электромагнитные волны и электронные системы. 2019. Т. 24. № 3. С. 45–54. DOI 10.18127/j15604128-201903-08.
- Борсук Н.А., Дерюгина Е.О., Гартман В.А. Автоматизация процесса книговыдачи в специализированных библиотечных системах // Электромагнитные волны и электронные системы. 2019. Т. 24. № 7. С. 30–37. DOI 10.18127//j15604128-201907-05.
- Масюков К.П., Коновалов Д.Ю., Куликов С.В. Особенности формирования алгоритма системы обработки информации на основе эмпирических данных // Электромагнитные волны и электронные системы. 2020. Т. 25. № 3. С. 57−64. DOI 10.18127/j15604128202003-06.
- Смирнов И.В. Методы разноуровневого анализа текстов на естественном языке и их приложения в системах информационного поиска и психолингвистических исследованиях: дис. ... док. техн. наук. М. 2023. 335 с.
- Navarro G. A guided tour to approximate string matching // ACM Computing Surveys. 2001. V. 33. № 1. P. 31–88. DOI 10.1145/ 375360.375365.
- Вентцель Е.С. Теория вероятности. М.: Наука. 1969. 575 с.