Н.А. Скворцов1
1 ФИЦ ИУ РАН (Москва, Россия)
Постановка проблемы. Проблемы публикации результатов исследований для их повторного использования связаны с тем, что публикация данных производится обычно в конце исследовательских проектов, часто игнорируется либо включает только результирующие данные без предоставления описаний, возможности поиска, методов и инструментов для работы с ними и для возможности их воспроизведения. Повторное использование опубликованных данных другими исследователями требует существенных усилий для понимания семантики данных из незнакомых источников и проведения их интеграции в каждом новом исследовании. Для преодоления этих проблем необходимо развитие технологий публикации данных и необходимых ресурсов, внедрение публикации данных в жизненный цикл решения задач. Опубликованные данные, отобранные в соответствии со спецификациями требований задачи, должны быть всесторонне готовы к повторному использованию.
Цель. Провести исследование проблемы публикации данных и совместно используемых с ними ресурсов для обеспечения их повторного использования в исследовательских сообществах.
Результаты. Предложен подход к публикации исходных, промежуточных, результирующих данных, а также метаданных, методов, результатов интеграции и других ресурсов на разных этапах жизненного цикла решения задач предметной области в исследовательских инфраструктурах. Рассмотрены разные этапы решения задач над множеством источников данных от постановки задачи до получения результатов исследования и целесообразность публикации разных видов ресурсов на каждом из этапов.
Практическая значимость. Требования к семантической публикации данных в предметной области в рамках планов управления данными на всех этапах жизненного цикла решения исследовательских задач призваны заменить усилия по интеграции неоднородных данных. Ответственный подход к публикации данных, знаний, моделей данных, схем, ресурсов, семантических связей элементов схем, правил трансформации данных, методов позволяет выполнять этот процесс единожды компетентными в своей задаче и в данной области авторами данных.
Скворцов Н.А. Публикация данных и связанных с ними ресурсов в предметных сообществах // Системы высокой доступности. 2022. Т. 18. № 4. С. 56−67. DOI: https://doi.org/ 10.18127/j20729472-202204-05
- Skvortsov N.A., Stupnikov S.A. Managing Data-Intensive Research Problem-Solving Lifecycle. Data Analytics and Management in Data Intensive Domains (DAMDID 2020). CCIS. V. 1427. Springer. 2021.
- Bourne Ph.E. et al. Improving the Future of Research Communications and e-Scholarship. Dagstuhl Perspectives Workshop 11331. 2012. https://doi.org/10.4230/DagMan.1.1.41
- Martone M. (Ed.), Data Citation Synthesis Group: Joint Declaration of Data Citation Principles. FORCE11; 2014 https://doi.org/10.25490/a97f-egyk
- Wilkinson M. et al. The FAIR Guiding Principles for scientific data management and stewardship. In: Scientific data, Vol. 3 (2016). https://doi.org/10.1038/sdata.2016.18
- GO FAIR Initiative. https://www.go-fair.org/go-fair-initiative/
- EOSC Declaration. Brussels, 2017. https://eosc-portal.eu/sites/default/files/eosc_declaration.pdf
- Strasbourg astronomical Data Center. https://cds.u-strasbg.fr/
- Registry of research data repositories. https://www.re3data.org/
- Michener W.K. Ten Simple Rules for Creating a Good Data Management Plan. PLoS computational biology, 11(10): e1004525. (2015) DOI: 10.1371/journal.pcbi.1004525
- DMPOnline. Plan to make data work for you. https://dmponline.dcc.ac.uk/
- Miksa T., Simms S., Mietchen D., Jones S. Ten principles for machine-actionable data management plans. PLoS computational biology. 2019. V. 15 № 3. P. e1006750. DOI: 10.1371/journal.pcbi.1006750
- Albertoni R. et al. Data Catalog Vocabulary (DCAT). Version 2. W3C Recommendation, 2020. https://www.w3.org/TR/vocab-dcat-2/
- Open Digital Rights Language (ODRL). https://www.w3.org/ns/odrl/2/
- Lebo T., Sahoo S., McGuinness D. PROV-O: The PROV Ontology. W3C Recommendation, 2013. https://www.w3.org/TR/prov-o/
- Albertoni R., Isaac A. Data on the Web Best Practices: Data Quality Vocabulary. W3C Working Group Note, 2016. https://www.w3.org/TR/vocab-dqv/
- Мышенков К.С., Симонов М.Ф., Коростелев В.М. Обоснование выбора программных средств моделирования баз данных // Динамика сложных систем. 2020. T. 14. № 2. С. 77-83. DOI: 10.18127/j19997493-202002-09/