350 руб
Журнал «Системы высокой доступности» №4 за 2022 г.
Статья в номере:
Публикация данных и связанных с ними ресурсов в предметных сообществах
Тип статьи: научная статья
DOI: https://doi.org/10.18127/j20729472-202204-05
УДК: 004.654
Авторы:

Н.А. Скворцов1

1 ФИЦ ИУ РАН (Москва, Россия)
 

Аннотация:

Постановка проблемы. Проблемы публикации результатов исследований для их повторного использования связаны с тем, что публикация данных производится обычно в конце исследовательских проектов, часто игнорируется либо включает только результирующие данные без предоставления описаний, возможности поиска, методов и инструментов для работы с ними и для возможности их воспроизведения. Повторное использование опубликованных данных другими исследователями требует существенных усилий для понимания семантики данных из незнакомых источников и проведения их интеграции в каждом новом исследовании. Для преодоления этих проблем необходимо развитие технологий публикации данных и необходимых ресурсов, внедрение публикации данных в жизненный цикл решения задач. Опубликованные данные, отобранные в соответствии со спецификациями требований задачи, должны быть всесторонне готовы к повторному использованию.

Цель. Провести исследование проблемы публикации данных и совместно используемых с ними ресурсов для обеспечения их повторного использования в исследовательских сообществах.

Результаты. Предложен подход к публикации исходных, промежуточных, результирующих данных, а также метаданных, методов, результатов интеграции и других ресурсов на разных этапах жизненного цикла решения задач предметной области в исследовательских инфраструктурах. Рассмотрены разные этапы решения задач над множеством источников данных от постановки задачи до получения результатов исследования и целесообразность публикации разных видов ресурсов на каждом из этапов.

Практическая значимость. Требования к семантической публикации данных в предметной области в рамках планов управления данными на всех этапах жизненного цикла решения исследовательских задач призваны заменить усилия по интеграции неоднородных данных. Ответственный подход к публикации данных, знаний, моделей данных, схем, ресурсов, семантических связей элементов схем, правил трансформации данных, методов позволяет выполнять этот процесс единожды компетентными в своей задаче и в данной области авторами данных.

Страницы: 56-67
Для цитирования

Скворцов Н.А. Публикация данных и связанных с ними ресурсов в предметных сообществах // Системы высокой доступности. 2022. Т. 18. № 4. С. 56−67. DOI: https://doi.org/ 10.18127/j20729472-202204-05

Список источников
  1. Skvortsov N.A., Stupnikov S.A. Managing Data-Intensive Research Problem-Solving Lifecycle. Data Analytics and Management in Data Intensive Domains (DAMDID 2020). CCIS. V. 1427. Springer. 2021.
  2. Bourne Ph.E. et al. Improving the Future of Research Communications and e-Scholarship. Dagstuhl Perspectives Workshop 11331. 2012. https://doi.org/10.4230/DagMan.1.1.41
  3. Martone M. (Ed.), Data Citation Synthesis Group: Joint Declaration of Data Citation Principles. FORCE11; 2014 https://doi.org/10.25490/a97f-egyk
  4. Wilkinson M. et al. The FAIR Guiding Principles for scientific data management and stewardship. In: Scientific data, Vol. 3 (2016). https://doi.org/10.1038/sdata.2016.18
  5. GO FAIR Initiative. https://www.go-fair.org/go-fair-initiative/
  6. EOSC Declaration. Brussels, 2017. https://eosc-portal.eu/sites/default/files/eosc_declaration.pdf
  7. Strasbourg astronomical Data Center. https://cds.u-strasbg.fr/
  8. Registry of research data repositories. https://www.re3data.org/
  9. Michener W.K. Ten Simple Rules for Creating a Good Data Management Plan. PLoS computational biology, 11(10): e1004525. (2015) DOI: 10.1371/journal.pcbi.1004525
  10. DMPOnline. Plan to make data work for you. https://dmponline.dcc.ac.uk/
  11. Miksa T., Simms S., Mietchen D., Jones S. Ten principles for machine-actionable data management plans. PLoS computational biology. 2019. V. 15 № 3. P. e1006750. DOI: 10.1371/journal.pcbi.1006750
  12. Albertoni R. et al. Data Catalog Vocabulary (DCAT). Version 2. W3C Recommendation, 2020. https://www.w3.org/TR/vocab-dcat-2/
  13. Open Digital Rights Language (ODRL). https://www.w3.org/ns/odrl/2/
  14. Lebo T., Sahoo S., McGuinness D. PROV-O: The PROV Ontology. W3C Recommendation, 2013. https://www.w3.org/TR/prov-o/
  15. Albertoni R., Isaac A. Data on the Web Best Practices: Data Quality Vocabulary. W3C Working Group Note, 2016. https://www.w3.org/TR/vocab-dqv/
  16. Мышенков К.С., Симонов М.Ф., Коростелев В.М. Обоснование выбора программных средств моделирования баз данных // Динамика сложных систем. 2020. T. 14. № 2. С. 77-83. DOI: 10.18127/j19997493-202002-09/
Дата поступления: 04.11.2022
Одобрена после рецензирования: 18.11.2022
Принята к публикации: 21.11.2022