Особенности семантического веб-парсинга – одной из перспективных технологий при реализации цифровой трансформации

Authors

  • О.Н. Панамарева Военный инновационный технополис «ЭРА»
  • В.Р. Хусаинов Военный инновационный технополис «ЭРА»
  • Н.В. Зайцев Войсковая часть 55060

Keywords:

семантический веб-парсинг, адаптивность, онтологии, поиск, извлечение, анализ текстовых данных, машинное обучение, обеспечение национальной безопасности, устойчивость сложных организационно-технических систем

Abstract

Гибридные, в их числе информационные, риски влекут за собой угрозы для устойчивости и безопасности сложных организационно-технических систем в составе народного хозяйства России. В контексте чего требуется разработка отечественных решений для автоматизированного извлечения и анализа больших данных, содержащихся в глобальном цифровом информационном пространстве. В научной работе рассматриваются теоретические и практические аспекты семантического веб-парсинга с учетом их смысловой составляющей. Особое внимание уделяется отличиям семантического парсинга от традиционных методов, а также роли онтологий в формализации и интерпретации данных. Обозначены этапы процесса семантического парсинга: анализ структуры веб-страниц, идентификация семантически значимых элементов, извлечение и структурирование данных. Акцентировано внимание на такой ключевой характеристике семантического веб-парсинга, как его адаптивность. Определены инструменты, позволяющие ее достигнуть, в их числе такие методы машинного обучения, как латентно-семантический анализ и метод опорных векторов. Отдельно выделены особенности семантического веб-парсинга, включая понимание контекста, использование онтологий, возможность интеграции с машинным обучением и обработкой естественного языка, а также области его применения. Полученные результаты позволили авторам прийти к выводу о том, что будущее семантического веб-парсинга лежит в создании синергии между различными технологиями, например, технологиями глубокого обучения, мультимодальными подходами, детализированными онтологиями, о важности интеграции семантического веб-парсинга с методами машинного обучения, что обеспечит большие возможности для автоматического извлечения и анализа больших данных.

References

Кох Л.В., Кох Ю.В., Санжина О.П. Стратегическое управление цифровой трансформацией интеллектуальной экономики и промышленности в новой реальности: монография. – СПб. – 2024. – С. 315-343.

Ракова Н.Г., Балашова Е.С. Инновационная экономика как фактор повышения устойчивости (технологической безопасности) страны и благополучия населения // Счисляевские чтения: актуальные проблемы экономики и управления. – 2024. – № 12(12). – С. 300-303.

Санжина О.П., Смирнов А.Ю. Принципы формирования механизма управления инновациями в современных условиях // Естественно-гуманитарные исследования. – 2024. – № 2(52). – С. 228-230.

Смирнов А.Ю. Развитие инновационной деятельности в России и факторы, ей препятствующие // Актуальные проблемы экономики и менеджмента. – 2023. – № 2 (38). – С. 50-57.

Алаудинов А.А. К вопросу о типологии субъектов гибридных войн // Российский социально-гуманитарный журнал. – 2024. – № 1. – С. 20-34.

Панамарева О.Н. Обоснование необходимости нового механизма обеспечения национальной экономической безопасности в контексте гибридных угроз и цифровой трансформации // Вестник Московского финансово-юридического университета МФЮА. – 2023. – № 4. – С. 9-24.

Панамарева О.Н., Хусаинов В.Р., Квасов М.Н. Изучение проблемы влияния веб-парсинга на деятельность сложных организационно-технических систем и методов защиты от него // Сборник трудов V международной научно-практической конференции «Инженерно-техническое образование и наука» (г. Новороссийск, 15–18 апреля 2025 г.) / под общ. ред. к. ф. н. И. В. Чистякова. – Новороссийск: Изд-во НФ БГТУ им. В.Г. Шухова. – 2025. – С. 262-263.

Панамарева О.Н., Хусаинов В.Р., Зайцев Н.В. Способы парсинга и обоснование целесообразности их применения к отдельной социальной сети // Молодёжный вестник Новороссийского филиала Белгородского государственного технологического университета им. В.Г. Шухова. Научный сетевой журнал (апрель - июнь 2025 г.). – 2025. – Т. 5, № 2 (18). – С. 9-19.

Чернышев А.А., Панамарева О.Н., Зайцев Н.В., Смирнов М.С. Разработка программного обеспечения для парсинга новостных заметок в социальной сети «ВКонтакте» // Состояние и перспективы развития современной науки по направлению «Информационных технологии в Вооруженных Силах Российской Федерации»: Сборник трудов III Всероссийской научно-технической конференции, Анапа, 21–22 марта 2024 года. Т. 1. – Анапа: ФГАУ «Военный инновационный технополис «ЭРА». – 2024. – С. 166-172.

Боярский К.К., Каневский Е.А. Семантико-синтаксический парсер SemSin // Научно-технический вестник информационных технологий, механики и оптики, №. 5. – 2015. – С. 869-876.

Вилкова О.В. К вопросу о научной осмысленности применения веб-скрейпинга как метода сбора данных в социологических исследованиях // Вестник Томского государственного университета. Философия. Социология. Политология. – 2020. – № 54. – С. 163-175.

Li Q., Peng H., Li J., Xia C., Yang R., Sun L., Philip S.Yu, He L. A survey on text classification: From shallow to deep learning. – 2020. – URL: https://www.researchgate.net/publication/343414448_A_Text_Classification_Survey_From_Shallow_to_Deep_Learning (дата обращения: 17.06.2025). – Текст: электронный.

Zhang X., Zhao J., LeCun Y. Character-level convolutional networks for text classification // Advances in neural information processing systems. – 2015. – Т. 28. – URL: https://arxiv.org/pdf/1509.01626 (дата обращения: 17.06.2025). – Текст: электронный.

Егармин П.А., Панов Р.Е., Ахматшин Ф.Г., Егармина А.П., Золотухина И.Т. Технология парсинга данных с применением нейросети и алгоритма web-драйвера // Современные наукоемкие технологии. – 2024. – № 5 (1). – С. 26-30. – URL: https://s.top-technologies.ru/pdf/2024/5-1/40000.pdf (дата обращения: 03.06.2025). – Текст: электронный.

Бурлаева Е.И., Зори С.А. Сравнение некоторых методов машинного обучения для анализа текстовых документов // Проблемы искусственного интеллекта. – 2019. – № 1. – С. 42-51.

Мозговой М.В. Простая вопросно-ответная система на основе семантического анализатора русского языка // Вестник СПбГУ. Серия 10. Прикладная математика. Информатика. Процессы управления. – 2006. – № 1. – С. 116-122.

Published

2025-09-24

How to Cite

Панамарева, О., Хусаинов, В., & Зайцев, Н. (2025). Особенности семантического веб-парсинга – одной из перспективных технологий при реализации цифровой трансформации. Молодёжный вестник Новороссийского филиала Белгородского государственного технологического университета им. В. Г. Шухова, 5(3), 64–73. Retrieved from https://rio-nb-bstu.science/ojs/index.php/vestnik-molod/article/view/362

Issue

Section

Информатика

Most read articles by the same author(s)