Особенности семантического веб-парсинга – одной из перспективных технологий при реализации цифровой трансформации
Ключевые слова:
семантический веб-парсинг, адаптивность, онтологии, поиск, извлечение, анализ текстовых данных, машинное обучение, обеспечение национальной безопасности, устойчивость сложных организационно-технических системАннотация
Гибридные, в их числе информационные, риски влекут за собой угрозы для устойчивости и безопасности сложных организационно-технических систем в составе народного хозяйства России. В контексте чего требуется разработка отечественных решений для автоматизированного извлечения и анализа больших данных, содержащихся в глобальном цифровом информационном пространстве. В научной работе рассматриваются теоретические и практические аспекты семантического веб-парсинга с учетом их смысловой составляющей. Особое внимание уделяется отличиям семантического парсинга от традиционных методов, а также роли онтологий в формализации и интерпретации данных. Обозначены этапы процесса семантического парсинга: анализ структуры веб-страниц, идентификация семантически значимых элементов, извлечение и структурирование данных. Акцентировано внимание на такой ключевой характеристике семантического веб-парсинга, как его адаптивность. Определены инструменты, позволяющие ее достигнуть, в их числе такие методы машинного обучения, как латентно-семантический анализ и метод опорных векторов. Отдельно выделены особенности семантического веб-парсинга, включая понимание контекста, использование онтологий, возможность интеграции с машинным обучением и обработкой естественного языка, а также области его применения. Полученные результаты позволили авторам прийти к выводу о том, что будущее семантического веб-парсинга лежит в создании синергии между различными технологиями, например, технологиями глубокого обучения, мультимодальными подходами, детализированными онтологиями, о важности интеграции семантического веб-парсинга с методами машинного обучения, что обеспечит большие возможности для автоматического извлечения и анализа больших данных.
Библиографические ссылки
Кох Л.В., Кох Ю.В., Санжина О.П. Стратегическое управление цифровой трансформацией интеллектуальной экономики и промышленности в новой реальности: монография. – СПб. – 2024. – С. 315-343.
Ракова Н.Г., Балашова Е.С. Инновационная экономика как фактор повышения устойчивости (технологической безопасности) страны и благополучия населения // Счисляевские чтения: актуальные проблемы экономики и управления. – 2024. – № 12(12). – С. 300-303.
Санжина О.П., Смирнов А.Ю. Принципы формирования механизма управления инновациями в современных условиях // Естественно-гуманитарные исследования. – 2024. – № 2(52). – С. 228-230.
Смирнов А.Ю. Развитие инновационной деятельности в России и факторы, ей препятствующие // Актуальные проблемы экономики и менеджмента. – 2023. – № 2 (38). – С. 50-57.
Алаудинов А.А. К вопросу о типологии субъектов гибридных войн // Российский социально-гуманитарный журнал. – 2024. – № 1. – С. 20-34.
Панамарева О.Н. Обоснование необходимости нового механизма обеспечения национальной экономической безопасности в контексте гибридных угроз и цифровой трансформации // Вестник Московского финансово-юридического университета МФЮА. – 2023. – № 4. – С. 9-24.
Панамарева О.Н., Хусаинов В.Р., Квасов М.Н. Изучение проблемы влияния веб-парсинга на деятельность сложных организационно-технических систем и методов защиты от него // Сборник трудов V международной научно-практической конференции «Инженерно-техническое образование и наука» (г. Новороссийск, 15–18 апреля 2025 г.) / под общ. ред. к. ф. н. И. В. Чистякова. – Новороссийск: Изд-во НФ БГТУ им. В.Г. Шухова. – 2025. – С. 262-263.
Панамарева О.Н., Хусаинов В.Р., Зайцев Н.В. Способы парсинга и обоснование целесообразности их применения к отдельной социальной сети // Молодёжный вестник Новороссийского филиала Белгородского государственного технологического университета им. В.Г. Шухова. Научный сетевой журнал (апрель - июнь 2025 г.). – 2025. – Т. 5, № 2 (18). – С. 9-19.
Чернышев А.А., Панамарева О.Н., Зайцев Н.В., Смирнов М.С. Разработка программного обеспечения для парсинга новостных заметок в социальной сети «ВКонтакте» // Состояние и перспективы развития современной науки по направлению «Информационных технологии в Вооруженных Силах Российской Федерации»: Сборник трудов III Всероссийской научно-технической конференции, Анапа, 21–22 марта 2024 года. Т. 1. – Анапа: ФГАУ «Военный инновационный технополис «ЭРА». – 2024. – С. 166-172.
Боярский К.К., Каневский Е.А. Семантико-синтаксический парсер SemSin // Научно-технический вестник информационных технологий, механики и оптики, №. 5. – 2015. – С. 869-876.
Вилкова О.В. К вопросу о научной осмысленности применения веб-скрейпинга как метода сбора данных в социологических исследованиях // Вестник Томского государственного университета. Философия. Социология. Политология. – 2020. – № 54. – С. 163-175.
Li Q., Peng H., Li J., Xia C., Yang R., Sun L., Philip S.Yu, He L. A survey on text classification: From shallow to deep learning. – 2020. – URL: https://www.researchgate.net/publication/343414448_A_Text_Classification_Survey_From_Shallow_to_Deep_Learning (дата обращения: 17.06.2025). – Текст: электронный.
Zhang X., Zhao J., LeCun Y. Character-level convolutional networks for text classification // Advances in neural information processing systems. – 2015. – Т. 28. – URL: https://arxiv.org/pdf/1509.01626 (дата обращения: 17.06.2025). – Текст: электронный.
Егармин П.А., Панов Р.Е., Ахматшин Ф.Г., Егармина А.П., Золотухина И.Т. Технология парсинга данных с применением нейросети и алгоритма web-драйвера // Современные наукоемкие технологии. – 2024. – № 5 (1). – С. 26-30. – URL: https://s.top-technologies.ru/pdf/2024/5-1/40000.pdf (дата обращения: 03.06.2025). – Текст: электронный.
Бурлаева Е.И., Зори С.А. Сравнение некоторых методов машинного обучения для анализа текстовых документов // Проблемы искусственного интеллекта. – 2019. – № 1. – С. 42-51.
Мозговой М.В. Простая вопросно-ответная система на основе семантического анализатора русского языка // Вестник СПбГУ. Серия 10. Прикладная математика. Информатика. Процессы управления. – 2006. – № 1. – С. 116-122.
Опубликован
Как цитировать
Выпуск
Раздел
Лицензия
Copyright (c) 2025 Молодёжный вестник Новороссийского филиала Белгородского государственного технологического университета им. В. Г. Шухова

Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial-NoDerivatives» («Атрибуция — Некоммерческое использование — Без производных произведений») 4.0 Всемирная.
Copyright information
Тексты данной электронной статьи защищены (cc) Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License.
Вы можете свободно:
Делиться (You are free: to Share) – копировать, распространять и передавать другим лицам данную электронную книгу при обязательном соблюдении следующих условий:
– Атрибуция (Attribution) – Вы должны атрибутировать произведения (указывать автора и источник) в порядке, предусмотренном автором или лицензиаром (но только так, чтобы никоим образом не подразумевалось, что они поддерживают вас или использование вами данного произведения).
– Некоммерческое использование (Noncommercial use) – Вы не можете использовать эти произведения в коммерческих целях.
– Без производных произведений – Вы не можете изменять, преобразовывать или брать за основу эту электронную книгу или отдельные произведения.
Licensed under the Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License.
To view a copy of this license, visit https://creativecommons.org/licenses/by-nc-nd/4.0/
or send a letter to Creative Commons, 444 Castro Street, Suite 900, Mountain View, California, 94041, USA.
You are free:
to Share — to copy, distribute and transmit the work
Under the following conditions:
Attribution — You must attribute the work in the manner specified by the author or licensor (but not in any way that suggests that they endorse you or your use of the work).
Non-commercial — You may not use this work for commercial purposes.
No Derivative Works — You may not alter, transform, or build upon this work.
Any of the above conditions can be waived if you get permission from the copyright holder.