Создание PDF-анализатора с расширенными функциями

Авторы

  • Владислав Валерьевич Душкин Краснодарское высшее военное училище имени генерала армии С.М. Штеменко, Краснодар, Россия
  • Виктория Александровна Абрамова Краснодарское высшее военное училище имени генерала армии С.М. Штеменко, Краснодар, Россия

Ключевые слова:

PDF-парсер, машинное обучение, извлечение данных, анализ текста, визуализация данных, Python, статистическая обработка, интеллектуальный анализ документов, информационная безопасность

Аннотация

В статье рассматривается процесс проектирования и разработки программного средства для комплексного анализа PDF-документов с использованием библиотек PyPDF2, pdfplumber и Apache Tika, а также интеграция машинного обучения для распознавания структуры документов. Предложена архитектура системы
 с расширенными функциями: извлечение текста, таблиц, изображений, семантический анализ и обработка больших объемов данных, описана архитектура разработанного приложения на языке Python, использующего библиотеки PyPDF2, pdfplumber, pandas 
 и matplotlib. Представлены алгоритмы работы модулей извлечения текста, анализа частотности слов, построения облаков слов и тепловых карт, а также экспорта данных
 в формате Excel. Приводятся результаты тестирования системы на коллекции
 из научных статей и технических документов. Сделан вывод о практической значимости разработанного инструмента для исследователей, аналитиков
 и специалистов по работе с документацией.

Библиографические ссылки

Обзор UPDF 2.0: кроссплатформенный PDF-редактор с глубокими исследованиями для более интеллектуальной работы [Электронный ресурс] // Letem světem Applem. – 2025. – Режим доступа: https://www.letemsvetemapplem.eu/ (дата обращения: 25.02.2026).

AdaParse: An Adaptive Parallel PDF Parsing and Resource Scaling Engine / S. Chia, [и др.] // arXiv preprint arXiv:2505.01435. – 2025. – Режим доступа: https://arxiv.org/abs/2505.01435 ,

Кулаков, М. Д. Разработка приложения для извлечения текста из файлов формата PDF / М. Д. Кулаков. – Иваново: ИГЭУ, 2025. – 74 с.

Автоматизация извлечения и анализа табличных данных с характеристиками электронных компонентов / [и др.] // naukaru.ru. – 2025. – Режим доступа: https://naukaru08.ru/ (дата обращения: 25.02.2026).

PDF-бот: проект для автоматической обработки PDF-документов и экспорта данных в Excel [Электронный ресурс] // GitHub. – 2025. – Режим доступа: https://github.com/SunnyS8/PDF_bot

Logics-Parsing Technical Report / [и др.] // arXiv preprint arXiv:2509.19760. – 2025. – Режим доступа: https://arxiv.org/abs/2509.19760

Егорова, Д. К. Application of KNIME Analytics Platform tools to analyze the compliance of syllabuses with the requirements of employers / Д. К. Егорова, Ю. В. Заварухина // Огарёв-online. – 2023. – № 11. – Режим доступа: https://journals.rcsi.science/

Об утверждении Положения о системе сертификации средств защиты информации Министерства обороны Российской Федерации: приказ МО РФ от 29.09.2020 № 488. – М., 2020.

Об утверждении Порядка проведения сертификации процессов безопасной разработки программного обеспечения средств защиты информации: приказ ФСТЭК России от 01.12.2023 № 240. – М., 2023.

Goodfellow I. J., Shlens J., Szegedy C. Explaining and Harnessing Adversarial Examples // International Conference on Learning Representations (ICLR). – 2015. – arXiv:1412.6572.

Об утверждении Положения о системе сертификации средств защиты информации Министерства обороны Российской Федерации: приказ МО РФ от 29.09.2020 № 488. – М., 2020.

Об утверждении Порядка проведения сертификации процессов безопасной разработки программного обеспечения средств защиты информации: приказ ФСТЭК России от 01.12.2023 № 240. – М., 2023.

Adversarial Robustness of Neural Networks: A Review / S. G. Finlayson et al. // arXiv preprint arXiv:2502.01234. – 2025.

Adhikari, N. S. A Comparative Study of PDF Parsing Tools Across Diverse Document Categories / N. S. Adhikari [и др.] // arXiv preprint arXiv:2410.09871. – 2025.

A Comparative Study of PDF Parsing Tools Across Diverse Document Categories [Электронный ресурс] // Harvard University ADS. – 2024. – Режим доступа: https://ui.adsabs.harvard.edu/abs/2024arXiv241009871A/abstract

OmniParser против Unstructured: какой пакет для разбора документов победит в 2025 году? [Электронный ресурс] // Sider AI. – 2025. – Режим доступа: https://sider.ai/ru/blog/ai-tools/omniparser-vs-unstructured-which-document-parsing-stack-wins-in-2025

Загрузки

Опубликован

2026-06-21

Как цитировать

Душкин, В. В., & Абрамова, В. А. (2026). Создание PDF-анализатора с расширенными функциями. Молодёжный вестник Новороссийского филиала Белгородского государственного технологического университета им. В. Г. Шухова, 6(2), 67–73. извлечено от https://rio-nb-bstu.science/index.php/vestnik-molod/article/view/407

Выпуск

Раздел

Информатика

Наиболее читаемые статьи этого автора (авторов)