Інформаційна технологія квантитативного аналізу україномовного текстового контенту на основі DocBin-структур

dc.contributor.authorКозак І. В.
dc.contributor.authorВисоцька В. А.
dc.contributor.authorЧирун Л. В.
dc.contributor.authorKozak I.
dc.contributor.authorVysotska V.
dc.contributor.authorChyrun L.
dc.date.accessioned2026-04-09T07:20:27Z
dc.date.issued2026
dc.description.abstractУ роботі представлено інформаційну технологію на основі розробки програмної підсистеми квантитативного аналізу українських текстів як компонента інформаційної системи обробки корпусних даних. Реалізовано алгоритми обчислення лексичних і морфологічних індексів (TTR, індекс Гоноре, індекс номінативності, частоти лем і POS) на основі структур DocBin із використанням spaCy та pandas. Проведено експериментальне тестування на корпусі з 7 документів обсягом близько 18 000 токенів. Час опрацювання 1 тис. токенів становив 0,11–6,72 с залежно від обраного NLP-агента. Результати підтвердили лінійну масштабованість, стабільність обчислень та можливість інтеграції підсистеми в захищені програмні середовища для аналітики текстових даних, зокрема в задачах моніторингу інформаційного простору та виявлення аномалій. The purpose of this article is to develop and implement information technology for quantitative text analysis for Ukrainian-language corpora within the framework of a modular information processing system. The study aims to develop algorithmic tools for automatic computation of lexical and morphological indices based on structured linguistic data. Particular attention is paid to ensuring scalability, offline functionality, and compatibility with secure computing environments. The proposed solution is oriented toward applications in computer science, data analytics, and cybersecurity, where reliable and reproducible text metrics are required. The research also seeks to address the lack of adapted quantitative tools for morphologically rich languages such as Ukrainian etc.
dc.identifier.citationКозак І. В., Висоцька В. А., Чирун Л. В. Інформаційна технологія квантитативного аналізу україномовного текстового контенту на основі DocBin-структур // Центральноукраїнський науковий вісник. Технічні науки. Кропивницький : ЦНТУ, 2026. Вип. 13(44). С. 11-21.
dc.identifier.doihttps://doi.org/10.32515/2664-262X.2026.13(44). 11-21
dc.identifier.urihttps://dspace.kntu.kr.ua/handle/123456789/19175
dc.language.isouk
dc.publisherЦНТУ
dc.subjectобробка природної мови
dc.subjectінформаційна система
dc.subjectаналіз даних
dc.subjectквантитативна лінгвістика
dc.subjectnatural language processing
dc.subjectinformation system
dc.subjectdata analysis
dc.subjectquantitative linguistics
dc.titleІнформаційна технологія квантитативного аналізу україномовного текстового контенту на основі DocBin-структур
dc.title.alternativeInformation Technology for Quantitative Analysis of Ukrainian-Language Textual Content Based on DocBin Structures
dc.typeArticle

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
1.pdf
Size:
825.61 KB
Format:
Adobe Portable Document

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
3.97 KB
Format:
Item-specific license agreed upon to submission
Description: