A Data-Driven Approach for Balancing Overfitting and Underfitting in Decision Tree Models

dc.contributor.authorZlobin, M.
dc.contributor.authorBazylevych, V.
dc.contributor.authorЗлобін, М. М.
dc.contributor.authorБазилевич, В. М.
dc.date.accessioned2025-04-08T16:22:54Z
dc.date.issued2025
dc.description.abstractThis article aims to develop a data-driven framework for balancing overfitting and underfitting in decision tree models. Overfitting occurs when a model captures noise, reducing generalization, while underfitting leads to poor predictive accuracy. The study systematically tunes the max_leaf_nodes parameter and evaluates model performance using Mean Absolute Error (MAE). The objective is finding the most optimal balance that ensures model accuracy while preventing excessive complexity. A Decision Tree Regressor has been trained on the Ames Housing dataset, which includes 79 explanatory variables related to home prices. The dataset has been splitted into training and validation sets. The model has been evaluated by iterating over different max_leaf_nodes values, ranging from 2 to 5000, and computing the MAE for each configuration. The results show that increasing max_leaf_nodes initially improves accuracy, but beyond 400 nodes, MAE stabilizes around 242,906, indicating that further complexity does not improve performance etc. Стаття присвячена розробці підходу на основі даних для балансування надмірної (overfitting) та недостатньої пристосованості (underfitting) в моделях дерев рішень. Надмірна пристосованість зазвичай виникає, коли модель вловлює шум, зменшуючи узагальнення, тоді як недостатня пристосованість призводить до низької точності прогнозування. У дослідженні систематично налаштовувався параметр max_leaf_nodes та оцінювалась ефективність моделі за допомогою середньої абсолютної помилки (MAE). Мета полягала в тому, щоб знайти оптимальний баланс, який забезпечує точність моделі, запобігаючи при цьому її надмірній складності. Регресор дерева рішень (A Decision Tree Regressor) навчався на наборі даних Ames Housing, який включає 79 пояснювальних змінних, пов'язаних з цінами на житло. Набір даних було розділено на навчальний та валідаційний набори (тобто на набори для навчання та перевірки). Модель оцінювалася шляхом ітерації над різними значеннями max_leaf_nodes, від 2 до 5000, і обчислення MAE для кожної конфігурації. Результати показали, що збільшення max_leaf_nodes спочатку покращувало точність, але після 400 вузлів MAE стабілізувалося на рівні 242,906, що свідчило про те, що подальше ускладнення не покращувало продуктивність тощо.
dc.identifier.citationZlobin, М. A Data-Driven Approach for Balancing Overfitting and Underfitting in Decision Tree Models / M. Zlobin, V. Bazylevych // Центральноукраїнський науковий вісник. Технічні науки : зб. наук. пр. - Кропивницький : ЦНТУ, 2025. - Вип. 11(42). - Ч. 1. - С. 14-26.
dc.identifier.doihttps://doi.org/10.32515/2664-262X.2025.11(42).1.14-26
dc.identifier.urihttps://dspace.kntu.kr.ua/handle/123456789/16348
dc.language.isoen
dc.publisherЦНТУ
dc.subjectdecision tree regressor
dc.subjectoverfitting
dc.subjectunderfitting
dc.subjectmodel optimization
dc.subjecthyperparameter tuning
dc.subjectрегресор дерева рішень
dc.subjectнадмірне пристосування
dc.subjectперенавчання
dc.subjectнедостатнє пристосування
dc.subjectгіперпараметричне налаштування
dc.titleA Data-Driven Approach for Balancing Overfitting and Underfitting in Decision Tree Models
dc.title.alternativeПідхід на основі даних для збалансування перенавчання та недонавчання в моделях дерева рішень
dc.typeArticle

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
4.pdf
Size:
457.28 KB
Format:
Adobe Portable Document

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
7.42 KB
Format:
Item-specific license agreed upon to submission
Description: