A Data-Driven Approach for Balancing Overfitting and Underfitting in Decision Tree Models
dc.contributor.author | Zlobin, M. | |
dc.contributor.author | Bazylevych, V. | |
dc.contributor.author | Злобін, М. М. | |
dc.contributor.author | Базилевич, В. М. | |
dc.date.accessioned | 2025-04-08T16:22:54Z | |
dc.date.issued | 2025 | |
dc.description.abstract | This article aims to develop a data-driven framework for balancing overfitting and underfitting in decision tree models. Overfitting occurs when a model captures noise, reducing generalization, while underfitting leads to poor predictive accuracy. The study systematically tunes the max_leaf_nodes parameter and evaluates model performance using Mean Absolute Error (MAE). The objective is finding the most optimal balance that ensures model accuracy while preventing excessive complexity. A Decision Tree Regressor has been trained on the Ames Housing dataset, which includes 79 explanatory variables related to home prices. The dataset has been splitted into training and validation sets. The model has been evaluated by iterating over different max_leaf_nodes values, ranging from 2 to 5000, and computing the MAE for each configuration. The results show that increasing max_leaf_nodes initially improves accuracy, but beyond 400 nodes, MAE stabilizes around 242,906, indicating that further complexity does not improve performance etc. Стаття присвячена розробці підходу на основі даних для балансування надмірної (overfitting) та недостатньої пристосованості (underfitting) в моделях дерев рішень. Надмірна пристосованість зазвичай виникає, коли модель вловлює шум, зменшуючи узагальнення, тоді як недостатня пристосованість призводить до низької точності прогнозування. У дослідженні систематично налаштовувався параметр max_leaf_nodes та оцінювалась ефективність моделі за допомогою середньої абсолютної помилки (MAE). Мета полягала в тому, щоб знайти оптимальний баланс, який забезпечує точність моделі, запобігаючи при цьому її надмірній складності. Регресор дерева рішень (A Decision Tree Regressor) навчався на наборі даних Ames Housing, який включає 79 пояснювальних змінних, пов'язаних з цінами на житло. Набір даних було розділено на навчальний та валідаційний набори (тобто на набори для навчання та перевірки). Модель оцінювалася шляхом ітерації над різними значеннями max_leaf_nodes, від 2 до 5000, і обчислення MAE для кожної конфігурації. Результати показали, що збільшення max_leaf_nodes спочатку покращувало точність, але після 400 вузлів MAE стабілізувалося на рівні 242,906, що свідчило про те, що подальше ускладнення не покращувало продуктивність тощо. | |
dc.identifier.citation | Zlobin, М. A Data-Driven Approach for Balancing Overfitting and Underfitting in Decision Tree Models / M. Zlobin, V. Bazylevych // Центральноукраїнський науковий вісник. Технічні науки : зб. наук. пр. - Кропивницький : ЦНТУ, 2025. - Вип. 11(42). - Ч. 1. - С. 14-26. | |
dc.identifier.doi | https://doi.org/10.32515/2664-262X.2025.11(42).1.14-26 | |
dc.identifier.uri | https://dspace.kntu.kr.ua/handle/123456789/16348 | |
dc.language.iso | en | |
dc.publisher | ЦНТУ | |
dc.subject | decision tree regressor | |
dc.subject | overfitting | |
dc.subject | underfitting | |
dc.subject | model optimization | |
dc.subject | hyperparameter tuning | |
dc.subject | регресор дерева рішень | |
dc.subject | надмірне пристосування | |
dc.subject | перенавчання | |
dc.subject | недостатнє пристосування | |
dc.subject | гіперпараметричне налаштування | |
dc.title | A Data-Driven Approach for Balancing Overfitting and Underfitting in Decision Tree Models | |
dc.title.alternative | Підхід на основі даних для збалансування перенавчання та недонавчання в моделях дерева рішень | |
dc.type | Article |