БАГАТОФАКТОРНА МОДЕЛЬ ПОДОЛАННЯ ПРОБЛЕМИ РОЗРІДЖЕНИХ СИГНАЛІВ ДЛЯ ЗАДАЧІ МАРШРУТИЗАЦІЇ ТРАНСПОРТУ З ЧАСОВИМИ ВІКНАМИ
Ключові слова:
VRPTW, комбінаторна оптимізація, навчання з підкріпленням, Offline RL, Reward Shaping, абляційне дослідження, ALNSАнотація
Досліджено проблему розрідженої винагороди при навчанні Offline RL-агентів для задачі VRPTW. Аналіз 12617 ітерацій ALNS довів неефективність ізольованих бінарних сигналів, що генерують 97% неінформативних переходів. Запропоновано комплексну функцію Reward Shaping із врахуванням зміни вартості, кількості авто та логістичних штрафів. Абляційне дослідження підтвердило, що метод створює щільний градієнт (98% інформативних ітерацій), діючи як жорсткий контролер допустимості маршрутів.
Посилання
[1] С. В. Островецький, «VRPTW-Search-Trajectories-Dataset», GitHub, 2025. [Електронний ресурс]. Режим доступу: https://github.com/SerganO/VRPTW-Search-Trajectories-Dataset
[2] W. Kool, H. van Hoof, and M. Welling, «Attention, Learn to Solve Routing Problems!», in Proc. 7th Int. Conf. on Learning Representations (ICLR), New Orleans, LA, USA, 2019. [Online]. Available: https://openreview.net/forum?id=ByxBFsRqYm
[3] S. Levine, A. Kumar, G. Tucker, and J. Fu, «Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems», arXiv preprint arXiv:2005.01643, 2020.
[4] M. Nazari, A. Oroojlooy, L. V. Snyder, and M. Takáč, «Reinforcement learning for solving the vehicle routing problem» in Advances in Neural Information Processing Systems 31 (NeurIPS), 2018, 11p.
[5] S. Ropke and D. Pisinger, «An adaptive large neighborhood search heuristic for the pickup and delivery problem with time windows», Transportation Science, vol. 40, no. 4, pp. 455-472, 2006. DOI: 10.1287/trsc.1050.0135
[6] R. S. Sutton and A. G. Barto, Reinforcement Learning: An Introduction, 2nd ed. Cambridge, MA, USA: MIT Press, 2018.
Downloads
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial 4.0 International License.