Aarhus University Seal / Aarhus Universitets segl

Routing in Simulated Baggage Handling Systems using Centralized Deep Reinforcement Learning

Publikation: Bog/antologi/afhandling/rapportPh.d.-afhandling

Antallet af rejsende stiger på verdensplan, hvilket belaster lufthavnenes baggagehåndteringssystemer.
Derfor skal bagagehåndteringssystems-industrien finde nye måder til at øge udnyttelsen af deres systemer.
Optimering af ruteberegningen er en effektiv måde at øge udnyttelsen på, men da alle lufthavne er forskellige, vil der for hver lufthavn skulle oprettes specifikke ruteregler.
I øjeblikket udformes disse specifikke ruteregler manuelt, hvilket er en dyr og meget tidskrævende proces, som kræver et højt niveau af ekspertise og store mængder indsamlede data fra de kørende anlæg.

Formålet med denne afhandling er at adressere muligheden for at bruge Deep Reinforcement Learning til at lære anlægsspecifikke rutepolitikker for Individual Carrier Systems, f.eks. CrisBag bagagehåndteringssystemet som er anvendt som case.
Tilgangen til dette er at anvende en centraliseret Deep Reinforcement Learning agent til at styre alle beslutningspunkter i de udviklede miljøer.
Specifikt er to miljøer udviklet med forskellige abstraktionsniveauer.
Det første miljø er et grafbaseret miljø, som generaliserer til et source-sink baseret Individual Carrier System.
Som et proof of concept viser resultaterne af dette miljø, at den udviklede tilgang med Deep Reinforcement Learning er i stand til at udkonkurrere den underliggende dynamisk korteste rute baserede tilgang, som almindeligvis anvendes i industrien.
Dernæst udvikles et modulært elementbaseret miljø, som giver mulighed for mere detaljerede og analytiske eksperimenter.
På dette miljø gentages eksperimentet fra det første miljø med øget sværhedsgrad, da de anvendte transportkasser bliver i systemet efter bagageafkast.
På samme miljø udvikles der også en kombinatorisk metode til at kombinere korteste rute tabeller med Deep Reinforcement Learning styringen.
Dernæst er miljøet blevet justeret til at omfatte planlagte afgange og distribuerede ankomsttider, hvilket øger kompleksiteten af ruteberegningen yderligere.
Her viser den udviklede Deep Reinforcement Learning metode sig at kunne præstere bedre end de basale korteste rute baserede politikker den bliver sammenlignet med, især i miljøer med anlægsspecifikke problemer eller flaskehalse.
Endelig præsenteres et forslag til en integration til den eksisterende avancerede emulator, som anvendes af værtsfirmaet.

Som en del af et samarbejde med UC Santa Cruz og UC Berkeley præsenterer denne afhandling også PDQN, en ny langsigtet abstrakt planlægningsmetode til finjustering af DQN-baserede RL-agenter i miljøer med meget forsinkede belønninger.

Denne afhandling er et første skridt i retning af at anvende Deep Reinforcement Learning i det meget komplekse ruteoptimeringsdomæne for Individual Carrier Systems.
Den fremhæver nogle af de største udfordringer ved brug af Deep Reinforcement Learning i forhold til traditionelle routingpolitikker.
Desuden diskuterer afhandlingen, hvilke behov der er for yderligere forskning og udvikling før de foreslåede metoder kan anvendes i virkelige systemer.

Med bidragene fra denne afhandling er de indledende skridt taget i retning af at kunne bruge Deep Reinforcement Learning til ruteberegning for Individual Carrier Systems, hvilket igen baner vejen for at en mere systemspecifik udvikling kan startes op.
Bidragets oversatte titelRutning i Simulerede Baggagehåndteringssystemer ved hjælp af Centraliseret Deep Reinforcement Learning
OriginalsprogEngelsk
Antal sider233
StatusAfsendt - 9 okt. 2021

Se relationer på Aarhus Universitet Citationsformater

ID: 224188473