Reference free phasing and representation of complex variation

Publikation: Bog/antologi/afhandling/rapportPh.d.-afhandlingForskning

High throughput sekventering har revolutioneret vores muligheder for at analysere genomer og hele humane genomer bliver dagligt sekventeret verden over. Mapping af short reads til et referencegenom har øget vores evne til at detektere genetisk variation og er lige nu den mest udbredte teknologi der bruges til at detektere og kalde variation i mennesker. Det har vist sig, at mapping af short reads til et enkelt referencegenom giver et ascertainment bias (reference bias). Dette bias er især tydeligt i komplekse dele af genomet og forhindrer især detektion af strukturelle varianter. Der er derfor brug for udvikling af nye metoder der reducerer dette reference bias, heriblandt nye måder at repræsentere genomer, der tager højde for den variabilitet der er i og imellem populationer. Major histocompatibility complex (MHC) regionen er en af de mest diverse og komplekse regioner i det humane genom. Regionen indeholder gener der spiller centrale roller i immunforsvaret og har været associeret med langt flere sygdomme end noget andet sted i det humane genom. Men pga. kompleksiteten i regionen har identifikation af kausale varianter været udfordrende og i mange tilfælde forgæves. Vi har udviklet en ny metode til at fase MHC regionen, der ikke afhænger af et reference genom. Vi præsenterer her 100 de novo assembled og fasede MHC haplotyper fra den danske population. Vi bruger haplotyperne til at kalde et stort sæt af varianter inklusiv et betydeligt antal strukturelle varianter. Vi bruger dette sæt af varianter til at udføre en populationsgenetisk analyse af regionen. Desuden viser vi at vores haplotyper indeholder mere end 700kb ny sekvens og, at nogle af disse segmenter er almindelige og polymorfe i den danske population. Til sidst foreslår og implementerer vi en ny metode til at konstruere populations-referencegrafer ud fra komplette haplotyper og viser at de kan bruges til effektivt at lagre variation fra den komplekse MHC region.
OriginalsprogEngelsk
Antal sider186
StatusUdgivet - 27 jul. 2017

Se relationer på Aarhus Universitet Citationsformater

ID: 115150535