Shotgun-szekvenálás

Innen: testwiki
Ugrás a navigációhoz Ugrás a kereséshez

A genetikában a shotgun-szekvenálás[1] véletlenszerű DNS-szálak szekvenálására használt módszer.

A Sanger-szekvenálás láncvégi módszere csak rövid, 100–Sablon:Adat-os DNS-szálakra használható. Emiatt a hosszabb szekvenciákat önállóan szekvenálható kisebbekre osztják, majd összeállítják a teljes szekvenáláshoz.

A shotgun-szekvenálásban[2][3] a DNS számos kis részre van osztva véletlenszerűen, ezek láncvégi módszerrel való szekvenálása hozza létre a leolvasásokat. A több átfedő leolvasás több törés-szekvenálás ciklussal oldható meg. A számítógépes programok ezután az átfedő részeket folytonos szekvenciává állítják össze.[2]

A teljes genomszekvenálást lehetővé tevő technológiák egyike volt.

Példa

Az alábbi két véletlenszerű leolvasási ciklus igen egyszerű példa:

Szál Szekvencia
Eredeti AGCATGCTGCAGTCATGCTTAGGCTA
Első szekvencia AGCATGCTGCAGTCATGCT-------

-------------------TAGGCTA

Második szekvencia AGCATG--------------------

------CTGCAGTCATGCTTAGGCTA

Rekonstrukció AGCATGCTGCAGTCATGCTTAGGCTA

Ezen egyszerűsített példában az eredeti szekvencia egészét egyik leolvasás se fedi, de a négy leolvasásból megadható az eredeti szekvencia végeik átfedésének felhasználásával. A gyakorlatban a folyamat hatalmas mennyiségű információt használ számos kétértelműséggel és szekvenálási hibával. Az összetett genomok összeillesztését nehezítik továbbá az ismétlődő szakaszok, vagyis a hasonló rövid leolvasások a szekvencia teljesen eltérő részéről is származhatnak.

Számos átfedő leolvasás szükséges ezek meghatározásához és a megfelelő összeillesztéshez. Például a humángenom-projektben a humán genom nagy része legalább 12-szeres lefedettségben volt szekvenálva, minden bázis átlagosan 12 különböző leolvasásban volt megtalálható. Még így is a humán genom eukromatinrészének mintegy 1%-át nem izolálták vagy illesztették össze 2004-ben.[4]

Teljes genomos shotgun-szekvenálás

Történet

A kis (4000–Sablon:Adat) genomok teljes genomos shotgun-szekvenálását 1979-ben javasolták először.[2] Az első így szekvenált genom a karfiolmozaik-vírus 1981-ben kiadott genomja volt.[5][6]

Párosított végű szekvenálás

Szélesebb körű alkalmazása a végpáronkénti szekvenálással jelent meg. Ahogy a szekvenálási projektek hosszabb és komplexebb DNS-szekvenciákat kezdtek el szekvenálni, több csoport hasznosnak látta a DNS-töredék mindkét fvégének szekvenálását. Bár mindkét vég szekvenálása és az adatok kezelés két eltérő töredék egy végének szekvenálásánál nehezebb, az ismeret, hogy a két szekvencia ellenkező irányú, és nagyjából egy töredék hosszára vannak egymástól, értékes volt az eredeti töredék szekvenciájának rekonstrukciójában.

Története

A párosított végű szekvenálás használatát először 1990-ben közölték[7] a humán hipoxantin-guanin foszforiboziltranszferáz (HGPRT) lokuszának szekvenálásakor, de ekkor használata a hagyományos szekvenálás utáni lyukak lezárására korlátozódott. A tisztán páronkénti szekvenálás első leírása állandó hosszú töredékek feltételezése mellett 1991-ben történt.[8] Ekkor közösségi konszenzus volt, hogy az optimális töredékhossz a szekvencialeolvasás hosszának 3-szorosa. 1995-ben Jared Roach és társai változó méretű töredékek használatát mutatták be, és kimutatták, hogy nagy célpontok szekvenálhatók tisztán páronként.[9] Ezt alkalmazta a Genomkutatási Intézet (TIGR) a Haemophilus influenzae genomjának 1995-ös,[10] majd a Celera Genomics a Drosophila melanogaster genomjának 2000-es,[11] végül a humán genom szekvenálásához.

Módszer

A stratégiához egy nagy tömegű DNS-szálat méret szerint (általában 2, 10, 50, Sablon:Adat) kiválasztott véletlenszerű töredékekre vágnak, és megfelelő vektorba klónoznak. A klónokat mindkét végről szekvenálják láncvégi Sanger-szekvenálással, E szekvenciák a végleolvasások vagy 1-es és 2-es leolvasás, az azonos klónról származó olvasások a „társpárok”. Mivel a láncvégi módszer általában csak 500–1000 bázisból álló leolvasásokat készíthet, a társpárok ritkán fednek át a legrövidebb klónok kivételével.

Összeállítás

Az eredeti szekvencia rekonstrukciója szekvencia-összeállítóval történik. Először az átfedő leolvasások hosszabb összetett szekvenciákba (contig) kerülnek, melyek „scaffoldokba” kapcsolhatók a társpárok kapcsolatai követésével. A contigtávolság meghatározható a társpárhelyzetekből, ha az átlagos töredékhossz ismert, és kicsi a szórása. A távolság függvényében különböző módszerek használhatók a lyukakban lévő szekvenciák megadásához: ha kicsi a lyuk (5–Sablon:Adat, polimeráz-láncreakcióval sokszorosítható, majd szekvenálható a rész, ha nagyobb (>Sablon:Adat), a nagy töredék speciális vektorokban (például mesterséges baktérium-kromoszóma) klónozható, majd a vektor szekvenálható.[12]

Előnyök és hátrányok

Előnye, hogy az egész genom egyszerre szekvenálható több szekvenálóeszközzel, ami a hagyományos módszereknél hatékonyabb. Hátránya viszont, hogy noha gyorsan szekvenál nagy DNS-részeket, a megfelelő összeillesztésükre való képesség kétes, különösen ismétlődő részkekel rendelkező eukarióta genomokkal. A szekvenciaillesztők javulása és a számítógépek árának csökkenése e korlátot áthidalhatta.[12]

Lefedettség

Sablon:Fő A lefedettség a rekonstruált szekvencia egy nukleotidjához tartozó átlagos leolvasásszám. Képlete n=NLG, ahol n a lefedettség, N az olvasásszám, L az átlagos olvasáshossz, G a genomhossz. Például egy Sablon:Adat hosszú, 8, átlagosan Sablon:Adat hosszú leolvasásból rekonstruált genom redundanciája 2-szeres. E paraméter lehetővé teszi más mennyiségek, például a leolvasások által lefedett genomarány becslését. A magas lefedettség ajánlott, mivel a bázishívás és az összeillesztés hibáit csökkenti. A DNS-szekvenálás-elmélet e mennyiségek kapcsolatait vizsgálja.

Néha különbséget tesznek a szekvencia- és a fizikai lefedettség közt. Előbbi az egy bázisra jutó átlagos leolvasásszám, utóbbi az egy bázisra jutó átlagos társpárosleolvasás-szám.[13]

Hierarchikus shotgun-szekvenálás

A teljes genomos shotgun-szekvenálásban (fent) a genomot véletlenszerűen a szekvenáláshoz megfelelő méretű töredékekre osztják, majd újra összeállítják. A hierarchikusban (lent) a genomot először nagyobb részekre osztják, ezek sorrendje meghatározása után a részeket szekvenáláshoz megfelelő méretű részekre bontják.

Bár a shotgun-szekvenálás elvileg bármekkora genomra alkalmazható, közvetlen használata nagy genomok, például a humán genom szekvenálásában az 1990-es évek végéig korlátozott volt, mikor a technológiai haladás lehetővé tette a folyamatban érintett sok adat kezelését.[14] Eredetileg a teljes genomos szekvenálást a nagy genomok nagysága és a nagyobb ismétlődő-DNS-arány (a humán genomban például >50%) is korlátozta.[15] Nem volt elfogadott, hogy egy nagy genom teljes genomos shotgun szekvenálása megbízható adatokat szolgáltat, ezért más, a szekvencia-összeállításhoz szükséges teljesítményt csökkentő eljárások kellettek a shotgun szekvenálás előtt.[15] A hierarchikus (más néven felülről lefelé jövő) szekvenálásban alacsony felbontású fizikai leképezés készül a genomról a tényleges szekvenálás előtt. Erről kevés, az egész kromoszómát kiválasztó töredéket kiválasztanak szekvenáláshoz.[16] Így kevés magas átvitelű szekvenálás és összeillesztés kell.

A sokszorosított genomot először nagyobb, 50–200 kb-os részekre bontják és baktériumokba klónozzák BAC vagy P1-derivált mesterséges kromoszóma (PAC) révén. Mivel több genommásolatot bontottak véletlenszerűen, az egyes klónokban lévő töredékek végei valószínűleg eltérnek, és elég lefedettséggel megtalálható a BAC-contigokból álló legkisebb scaffold. Ez a minimális lefedő sorozat.

A teljes genomot lefedő BAC-contig alkotja a lefedő sorozatot.

A lefedési út megtalálása után az utat alkotó BAC-ok véletlenszerűen kisebb töredékekre bomlanak, és shotgun szekvenálással szekvenálhatók kisebb méretben.[17]

Bár a teljes BAC-contig-szekvenciák nem ismertek, az egymáshoz viszonyított helyzetek igen. E sorrendek levezetésére és a lefedési utat alkotó BAC-ok kiválasztására több út van. Általában a klónok egymáshoz viszonyított helyzetének azonosítása és az egész érintett részt alkotó, a lehető legkevesebb klón által alkotott folytonos scaffold kiválasztása fontos. A klónsorrend az átfedés módjának meghatározásával vezethető le.[18] Az átfedő klónok számos módon azonosíthatók. Radioaktívan vagy kémiailag megjelölt anyag szekvenciajelölt hellyel (STS) hibridizálható mikrocsoportra, erre kerülnek a klónok.[18] Így az adott szekvenciát genomjukban tartalmazó klónok azonosíthatók. A klónok vége szekvenálhatók, új megjelölt anyagot adva, és a folyamat ismételhető, ez a kromoszómaséta.[19]

Egy alternatív módszer a BAC-könyvtár restrikciós emésztése. Két közös töredékkel rendelkező klón átfed, mivel több hasonló távolságra lévő restrikciós helye közös.[18] E genomikai leképezési módszer a restrikció vagy BAC-ujjlenyomat-készítés, mivel a klónok restrikciós helyeit azonosítja. A klónok átfedésének megtalálása és genombeli helyének megismerése után e contigok egész genomot fedő minimális részhalmazának scaffoldját szekvenálják.[16]

Mivel először alacsony felbontású leképezést készít a genomról, a hierarchikus shotgun szekvenálás lassabb az egész genomosnál, de kevésbé függ a számítógépes algoritmusoktól. A jelentős BAC-könyvtár-készítés és lefedősorozat-kiválasztás teszik ezt azonban lassúvá és munkaigényessé. Mivel a technológia elérhető, az adatok megbízhatók,[15] a teljes genomos shotgun szekvenálás sebessége és hatékonysága miatt a genomszekvenálás elsődleges módjává vált.

Újabb szekvenálási technológiák

A hagyományos shotgun szekvenálás a Sanger-szekvenáláson alapult, amely 1995–2005 között a legjobb módszer volt a szekvenálásra. A shotgun szekvenálást ma is használják más szekvenáló technológiákkal, például rövid (más néven új generációs szekvenálás) és hosszú leolvasású szekvenálással együtt.

A rövid leolvasású vagy „új generációs” szekvenálás rövidebb, 25–500 bp körüli leolvasásokat ad, de ezekből akár több milliót is viszonylag rövid idő, akár napok alatt is.[20] Ez magas lefedettséget ad, de az összeillesztés sokkal erőforrás-igényesebb. E technológiák a sok adat és a viszonylag rövid szekvenálási idő miatt jobbak a Sanger-szekvenálásnál.[21]

A metagenomikában

A 400–500 bp-os leolvasások elegendők a DNS forrásának faját vagy törzsét, amennyiben a genom ismert, például k tagú polimereken alapuló taxonómiai besoroló szoftverrel. Az új generációs szekvenálásból származó több millió leolvasással bármely komplex, akár több ezer fajú mikrobiom, például a bélmikrobiom is teljesen áttekinthető. Előnye a 16S rRNS-amplikonszekvenálással szemben, hogy nem korlátozódik baktériumokra, képes a fajnál kisebb taxonokat is meghatározni, ahol az amplikonszekvenálás csak a génuszt adja meg, és képes teljes géneket kivonni és funkciójukat meghatározni a metagenom részeként.[22] A metagenomikai szekvenálás szenzitivitása hasznossá teszi a klinikumban.[23] Azonban a minta vagy a szekvenáló rendszer szennyeződése fontos probléma.[24]

Jegyzetek

Sablon:Jegyzetek

Fordítás

Sablon:Fordítás

Források

Sablon:Portál