Сборка генома de novo.

Чтения

На соответствующем сайте я скачала чтения (в формате fastq) проекта по секвенированию бактерии Buchnera aphidicola с данным мне кодом доступа - SRR4240359. Файл был перенесен в директорию /nfs/srv/databases/ngs/e.caterina/pr13 и там распакован:

| gunzip SRR4240359.fasrq.gz

Подготовка чтений

Для сборки генома требовалась предварительная подготовка чтений. Во-первых, необходимо было удалить остатки адапетров: их последовательности были скапированы из папки /P/y16/term3/block3/adapters в файл adapters.fa. Затем эти последовательности были удалены из ридов:

| java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240359.fastq SRR4240359_1.fastq ILLUMINACLIP:adapters.fa:2:7:7
Input Reads: 13557938 Surviving: 13502036 (99,59%) Dropped: 55902 (0,41%)
Анализ чтений (SRR4240359.fastq):
| fastqc SRR4240359.fastq
Анализ чтений (SRR4240359_1.fastq):
| fastqc SRR4240359_1.fastq

После этого были удалены буквы с плохим качеством и чтения, длиной менее 30 букв:

| java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240359_1.fastq SRR4240359_cl.fastq TRAILING:20 MINLEN:30
Input Reads: 13502036 Surviving: 12549379 (92,94%) Dropped: 952657 (7,06%)
Анализ чтений (SRR4240359_cl.fastq):
| fastqc SRR4240359_cl.fastq
Размер файла изменился с 1375М (до удаления адаптеров) на 1369М (после удаления адаптеров) и 1256М после удаления плохих чтений (сколько ридов было выкинуто написано в выводе команд).

Сборка

Первый этап сборки - подготовка k-меров (k=29 и k=25). Она была выполнена с помощью команды velveth пакета velveth:

| velveth velveth 29 -fastq -short SRR4240359_cl.fastq
| velveth velveth 25 -fastq -short SRR4240359_cl.fastq

Затем командой velvetg была произведена сама сборка:

| velvetg velveth
Final graph has 2049 nodes and n50 of 47361, max 91528, total 723361, using 0/12549379 reads
Final graph has 10154 nodes and n50 of 2982, max 17922, total 919878, using 0/12549379 reads
Эта команда создала папку velveth и в ней следующие файлы:
Graph  LastGraph  Log  PreGraph  Roadmaps  Sequences  contigs.fa  stats.txt
Последний содержит информация о покрытии и длине контигов (в k-мерах), причем в столбце *cov приведено покрытие с учетом немного отличающихся последовательностей, а в столбце *Ocov - только полностью совпадающих. Если назвать аномальными контиги, с покрытием больше чем в 5 раз больше среднего, то видно, что в первом случае ими оказываются первые два контига с максимальным покрытием, во втором - все три контига, в третьем - только первый контиг с максимальным покрытием.
N50: 47361
k: 29
Число k-меров:2049
lgthshort1_covshort1_Ocov
Контиги с максимальным покрытием
1556838556838
120092009
1385297
Контиги с минимальным покрытием
(таких строк много)
111
Контиги с максимальной длиной
9152853,8853,87
8312751,2351,22
7816057,4657,45
Средние
355,80316,03301,11
Медианы
987,25

Таблица 1. Покрытия, длины контигов; k=29

N50: 2982
k: 25
Число k-меров:10154
lgthshort1_covshort1_Ocov
Контиги с максимальным покрытием
1848165848165
134103410
1917154
Контиги с минимальным покрытием
(таких строк много)
111
Контиги с максимальной длиной
1792295,3495,06
1761589,2088,88
1714687,5187,03
Средние
91,04136,11111,21
Медианы
64,704,5

Таблица 2. Покрытия, длины контигов; k=25

N50: 52117
k: 29
Число k-меров:673
lgthshort1_covshort1_Ocov
Контиги с максимальным покрытием
11531715317
2171171
8142,12562,125
Контиги с минимальным покрытием
(таких строк много)
111
Контиги с максимальной длиной
11144232,3932,39
6951331,1431,14
6895828,2928,29
Средние
1007,6247,6841,23
Медианы
1912,349,97

Таблица 3. Покрытия, длины контигов при сборке
с использованием половины файла; k=29

Сборка половины файла

Т. к. было известно число ридов после очистки, а также то, что в формате fastq каждый рид имеет 4 строки, половина файла была получена записью первых 25098760 строк в другой файл (и было проверено, что конец файлв случайно не обрезает информацию посреди рида). Далее были проделаны все те же операции:

| head -25098760 SRR4240359_cl.fastq > SRRhalf.fastq

| tail -4 SRRhalf.fastq @SRR4240359.6720197 6720197/1 ATTTGGTTATGCTACTAATGAAACTGAATTTTTCAT + IIIIIIIIIII4IIIIIIIII'IIIIIIIIIIII7I
| velveth velveth 29 -fastq -short SRRhalf.fastq
| velvetg velveth Final graph has 672 nodes and n50 of 52117, max 111442, total 678130, using 0/6274690 reads

Анализ полученной сборки можно увидеть в таблице 3 (выше). Среднее покрытие упало примерно в 6 раз, максимальные покрытия контигов также уменьшились, строк с минимальным покрытием стало гораздо меньше (что не отражено в таблице). Почему-то увеличилась максимальная длина контигов - возможно, это как-то связано с трудностью правильного разрешения повторов при наличии только половины ридов.

Анализ

С помощью megablast (порог Evalue 0.01, длина слова 24) были получены выравнивания для трех самых длинных контигов с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253 - это subject, т. е. координаты на ней s.start и s.end ). В таблице 4 представлены данные по выравниваниям:

subject acc.verquery cover % identity alignment length mismatches gap opens q. start q. end s. start s. end evalue bit score
NODE_4_length_91528_cov_53.88 (total score 35764)
CP009253.166%74,0839592212329651681611223987263893480,03605
79,606503186810946453514364038233989040,03461
79,5284665817109322993689341767741308103197
80,2553054542523379640644589544287702242
77,1063870747105400984391041020840642102109
76,1994151837116203262440442948342541202052
82,361217736815440424621040621840405001879
77,082295456686113101423343813943526701602
77,343278555266819758474136954436682101574
75,1863494712120142951772443524143183901506
82,042174329021754847721437586737413601463
80,799182832028379803979441232141051201402
80,937151626818677746928038311538161201179
79,0441694326246536821144281744113501134
78,82314782882263845653123868873854250972
78,92212432391962541637693881233868900822
76,89613983011824505258954253474239650773
76,50814262924180328817333711483697460737
74,79617143635672152738363788493771760708
77,12911982482093121184493364481550671
79,113857170728514293674213274204772,06E-165582
76,78210382202088647896723629543619262,69E-159562
74,05712992625265376666593854203841822,81E-129462
78,0736021131529526301224203644197772,93E-099363
88,947190136833385144409444407551,11E-058228
79,636275441086626868963649683647021,89E-046187
97,5618211860486854407324406525,37E-032139
72,785181003637177376664129364124321,93E-031137
NODE_3_length_83127_cov_51.23 (total score 31975)
CP009253.174%75,7308459177321163898722483332223415080,03989
76.6697428154915124568319212959353032520.03947
75,8818396159632225461076727556628370603890
76,819437088799387554306630787831217902342
77,534342367073159451931128818129156001969
77,111335167882437114701931267931598201857
76,349339168094740257736434322834654701707
73,9784304944140500535426631882632304301581
75,955282857185580846085332722733000301354
80,965153428010227332425929422729575501205
75,48260654171801788275234991835245601182
74,72725684971071248727305527555101007
75,13422404886155586577923247473269500987
78,48314502971478487799293482333496740935
77,79512972393872607738793417813430520754
75,98213492972512821141552852002865350671
80,161872165819520203872916932925600645
82,667675115261234619073303333310066,7E-170597
76,23711322233711015121242839632850703,16E-158558
81,754570102221300218682934242939923,27E-133475
76,541503109854899553963240543245522,14E-070267
1002400625362764314574314340,00145,4
NODE_1_length_78160_cov_57.46 (total score 26526)
CP009253.172%74,94613008271542620126328661278251405550,05465
77,8048168154919145885539691537521617380,04796
77,74775361434178365054390414436815179604401
79,589491489192541745903416189816675203415
76,21665171391138590656550816675017318003301
72,4894740105918154181000311329011793801303
83,73611991849188682006112662312781501123
77,02517413345416888186041246041263020939
77,54612472601615655168891233321245700734
76,00711922463833552347191414771426525,52E-165580
75,2810722134634957360051428261438685,8E-130464

Таблица 4. Выравнивания трех самых длинных контигов

Ниже (рис. 1-3) приведены карты выравниваний. Видно, что покрытия расположены линейно, но имеют разрывы. При этом контиг 4 имеет обратную ориентацию.


Рисунок 1. NODE_4_length_91528_cov_53


Рисунок 2.NODE_3_length_83127_cov_51


Рисунок 3.NODE_1_length_78160_cov_57.46



НАЗАД ➜
© <Рюмина Екатерина>, 2017