Вернуться на главную страницу

Семестры

Третий семестр

Сборка de novo

В данном практикуме надо было с помощью кода доступа SRR4240382 скачать файл проекта секвенирования бактерии Buchnera aphidicola в формате fastq. Эта бактерия относится к Протеобактериям и является эндосимбионтом тлей.

Чтения были подготовлены программой Trimmomatic

Команда: mek@kodomo:/nfs/srv/databases/ngs/mek/pr15$ java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240382.fastq trimmomatic.fastq MINLEN:30 TRAILING:3 ILLUMI NACLIP:adapters.fasta:2:7:7

Комментарии: MINLEN:30 - удаляет прочтения короче 30; TRAILING:3 - удаляют нуклеотиды ниже качества равного 3-м с конца прочтения; ILLUMINACLIP:adapters.fasta:2:7:7 - вырезает адаптеры, со значениями: 2 - отдельные несовпадения, 7 - порог для палиндромной шпильки, 7 - порог для простой шпильки

В результате работы программы было удалено очень малое количество ридов: Input Reads: 17756177 Surviving: 17723032 (99,81%) Dropped: 33145 (0,19%). Размер файла изменился с 1808 М до 1794 М

Далее была запущена программа velveth для подготовки k-меров. Velveth принимает на вход несколько последовательностей, строит хэш-таблицу и создает в отдельной директории два файла - Sequences и Roadmaps, необходимые для velvetg.

Команда: velveth k_mery 29 -short -fastq trimmomatic.fastq

Комментарии: 29 - длина k-меров; -short - чтения короткие и не парные; -fastq - формат чтений

Потом с помощи программы velvetg была осуществлена сборка на основе k-меров. Velvetg строит граф де Брёйна - ориентированный n-мерный граф из m символов, отражающий пересечения между последовательностями символов. Он имеет m^n вершин, состоящих из всех возможных последовательностей длины n из данных символов. Один и тот же символ может встречаться в последовательности несколько раз.

Команда: velvetg k_mery

Получилось, что N50=298, т.е. контигами данной и большей длины можно покрыть 50% генома.

Три контига с наибольшей длиной:

Все контиги с аномально большим и аномально маленьким покрытием очень маленькой длины. Если отсортировать все контиги больше тысячи, то покрытия лежат в районе от 30 до 80.

Полученный в результате работы velvetg файл stats.txt

Анализ трех контигов наибольшей длины

Три контига наибольшей длины были сравнены с помощью megablast с хромосомой Buchnera aphidicola (CP009253). Контиги с аномально большим и аномально маленьким покрытием не выраниваются в blast из-за маленького размера.

ID контигаКоординатыИдентичностьЧисло гепов
24236918 to 247596
266073 to 271621
260224 to 263784
248967 to 252161
253244 to 257546
234792 to 236859
8182/10884(75%)
4296/5652(76%)
2794/3622(77%)
2527/3246(78%)
3229/4399(73%)
1615/2086(77%)
390/10884(3%)
196/5652(3%)
111/3622(3%)
94/3246(2%)
192/4399(4%)
35/2086(1%)
9295935 to 303252
275566 to 283706
288181 to 291560
294227 to 295755
285200 to 286535
283963 to 285070
5696/7429(77%)
6376/8396(76%)
2654/3422(78%)
1242/1535(81%)
1027/1349(76%)
864/1132(76%)
186/7429(2%)
421/8396(5%)
98/3422(2%)
14/1535(0%)
27/1349(2%)
46/1132(4%)
212004 to 11103
614190 to 620926
621055 to 627104
17962 to 19706
14727 to 17919
13994 to 14465
7229/9221(78%)
5390/6853(79%)
4678/6170(76%)
1507/1749(86%)
2450/3225(76%)
392/478(82%)
252/9221(2%)
187/6853(2%)
240/6170(3%)
24/1749(1%)
86/3225(2%)
9/478(1%)


© Матвейшина Елена, 2015