Практикум 14

Был загружен проект по секвенированию бактерии Buchnera aphidicola с кодом доступа SRR4240356

Ниже представлена таблица со всеми использованными командами:


Команда Описание
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240356.fastq SRR4240356_noadapters.fastq ILLUMINACLIP:adapters.fasta:2:7:7 ILLUMINACLIP удаляет остатки адаптеров adapters.fasta - файл со всеми адаптерами Illumina из директории /P/y18/term3/block3/adapters
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240356_noadapters.fastq SRR4240356_trimmed.fastq TRAILING:20 MINLEN:32 Были обрезаны с конца нуклеотиды с качеством ниже 20, а также убраны все последовательности длиной менее 32 нк
fastqc SRR4240356 Провека качества чтений
velveth velveth 31 -fastq -short SRR4240356_trimmed.fastq Подготовка k-меров (k = 31). -short - риды короткие и непарные.
velvetg velveth Сборка контигов на основе k-меров

До удаления адаптеров было 7511529 чтений, после осталось 7358438, то есть адептеров было ~ 2%. Потом были удалены нуклеотиды с концов с качеством чтения ниже 20 и чтения длиной менее 32 нуклеотиов. В результате осталось 7053346 чтений. При удалении остатков адаптеров размер первонального файла уменьшился с 758М до 743М. В после процедуры триммирования, размер файла составил 711M. Ниже приведены оценки качества чтений.
До триммирования:

После триммирования:

Сборка контигов

N50 = 65554


Наиболее длинные контиги:

номер длина покрытие
8 111962 38.66
6 107488 34.17
10 80939 37.52

Было произведено выравнивание трёх самых длинных контигов с хромосомой Buchnera aphidicola при помощи megablast

  1. Контиг 8. Координаты в хромосоме 528794..550219, Identity 81%, query cover 75%, 545 гэпов (2%). Карта локального сходства:


    Контиг и хромомосома имеют одинаковое направление. blast выделил 15 участков выравнивания
  2. Контиг 6. Координаты в хромосоме 266073..275551 , Identity 79%, query cover 74%, 363 гэпа (3%) Карта локального сходства:


    Контиг и хромомосома имеют одинаковое направление Участок лег более фрагментарно, чем предыдущий.
  3. Контиг 10. Координаты в хромосоме 127825..140555, Identity 75%, query cover 75%, 544 гэпа (4%) Карта локального сходства:


    Контиг и хромомосома имеют разное направление