Учебный сайт Ксении Худяковой

1. Анализ качества чтений
Был скачан файл с чтениями генома резуховидки Ath_tae_CTTGTA_L003_R1_010.fastq в соответствии с моим порядковым номером (40). Был произведен контроль качества чтения с помощью команды:

fastqc Ath_tae_CTTGTA_L003_R1_010.fastq

Была получена HTML-версия отчета об анализе качества чтений.

2. Очистка чтений
Был произведен тримминг скачанных чтений с помощью программы Trimmomatic. Она была вызвана командой:

java -jar /usr/share/java/trimmomatic.jar SE f1.fastq f1_1.fastq ILLUMINACLIP:adapters.fa:2:2:7

файл adapters.fa был получен объединением файлов с адаптерами из директории /P/y13/term3/block4/adapters.
Далее были отрезаны нуклеотды с конца каждого прочтения, качество которых было ниже 20.

java -jar /usr/share/java/trimmomatic.jar SE f1_1.fastq f1_2.fastq TRAILING:20

И были удалены чтения короче 50 нуклеотидов

java -jar /usr/share/java/trimmomatic.jar SE f1_2.fastq f1_3.fastq MINLEN:50

Затем повторно был проведен анализ качества чтений:

fastqc f1_3.fastq

Получен новый отчет.
Количество чтений снизилось с 2.439.795 до 2.324.119. После очистки чтений на графике Per base sequence quality в красную зону нуклеотидов больше не попадает, до очистки нуклеотидов в красной зоне было большое число. График Per base sequence content практически не изменился. График Sequence Length Distribution изменился, т.к. до очистки все длины, были 101, а после стали от 50 до 101. Но при этом преобладающей длиной остается длина 101.