1. Анализ качества чтений
Был скачан файл с чтениями генома резуховидки Ath_tae_CTTGTA_L003_R1_010.fastq
в соответствии с моим порядковым номером (40). Был произведен контроль качества чтения с помощью
команды:
fastqc Ath_tae_CTTGTA_L003_R1_010.fastq
Была получена HTML-версия отчета об анализе качества чтений.
2. Очистка чтений
Был произведен тримминг скачанных чтений с помощью программы Trimmomatic. Она была вызвана командой:
java -jar /usr/share/java/trimmomatic.jar SE f1.fastq f1_1.fastq ILLUMINACLIP:adapters.fa:2:2:7
файл adapters.fa был получен объединением файлов с адаптерами из директории
/P/y13/term3/block4/adapters.
Далее были отрезаны нуклеотды с конца каждого прочтения, качество которых было ниже 20.
java -jar /usr/share/java/trimmomatic.jar SE f1_1.fastq f1_2.fastq TRAILING:20
И были удалены чтения короче 50 нуклеотидов
java -jar /usr/share/java/trimmomatic.jar SE f1_2.fastq f1_3.fastq MINLEN:50
Затем повторно был проведен анализ качества чтений:
fastqc f1_3.fastq
Получен новый отчет.
Количество чтений снизилось с 2.439.795 до 2.324.119. После очистки чтений на графике
Per base sequence quality в красную зону нуклеотидов больше не попадает, до очистки
нуклеотидов в красной зоне было большое число. График Per base sequence content практически не
изменился. График Sequence Length Distribution изменился, т.к. до очистки все длины, были 101, а
после стали от 50 до 101. Но при этом преобладающей длиной остается длина 101.
|