Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2013

Анализ качества и очистка чтений

Работа с результатами секвенирования требует много дискового пространства, которого в ваших домашних директориях недостаточно. Для выполнения заданий этого блока заведена специальная директория /P/y13/ngs на kodomo. Перед выполнением заданий создайте в этой директории свою поддиректорию (лучше всего назвать её своим логином). Все большие файлы (скачанные и распакованные fastq-файлы, результаты сборки и т.п.) кладите туда. После получения окончательных результатов обязательно перемещайте файлы с результатами (например, результат работы fastqc, протоколы работы и т.п.) в свою домашнюю директорию (на диск H). Директория /P/y13/ngs будет уничтожена вместе со всем содержимым 31 декабря 2014 г.!

Через две недели сделайте отчёт на сайте и пришлите ссылку для проверки.

1. Анализ качества чтений

1. Скачайте файл с чтениями генома резуховидки. Файл выберите так: R1 — первая группа, R2 — вторая, последняя цифра номера файла совпадает с последней цифрой вашего порядкового номера.

2. Сделайте контроль качества скачанных чтений программой FastQC. Дайте ссылку с сайта на html-версию отчета этой программы.

Указание. Программа FasqQC стоит на kodomo и вызывается командой fastqc file.fastq (где file.fastq – имя файла с прочтениями). Версию с графическим интерфейсом можно поставить на свой компьютер.

2. Очистка чтений

1. Сделайте тримминг (очистку) скачанных чтений с помощью программы Trimmomatic: удалите последовательности адаптеров, отрежьте с конца каждого прочтения нуклеотиды с качеством ниже 20, оставьте только прочтения длиной не меньше 50 нуклеотидов. Какой формат fastq вы укажете программе: phred33 или phred64? Напишите полностью команду, которую вы использовали для очистки.

2. Сделайте анализ качества очищенных чтений с помощью FastQC. Дайте ссылку на новый html-отчет этой программы. Сколько чтений осталось? Как и почему изменились графики Per base sequence quality, Per base sequence content и Sequence length distribution?

Указание. Для работы на kodomo программу Trimmomatic можно вызывать так:

 java -jar /usr/share/java/trimmomatic.jar SE -phred33 infile.fastq outfile.fastq step

Здесь infile.fastq и outfile.fastq – входной и выходной файл, а step – выражение, указывающее, какую операцию производить. Например, для обрезки попавших в прочтения последовательностей адаптеров можно вставить вместо step выражение вида

ILLUMINACLIP:adapters.fasta:2:7:7

где adapters.fasta – файл с адаптерами (которые нужно удалить из последовательностей) в fasta-формате. Примеры таких файлов лежат в директории /P/y13/term3/block4/adapters. Вполне разумное решение – создать свой файл, в котором объединить все адаптеры из этих примеров.

Для других задач следует использовать вместо step другое выражение, например для удаления участков плохого качества можно написать

SLIDINGWINDOW:10:28

что означает пройти по прочтениям окном длиной 10 и удалить правый конец каждого прочтения после окна со средним качеством меньше 28 (если такое окно найдётся). Почитайте руководство пользователя и выясните, как удалить плохие буквы с конца и как оставить только прочтения длины не менее 50.

Несколько операций (удаление адаптеров, очистка от плохих букв, удаление слишком коротких прочтений) можно производить одним запуском программы, указывая соответствующие операции ("steps") друг за другом через пробел в конце командной строки.