в анализ данных NGS
Блок 3 - Занятие 12
Анастасия Жарикова
fasta
fastq
sam
bam
cram
vcf
gvcf
bed
gtf
gff
bedGraph
bigBed
bigWig
tab
txt
Программный конвейер
… биоинформатику знать, что происходит в пробирке?
Для каждого экспериментального протокола нужны определенные входные данные и свой биоинформатический протокол обработки данных
При этом практически каждый шаг можно реализовать несколькими программами
Поддерживайте свои знания о профессиональном ПО на актуальном уровне
Количество чтений
При парноконцевом протоколе: кол-во прямых чиений = кол-ву обратных
Качество чтений
Длина чтений
Наличие адаптеров
Триммировать можем адаптеры и/или нуклеотиды плохого качества
% оставшихся прочтений / пар прочтений
распределение длины
% оставшихся букв
% картированных чтений
% уникально картированных чтений
% properly paired для парно-концевых чтений
% чтений, попавших в границы таргета, если он есть
% чтений, попавших в границы расширенного таргета, если он есть
Картирования: uniq, primary, secondary
кол-во snp и indel
% snp и indel с хорошими покрытием и качеством
% snp и indel в таргете, если есть
количество гомо- и гетерозигот
Разные консорциумы
“chr1” - “1” - “NC_000001.11”
Очень хороший инструмент для работы с геномными интервалами
Более 35 опций + параметры
В одном VCF файле может быть представлена информация сразу о нескольких образцах
В конце будут добавлены столбцы на каждый образец
QUAL – максимальный из возможных
Вам дали чтения в формате .fastq
Сказали: иди, анализируй!
Ваши действия?
Четко представлять общую задачу
Знать биологический объект (организм, клеточная линия, ткань)
Представлять особенности пробоподготовки и дизайн эксперимента
Оценить объем и качество входных данных
Узнать на каком приборе было проведено секвенирование
Выбрать версию референсного генома, если он используется, и оценить его качество
При использовании дополнительных данных (например, разметка генов) зафиксировать версию файла и соотнести с версией выбранного генома
Четко фиксировать все шаги программного конвейера, включая версии программ и пакетов, сохранять и комментировать код
Проверять объем данных на каждом этапе
Проверять качество каждого шага протокола обработки
Вести лабораторный журнал (!)
Бэкапы!
Результаты лучше всего хранить в статьях =)