Учебная страница курса биоинформатики,
год поступления 2020
Программа коллоквиума 21 декабря 2021
Каждому студенту необходимо будет ответить на одиннадцать вопросов, по одному из каждого раздела, кроме восьмого, в восьмом один обязательный вопрос (про программный конвейер) + один вопрос из списка.
Секвенирование по Сэнгеру
- ПЦР: необходимые компоненты для реакции и результат.
- Компоненты реакции для проведения секвенирования по Сэнгеру.
- На что надо обращать внимание при визуальном анализе хроматограммы. Пример ситуации, требующей разбора.
- Смысл качества прочтения нуклеотида (формула).
- Что учитывает программа, рассчитывающая качество прочтения?
Банки нуклеотидных последовательностей
- История секвенирования (примерные даты): первая последовательность белка, первая последовательность РНК, секвенирование по Сэнгеру, первый геном бактерии, геном человека.
- Примерные размеры геномов человека, бактерии, вируса.
- Перечислите основные банки нуклеотидных последовательностей.
- Биопроект, биообразец, сборка (assembly), SRA — объясните термины.
BLAST
- Что такое вес в битах, и чем он лучше обычного веса выравнивания?
E-value (Expected) — объясните смысл этого параметра. Для случайной последовательности сколько находок с E-value < 0.1 найдется в нуклеотидном банке данных? То же, с E-value < 10.
- За счет чего BLAST работает быстро?
- Перечислите все разновидности BLAST в зависимости от типа входной последовательности и базы данных.
- Зачем нужны разновидности нуклеотидного (НК против НК) BLAST?
- Приведите примеры трех задач, для решения которых нужны разные виды BLAST.
- Перечислите входные параметры, которые надо контролировать при запуске BLAST.
- Какие нуклеотидные и белковые банки предусмотрены для поиска в веб-интерфейсе BLAST на сайте NCBI? Приведите по два-три примера каждого типа банка и объясните, что в них содержится.
EMBOSS и EDirect
- Унифицированный адрес последовательности, объясните на примерах.
- Как можно узнать аббревиатуры подключенных к EMBOSS баз данных?
- Какие help'ы предусмотрены в EMBOSS и как их вызывать?
- Трансляция: вход и параметры; что значит * в результате?
Как опция -filter меняет поведение программ из EMBOSS?
- Что такое NCBI Entrez?
- Назовите основные программы EDirect и кратко опишите их назначение.
- Как узнать название базы данных, поля в конкретной базе или ссылки между базами в Entrez c помощью EDirect?
- Что такое Entrez History и какое отношение это имеет к составлению конвейеров из программ EDirect?
Выравнивание геномов
- На примере объясните карту локального сходства для двух геномов бактерий.
- Перечислите крупные эволюционные события, наблюдающиеся в геномах. Приведите примеры (можно из головы).
NGS секвенирование
- Сколько фотографий будет получено при секвенировании парноконцевых чтений длины 100 нуклеотидов на секвенаторе фирмы Illumina?
- Объясните основной графический выход программы FastQC (рисунок с боксплотами).
- Phred Quality Score нуклеотида = 30. Какова вероятность того, что этот нуклеотид прочитан неверно?
- Опишите кратко основной принцип работы секвенатора фирмы Illumina в случае парноконцевых и одноконцевых чтений.
- Вы получили чтения для анализа. Что об источнике этих данных необходимо узнать прежде, чем браться за анализ? Приведите 3-5 важных пунктов.
Что и зачем секвенируют?
- Геном, экзом, транскриптом — объясните термины.
- Для решения какой задачи необходимо секвенировать и анализировать транскрибируемые спейсеры?
- Какие мутации можно изучать с помощью секвенирования?
Картирование
- Что такое SNP?
- В чем отличие при картировании чтений, полученных при секвенировании экзома и транскриптома?
- Какую информацию хранят в файлах с расширениями: fasta, fastq, sam, bam, vcf, gvcf, bed, gtf?
- Опишите основные манипуляции с данными, предшествующие картированию чтений на референсный геном.
8a. Ответьте на вопрос по работе программного конвейера (обязательный для всех)
Транскриптом
- Для чего при секвенировании транскриптома бывает нужно большое покрытие?
- Приведите примеры фракций РНК, которые выделяют для секвенирования (4 типа).
- Какие задачи можно решать с помощью секвенирования РНК (2-3 примера)?
- Какие бывают реплики и зачем они нужны?
Сборка de novo
- Дан размер генома, число чтений и длина каждого чтения. Как рассчитать ожидаемое количество нуклеотидов, не покрытых ни одним чтением (в предположении равновероятного распределения чтений по геному)?
- Чтения (reads), контиги, скэффолды, покрытие, N50, L50 — объясните термины.
- Что такое парные чтения и как они используются при сборке генома?
- Что такое встречноконцевые чтения (mate pair reads)?
- Что такое граф де Брёйна?
- Опишите основные манипуляции с данными, предшествующие сборке de novo.