Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2019

Программа коллоквиума 15 декабря 2020

Каждому студенту необходимо будет ответить на десять вопросов, по одному из каждого раздела.

  1. Секвенирование по Сэнгеру

    1. ПЦР: необходимые компоненты для реакции и результат;
    2. Компоненты реакции для проведения секвенирования по Сэнгеру;
    3. На что надо обращать внимание при визуальном анализе хроматограммы. Пример ситуации, требующей разбора;
    4. Смысл качества прочтения нуклеотида (формула);
    5. Что учитывает программа, рассчитывающая качество прочтения?
  2. Банки нуклеотидных последовательностей

    1. История секвенирования (примерные даты): первая последовательность белка, первая последовательность РНК, секвенирование по Сэнгеру, первый геном бактерии, геном человека.
    2. Примерные размеры геномов человека, бактерии, вируса.
    3. Перечислите основные банки нуклеотидных последовательностей.
    4. Биопроект, биообразец, сборка (assembly), SRA — объясните термины
  3. BLAST

    1. Что такое вес в битах, и чем он лучше обычного веса выравнивания?
    2. E-value (Expected) — объясните смысл этого параметра. Для случайной последовательности сколько находок с E-value < 0.1 найдется в нуклеотидном банке данных? То же, с E-value < 10.

    3. За счет чего BLAST работает быстро?
    4. Перечислите все разновидности BLAST в зависимости от типа входной последовательности и базы данных.
    5. Зачем нужны разновидности нуклеотидного (НК против НК) BLAST?
    6. Приведите примеры трех задач, для решения которых нужны разные виды BLAST.
    7. Перечислите входные параметры, которые надо контролировать при запуске BLAST.
    8. Какие нуклеотидные и белковые банки предусмотрены для поиска в веб-интерфейсе BLAST на сайте NCBI? Приведите по два-три примера каждого типа банка и объясните, что в них содержится.
  4. EMBOSS

    1. Унифицированный адрес последовательности — приведите примеры
    2. Как можно узнать аббревиатуры подключенных к EMBOSS баз данных?
    3. Какие help'ы предусмотрены в EMBOSS и как их вызывать?
    4. Как узнать обозначение нужного формата файла?
    5. Трансляция: вход и параметры; что значит * в результате?
    6. Для чего используются опции -filter и -auto?

    7. Как узнать, что параметр может быть задан в виде позиционного аргумента, то есть без указания названия опции?
  5. Выравнивание геномов

    1. На примере объясните карту локального сходства для двух геномов бактерий
    2. Перечислите крупные эволюционные события, наблюдающиеся в геномах. Приведите примеры (можно из головы).
  6. NGS секвенирование

    1. Сколько фотографий будет получено при секвенировании парнокоцевых чтений длины 100 нуклеотидов на секвенаторе фирмы Illumina?
    2. Объясните основной графический выход программы FastQC (рисунок с боксплотами)
    3. Phred Quality Score нуклеотида = 30. Какова вероятность того, что этот нуклеотид прочитан неверно?
    4. Опишите кратко основной принцип работы секвенатора фирмы Illumina в случае парноконцевых и одноконцевых чтений.
    5. Вы получили чтения для анализа. Что об источнике этих данных необходимо узнать прежде, чем браться за анализ? Приведите 3-5 важных пунктов.
  7. Что и зачем секвенируют?

    1. Геном, экзом, транскриптом — объясните термины.
    2. Для решения какой задачи необходимо секвенировать и анализировать транскрибируемые спейсеры?
    3. Какие мутации можно изучать с помощью секвенирования?
  8. Картирование

    1. Что такое SNP?
    2. В чем отличие при картировании чтений, полученных при секвенировании экзома и транскриптома?
    3. Какую информацию хранят в файлах с расширениями: fasta, fastq, sam, bam, vcf, gvcf, bed, gtf?
    4. Опишите основные манипуляции с данными, предшествующие картированию чтений на референсный геном.
  9. Транскриптом

    1. Для чего при секвенировании транскриптома бывает нужно большое покрытие?
    2. Приведите примеры фракций РНК, которые выделяют для секвенирования (4 типа).
    3. Какие задачи можно решать, с помощью секвенирования РНК (2-3 примера)?
    4. Какие бывают реплики и зачем они нужны?
  10. Сборка de novo

    1. Дан размер генома, число чтений и длина каждого чтения. Как рассчитать ожидаемое количество нуклеотидов, не покрытых ни одним чтением (в предположении равновероятного распределения чтений по геному)?
    2. Чтения (reads), контиги, скэффолды, покрытие, N50, L50 — объясните термины
    3. Что такое парные чтения и как они используются при сборке генома?
    4. Что такое встречноконцевые чтения (mate pair reads)?
    5. Что такое граф де Брёйна?
    6. Опишите основные манипуляции с данными, предшествующие сборке de novo.