Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2020

Программа коллоквиума 21 декабря 2021

Каждому студенту необходимо будет ответить на одиннадцать вопросов, по одному из каждого раздела, кроме восьмого, в восьмом один обязательный вопрос (про программный конвейер) + один вопрос из списка.

  1. Секвенирование по Сэнгеру

    1. ПЦР: необходимые компоненты для реакции и результат.
    2. Компоненты реакции для проведения секвенирования по Сэнгеру.
    3. На что надо обращать внимание при визуальном анализе хроматограммы. Пример ситуации, требующей разбора.
    4. Смысл качества прочтения нуклеотида (формула).
    5. Что учитывает программа, рассчитывающая качество прочтения?
  2. Банки нуклеотидных последовательностей

    1. История секвенирования (примерные даты): первая последовательность белка, первая последовательность РНК, секвенирование по Сэнгеру, первый геном бактерии, геном человека.
    2. Примерные размеры геномов человека, бактерии, вируса.
    3. Перечислите основные банки нуклеотидных последовательностей.
    4. Биопроект, биообразец, сборка (assembly), SRA — объясните термины.
  3. BLAST

    1. Что такое вес в битах, и чем он лучше обычного веса выравнивания?
    2. E-value (Expected) — объясните смысл этого параметра. Для случайной последовательности сколько находок с E-value < 0.1 найдется в нуклеотидном банке данных? То же, с E-value < 10.

    3. За счет чего BLAST работает быстро?
    4. Перечислите все разновидности BLAST в зависимости от типа входной последовательности и базы данных.
    5. Зачем нужны разновидности нуклеотидного (НК против НК) BLAST?
    6. Приведите примеры трех задач, для решения которых нужны разные виды BLAST.
    7. Перечислите входные параметры, которые надо контролировать при запуске BLAST.
    8. Какие нуклеотидные и белковые банки предусмотрены для поиска в веб-интерфейсе BLAST на сайте NCBI? Приведите по два-три примера каждого типа банка и объясните, что в них содержится.
  4. EMBOSS и EDirect

    1. Унифицированный адрес последовательности, объясните на примерах.
    2. Как можно узнать аббревиатуры подключенных к EMBOSS баз данных?
    3. Какие help'ы предусмотрены в EMBOSS и как их вызывать?
    4. Трансляция: вход и параметры; что значит * в результате?
    5. Как опция -filter меняет поведение программ из EMBOSS?

    6. Что такое NCBI Entrez?
    7. Назовите основные программы EDirect и кратко опишите их назначение.
    8. Как узнать название базы данных, поля в конкретной базе или ссылки между базами в Entrez c помощью EDirect?
    9. Что такое Entrez History и какое отношение это имеет к составлению конвейеров из программ EDirect?
  5. Выравнивание геномов

    1. На примере объясните карту локального сходства для двух геномов бактерий.
    2. Перечислите крупные эволюционные события, наблюдающиеся в геномах. Приведите примеры (можно из головы).
  6. NGS секвенирование

    1. Сколько фотографий будет получено при секвенировании парноконцевых чтений длины 100 нуклеотидов на секвенаторе фирмы Illumina?
    2. Объясните основной графический выход программы FastQC (рисунок с боксплотами).
    3. Phred Quality Score нуклеотида = 30. Какова вероятность того, что этот нуклеотид прочитан неверно?
    4. Опишите кратко основной принцип работы секвенатора фирмы Illumina в случае парноконцевых и одноконцевых чтений.
    5. Вы получили чтения для анализа. Что об источнике этих данных необходимо узнать прежде, чем браться за анализ? Приведите 3-5 важных пунктов.
  7. Что и зачем секвенируют?

    1. Геном, экзом, транскриптом — объясните термины.
    2. Для решения какой задачи необходимо секвенировать и анализировать транскрибируемые спейсеры?
    3. Какие мутации можно изучать с помощью секвенирования?
  8. Картирование

    1. Что такое SNP?
    2. В чем отличие при картировании чтений, полученных при секвенировании экзома и транскриптома?
    3. Какую информацию хранят в файлах с расширениями: fasta, fastq, sam, bam, vcf, gvcf, bed, gtf?
    4. Опишите основные манипуляции с данными, предшествующие картированию чтений на референсный геном.

    8a. Ответьте на вопрос по работе программного конвейера (обязательный для всех)

  9. Транскриптом

    1. Для чего при секвенировании транскриптома бывает нужно большое покрытие?
    2. Приведите примеры фракций РНК, которые выделяют для секвенирования (4 типа).
    3. Какие задачи можно решать с помощью секвенирования РНК (2-3 примера)?
    4. Какие бывают реплики и зачем они нужны?
  10. Сборка de novo

    1. Дан размер генома, число чтений и длина каждого чтения. Как рассчитать ожидаемое количество нуклеотидов, не покрытых ни одним чтением (в предположении равновероятного распределения чтений по геному)?
    2. Чтения (reads), контиги, скэффолды, покрытие, N50, L50 — объясните термины.
    3. Что такое парные чтения и как они используются при сборке генома?
    4. Что такое встречноконцевые чтения (mate pair reads)?
    5. Что такое граф де Брёйна?
    6. Опишите основные манипуляции с данными, предшествующие сборке de novo.

2020/3/colloquium (последним исправлял пользователь sas 2021-12-14 14:26:05)