Занятие 5 (зачетное)
Что кодирует фрагмент нуклеотидной последовательности?

 
     

 

Дано: фрагмент неаннотированного генома бактерии Klebsiella pneumoniae (последовательность генома – в файле P:\y05\Term3\Credit1\kpn_genome.fasta, а границы фрагментов и вариант задания – здесь). Дан также протеом и геном бактерии-прототипа.

Задача: определить, кодирует ли заданный Вам фрагмент что-либо, похожее на какой-либо белок из прототипного организма.

Создайте директорию Credit1, к концу занятия положите в нее файлы с результатами работы (и только их!).

Варианты и пояснения

Вариант 1

Получите заданную Вам последовательность из файла kpn_genome.fasta с помощью программы seqret. Определите, закодированы ли в нем белки, похожие на белки из Salmonella typhimurium. Полный протеом S. typhimurium находится в файле salty_proteome.fasta в директории P:\y05\Term3\Credit1\V1.

Проиндексируйте протеом для поиска программами пакета BLAST (предварительно проверьте свою квоту и удалите, если надо, ненужные файлы).

Выберите из программ пакета BLAST программу, подходящую для поставленной задачи и запустите её. Ищите только очень похожие последовательности (E-value<0,001). Снимите все фильтры.

Исследуйте полученный файл.
Если в организме-прототипе обнаружены объекты с высоким уровнем сходства, будем считать их гомологами. Назовите соответствующие участки исследуемого фрагмента по имени гомологичного белка и опишите расположение кодирующих областей в 2-х строчках следующего вида:

Гипотетические гены во фрагменте 1–10000

      3'-------------------------------------[<=ген bbbb, 2000-3000]-------5'

      5'----[=>ген aaaa, 1-1000]-------------------------------------------3' 

где значки => и <= обозначают прямую или комплементарную цепь ДНК соответственно, а 1–1000 — это локализация гена во фрагменте (то есть границы участка, выровненного программой BLAST с соответствующим белком S. typhimurium).

Это описание в любом формате нужно сдать в конце занятия.

Полный вариант отчета предполагает:

  • во-первых, обоснование выбора программы и типа данных, по которым будет вестись поиск;
  • во-вторых, сравнение взаимного расположения генов в исследуемом фрагменте и в геноме организма-прототипа;
    для определения взаимного расположения генов в геноме S. typhimurium сначала найдите с помощью одного запроса к SRS все соответствующие белки в UniProt, а затем с помощью кнопки "Link" установите связь с документами EMBL; изучите документы и опишите взаимное расположение генов;
  • в-третьих, полный перечень использованных команд;
  • и наконец, хороший уровень оформления.
В окончательной версии отчета допускаются любые разумные исправления и уточнения описания кодирующих областей. Приветствуются любые нетривиальные наблюдения и любые дополнения.

См. советы.

Вариант 2

Получите заданный Вам фрагмент генома Klebsiella pneumoniae из файла kpn_genome.fasta с помощью программы seqret. Определите, есть ли в этом фрагменте гены, похожие на гены бактерии-прототипа Escherichia coli K-12 .

  1. Определите инструмент(ы) для решения поставленной задачи, а также тип данных, среди которых будете вести поиск. Запись EMBL c описанием полного генома Escherichia coli K-12 можно найти в файле P:\tmp\ecoli.embl. Этот документ можно превратить в файл с последовательностью генома в формате FASTA программой seqret. Если окажется, что вам нужен полный протеом, его придется получить самим, см. подсказки. Создайте индексные файлы для поиска программами пакета BLAST (предварительно проверьте свою квоту и удалите, если надо, ненужные файлы).
  2. Извлеките из вашего фрагмента трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов. Воспользуйтесь программой getorf из пакета EMBOSS. При этом используйте стандартный для бактерий (bacterial) генетический код, открытой рамкой считайте последовательность, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном.
  3. Создайте книгу Excel, включающую информацию обо всех открытых рамках считывания в вашем фрагменте генома. Для каждой рамки должно быть указано: начало во фрагменте, конец во фрагменте, направление (прямое или обратное), число сходных последовательностей, найденных у E. coli при условии E-value<0,001. В отчете изобразите схематически положение на фрагменте тех открытых рамок, для которых нашлись сходные последовательности в E. coli.
  4. * Если в полученном наборе предполагаемых генов имеются аномалии (перекрывания генов), постарайтесь их объяснить. Предложите наиболее правдоподобную, по вашему мнению, структуру генов на данном участке генома.
См. указания.

Скрипт, посредством которого вы получили результат пункта 3, и книга Excel должны лежать в директории Credit1 к концу занятия. Но вы будете молодцы, если успеете хотя бы частично оформить отчёт!

Полный вариант отчета предполагает:

  • во-первых, обоснование выбора программы и типа данных, по которым будет вестись поиск,
  • во-вторых, описание взаимного расположения предполагаемых генов (т.е., открытых рамок, для которых нашелся сходный участок генома/протеома E. coli) в заданном фрагменте. Это должно выглядеть так:

    Гипотетические гены во фрагменте 1–10000

    3'-------------------------------------[<=ген bbbb, 2000-3000]-------5'
    
    5'----[=>ген aaaa, 1-1000]-------------------------------------------3' 

    где значки => и <= обозначают прямую или комплементарную цепь ДНК соответственно, "aaaa" — название сходного гена у E. coli, а 1–1000 — это координаты границ открытой рамки в данном фрагменте.

  • в-третьих, сравнение взаимного расположения предсказанных генов в исследуемом фрагменте и сходных аннотированных генов E. coli.
В окончательной версии отчета допускаются любые разумные исправления и уточнения описания кодирующих областей. Приветствуются любые нетривиальные наблюдения и любые дополнения.