Учебная страница курса биоинформатики,
год поступления 2013
Занятие 2 блока 3. Предсказание генов у эукариот
В файле P:\y13\term3\block3\all_human.fasta лежат фрагменты ДНК из генома человека. Ваша задача – для своего фрагмента определить экзон-интронную структуру гена и описать его альтернативный сплайсинг, используя программы GENSCAN и UCSC Genome Browser.
1. GENSCAN
Зайдите на страницу GENSCAN и подайте свою последовательность на вход программе.
GENSCAN представляет результаты в виде таблицы экзонов. Вам будут нужны её колонки Type, S (Strand), Begin и End. Занесите в свою таблицу начало, конец, цепь и тип всех предсказанных программой экзонов, заведя отдельную таблицу на каждый предполагаемый ген (тип экзона: Init – initial (начальный), Intr – internal (внутренний), Term – terminal (конечный); PlyA – это не экзон, а сайт полиаденилирования, Prom - промотор, тоже не экзон). Пример таблицы:
Таблица 1. GENSCAN
Начало |
Конец |
Цепь |
Тип |
315 |
490 |
+ |
начальный |
1009 |
1300 |
+ |
внутренний |
2000 |
2101 |
+ |
внутренний |
2. Genome Browser
База Genome Browser содержит гены, белки, мРНК и другие объекты, картированные на различные аннотированные геномы. Браузер позволяет просмотреть разнообразную информацию, относящуюся к заданному фрагменту ДНК. Программа BLAT аналогично BLAST позволяет искать последовательности в геноме с учетом возможной фрагментированности генома. Доступ к программе можно получить по ссылке Tools → Blat с основной страницы портала (на синей полосе сверху). Поместите последовательность ДНК в текстовое поле формы, выберите поиск в геноме человека, сборка hg38 (Dec. 2013), и нажмите кнопку Submit. Вы получите список найденных фрагментов генома. Если в этом списке больше одной строки, выберите ту строку, которая имеет максимальное сходство с вашей последовательностью по весу выравнивания. Если ваша последовательность длиннее 25 000 нуклеотидов, придётся поделить её на части, найти их по отдельности, записать координаты находок и убедиться, что они нашлись в геноме рядом. После этого выставить в окне просмотра координаты целого фрагмента.
Перейдите к просмотру найденного фрагмента генома человека: нажмите гиперссылку browser. Может быть, чтобы увидеть весь ген, нужно будет расширить область просмотра или уменьшить масштаб. Поэкспериментируйте с кнопками! Под картинкой находятся выпадающие меню для выбора отображаемых объектов. Поставьте на pack переключатель Blat Sequence в группе Mapping and Sequencing Tracks, а также переключатели Human mRNAs и Spliced ESTs в группе mRNA and EST Tracks, остальные переключатели поставьте на hide. Нажмите кнопку refresh, она находится в самом низу страницы. Теперь вы видите, как выравниваются с геномной ДНК Ваша последовательность, а также сплайсированные EST и мРНК из базы. Быть может, с вашим запросом выравняется только часть гена человека, тогда нужно будет настроить браузер так, чтобы был виден ген целиком. Приведите примеры альтернативного сплайсинга в найденном гене человека, указав тип альтернативы (это могут быть, например, кассетные экзоны, чередующиеся экзоны, альтернативные донорные и акцепторные сайты сплайсинга, удержанные интроны) и идентификаторы мРНК или EST, подтверждающих альтернативный сплайсинг (минимум 2 на каждую альтернативу, например, для кассетного экзона нужно указать транскрипт, пропускающий экзон и транскрипт, включающий его). Обязательно вставьте в отчёт картинку (размер окна по длине гена). Обведите на ней найденные альтернативы. Внимание! Начало первого и конец последнего экзона EST использовать при аннотации нельзя, они обрываются в произвольном месте!
3. BLASTX
Рекомендуется посмотреть официальные ролики NCBI про BLAST: http://www.youtube.com/playlist?list=PLH-TjWpFfWrtjzMCIvUe-YbrlIeFQlKMq
Вам дан фрагмент ДНК из генома киви Actinidia chinensis, фрагменты лежат в файле P:\y13\term3\block3\all_kiwi.fasta. Ваша задача – при помощи программы blastх проаннотировать этот фрагмент – разметить экзон-интронную структуру генов и предсказать их функцию. Если можно предсказать несколько изоформ гена или недавние дупликации генов или отдельных экзонов гена, их нужно описать. Исключите (Exclude) поиск по моделям и пробам среды (поставьте галочки возле Models (XM/XP) и Uncultured/environmental sample sequences). Нужно стараться использовать не предсказанные, а экспериментально наблюдавшиеся белки. Обратите особое внимание на белки из SwissProt.
Возможно, понадобится запустить поиск больше одного раза: например, сначала по SwissProt, а потом по RefSeq. Стоит ограничить поиск только белками растений (Viridiplantae) и исключить из поиска геном винограда Vitis vinifera. Иногда нужно щёлкнуть по красной гиперссылке (вверху страницы), позволяющей перейти к enhanced report, чтобы сортировка экзонов работала. Занесите аннотацию экзонов в таблицу ((отдельно для каждого гена, если Вы найдёте их несколько), учитывая что blastx определяет границы экзонов не точно и их нужно уточнять вручную
"Экзоны", размеченные BLAST'ом, могут перекрываться как по ДНК, так и по белку. Вам нужно посмотреть на выравнивания таких "экзонов" и уточнить их границы на ДНК. Для этого посмотрите, какой "экзон" лучше выравнивается в области перекрытия. Считайте, что перекрытие принадлежит "экзону" с наилучшим выравниванием.
Длинная вставка в последовательности ДНК по сравнению с белком, скорее всего, является интроном. Если вставка ДНК содержит стоп-кодон (отмечается знаком * на выравнивании), это прямое указание на интрон. Такой "экзон" нужно разбить на два экзона.
Иногда "экзоны" нужно, наоборот, объединить.
BLAST выводит "экзоны" в порядке убывания веса выравнивания. Нужно расположить их в порядке возрастания координат по белку (Subject start). Белковая координата конца предыдущего экзона должна быть на единицу меньше белковой координаты начала следующего экзона (или перекрываться на одну-три аминокислоты). В новой выдаче изменение способа упорядочивания экзонов влияет только на один ген. Можно переключиться на старую выдачу, там эта кнопка действует сразу на все гены.