Задания по теме лекции 4
Отчет о выполненных заданиях присылайте А.Алексеевскому в файлах из Word или аналогичной программы
Для зачета темы достаточно выполнить одно из заданий сверх задания 0. Из задания 2 достаточно выполнить одно из 2a и 2b.
Задание 0. Посчитать вес выравнивания(обязательное для зачёта темы)
Веса определены так:
- за совпадение +2, за несовпадение -3
- штраф за 1й гэп 5, за каждый следующий 2 (аффинный штраф)
First TGGAGTAACCAT--TTGGAGCTAGCCG |||..|||||.| |.||||..||||| Second TGGGATAACCTTTATAGGAGTCAGCCG
Задание 1. Предки каких бактерий дали начало митохондриями эукариот?
Посмотрите три слайда: [Гипотеза, следствия, сложности проверки] [Файл с последовательностями белков человека, закодированными в митохондриях]
Выполните задания для одного из митохондриальных белков из файла. Если что-то неладно с выбранным белком, возьмите другой.
- Определите вероятный таксон бактерий, один из предков которого дал начало митохондриям эукариот. Для этого найдите гомологов выбранного белка в бактериальных белках из хорошо изученных геномов и изучите таксономию находок.
- Проверьте, что все гомологи среди эукариотических белков закодированы в митохондриях
- Проверьте, есть ли гомологи среди архей.
Это задание - с непредсказуемым результатом. Надеюсь, тем оно и интересно (по крайней мере - мне) Оценивается ваша работа, а не соответствие результата общепринятой точке зрения!
Указания
Приношу извинения за опоздание с формулировкой этого задания: долго искал способ выполнения задания без излишних технических трудностей. Нашел! ААл
Воспользуйтесь сервисом BLAST в банке белковых последовательностей Uniprot. В этом BLAST нельзя менять параметры (что обидно), зато можно получить выдачу результатов в формате, удобном для анализа.
- Откройте сайт Uniprot и в нем BLAST
- Скопируйте одну из последовательностей из файла в окошко BLAST. Вот пример того, что надо скопировать:
>ACZ44374.1 cytochrome c oxidase subunit II (mitochondrion) [Homo sapiens] MAHAAQVGLQDATSPIMEELITFHDHALMIIFLICFLVLYALFLTLTTKLTNTNISDAQEMETVWTILPA IILVLIALPSLRILYMTDEVNDPSLTIKSIGHQWYWTYEYTDYGGLIFNSYMLPPLFLEPGDLRLLDVDN RVVLPIETPIRMMITSQDVLHSWAVPTLGLKTDAIPGRLNQTTFTATRPGVYYGQCSEICGANHSFMPIV LELIPLKIFEMGPVFTL
- Выберите target database. Разумный вариант: Uniprot/Swissprot - хорошо аннотированная часть банка. Для задания 1a можно выбрать .. bacteria. Лучше отфильтровать только Reviewed - если их достаточное число, ну хоть несколько есть. Reviewed - это пересечение со Swissprot. Аналогично можно действовать с ..archeae или .eukaryota
- Увеличьте порог числа находок до 500 - на всякий случай
- Все остальное - по умолчанию
- Удобно запустить в отдельном окне
- Run BLAST, и дождитесь результата. На моем опыте - минуты
На странице с результатами сделайте вот что
- Отфильтруйте Reviewed, если нужно, см. выше.
- закажите нужные поля в разделе Alignments. А именно,
- нажмите columns
- отметьте галочкой поля:
в Names&Taxonomy: Gene names (primary ) - короткое имя гена
- в sequences: gene encoded by - в этой колонке будет указано, если ген - в ДНК митохондрии
- в sequences: length - длина последовательности, для контроля длины найденного белка
- в taxonomic lineage:
- SUPERKINGDOM - имеет значения: эукариоты, археи или бактерии
- PHYLUM - отдел, высший таксон бактерий, и архей; у эукариот еще выше - царства
- CLASS - класс, следующий таксон в иерархии
- ORDER - порядок
- FAMILY - семейство
- отсортируйте названия колонок (сверху) так, чтобы было удобно смотреть
- save
- Таблицу удобнее скачать:
- Download
- Format: tab separated (есть выбор Excel, но у меня Excel не открывает такой файл)
- Uncompressed (файл не такой большой получится, можно и не сжимать)
- Download
Откройте таблицу с помощью Excel ( Excel открывает правильно файлы с разделителем tab) или аналогичной электронной таблицей; можно даже использовать GoogleDocs, Sheets.
Проанализируйте данные. Вот небольшие рекомендации. Обращайте внимание на
- Score - нормализованный вес выравнивания белка-находки со входным белком
- Таксономию, само собой
- Напишите и пришлите ваши выводы и на чем они основаны. Пришлите также таблицу.
Задание 1'. Задание 1a выполните с помощью BLAST на сайте NCBI
NCBI BLAST: https://blast.ncbi.nlm.nih.gov/Blast.cgi
- Выбранный белок - против той же базы данных `UniprotKB/Swissprot или Refseq_proteins
- Можно ограничивать таксон, например, bacteria
- В algorithm parameters:
- можно изменить ограничение на число находок
- можно изменить длину слова на 3 - для большей чувствительности алгоритма
- На странице с результатом полезно посмотреть
- полезно посмотреть[taxonomic report]
скачать таблицу находок; она не такая полная, как в Uniprot
Задание 2.
a. (простое) Объясните какие изменения надо внести в граф «Манхэттен с Бродвеями», чтобы можно было штрафы за концевые гэпы определять отдельно (и делать нулевыми)
b. (*)(сложное) Объясните как модифицировать граф «Манхэттен с Бродвеями», чтобы использовать аффинные штрафы за гэпы. Подсказки см. в презентации.