Учебная страница курса биоинформатики,
год поступления 2016
Under construction
Задание 1.
Как обосновывать гомологичность или негомологичность последовательностей или их частей
- Не забудем про E-value и параметры парного выравнивания: Identity% - процент консервативных позиций, число индлей и гэпов - чем меньше, тем лучше.
- Более значимые доводы можно получить из анализа множественного выравнивания всех 10 последовательностей. Найдите блоки и посмотрите какие последовательности не входят в блоки. См. ниже
- Названия находок, их аннотации. Если, какая-то находка имеет название, не имеющее отношения к нахваниям других находок, то это подозрительно. Однако, как правило, названия присвоены автоматическими программами на основе сходства последовательностей. Программы совершенствуются и используют данные из многих источников, но не свободны от ошибок.
Как найти блок достоверного выравнивания, для краткости - блок.
- Блок не содержит гэпов, по определению
- Концевые позиции блока абсолютно консервативны или функционально консервативны. При определении консервативности можете использовать свои знания об аминокислотах. Так, если в колонке валины, лейцины и изолейцины, а также аланин, то можно решить (указав в протоколе), что колонка консервативна - что бы не говорили про это программы.
- В блоке достаточное число абсолютно консервативных позиций. Точных критериев нет. Но если в блоке длины 4-5 позиций три абсолютно консервативные, то можно поверить, что он достоверный. В блоке длины 6-10 достаточно, наверное, 4х абс.конс. позиций. И так далее.
- Важно, что ВО ВСЕХ последовательностях, входящих в блок, достаточное число консервативных остатков из консервативных колонок! Поэтому я и пишу об абсолютно консервативных позициях. Ведь блок, по определению, должен указывать на гомологичность остатков ВО ВСЕХ своих колонках!
- Если блок пересекается не со всеми последовательностями, то он максимален по высоте в том смысле, что не может быть расширен добавлением еще одной последовательности с сохранением всех свойств блока.
- Так же блок максимален в ширину - нельзя его расширить, добавив несколько колонок до него или после.
Как использовать блоки для проверки гомологичности
- Найти блоки, не обязательно содержащие все последовательности.
- Если находка входит в два или более таких блоков или в один достаточно длинный, то наверное, она гомологична остальным и входной последовательности.
- Если находка не входит ни в один блок, или в один коротки, да еще с заменами, не согласованными с консервативностью блока, то найти доводы за гомологичность в выравнивании не удается.
Запуск BLAST
- Не забывайте о параметре алгоритма Max target sequences в случае, если все находки имеют очень маленькие E-value!
Как быть, если находок слишком много
- Пробуйте сузить таксон, в котором ищутся находки. Можно выбрать таксон, не содержащий входную последовательность. Тогда есть шанс, что у находок E-value будет не таким маленьким.
Как быть, если находок слишком мало
- Попробуйте уменьшить длину слова до 3-х.
Или с длиной слова 6 искать не в SwissProt, а в американском аналоге Uniprot - в базе данных Refseq proteins.
Как выбирать находки
- В соответствии с заданием, две находки дол;ны иметь высокое E-value. Про них-то и надо выяснять гомологичность в первую очередь
- Выбирайте РАЗНОБРАЗНЫЕ находки! Выбрать все семь находок из верха списка - ПЛОХАЯ идея. Может случиться, что все они окажутся почти идентичными, что сильно затруднит анализ гомологичности для двух с высоким E-value.
Как последовательности находок
- Нужные последовательности отметить галочками в списке.
Download > Fasta (aligned sequences) - кусочки из локального выравнивания или Fasta (complete sequences) - полные последовательности (не рекомендуется)
- Попробуйте и другие форматы сохраняемых данных. Есть полезные.
Напутствие
Ожидаю, что вам придется выполнить несколько итераций BLAST пока найдете удачную выборку. Заодно выучите разные параметры BLAST.
Задание 2
Как выбрать пример
- Решил, что вы сами справитесь с подбором примера.
- Постарайтесь найти интересный пример, т.е. такой, в котором есть крупные эволюционные события. Интересные примеры оцениваются выше!
- Первый вариант - возьмете свой белок и находку BLAST. Для карты нужны полные последовательности, а не участки сходства! Выбирайте не самые сходные последовательности; в последовательностях разной длины больше шансов увидеть что-то интересное.
Если пред. способ не дает ничего интересного, то используйте БД семейств доменов Pfam. Выберите две последовательности из одного семейства, т.е. содержащие гомологичные домены (длинные участки), с разной доменной архитектурой. Интересные случаи - перестановка порядка двух доменов; два домена одного семейства в одной посл. и один - в другой. У меня нет рецепта как такие случаи искать быстро :(.
- Как выбрать семейство Pfam
- Можно найти домены своего белка (view a sequence или sequence search) и начать с них
- Можно взять такие семейства: homeobox, LIM, ZZ, HTH_3
- Можно посмотреть произвольные семейства через Browse
- Что делать дальше
- Нажать на кнопку architectures чтобы увидеть графическое изображение доменных архитектур белков. Показаны по представителю одной доменной архитектуры. Можно попросить показать всех представителей одной архитектуры.
- Выбрать две разные (и с интересными различиями!) доменные архитектуры.
- Скачать по одной последовательности из каждой архитектуры.
Открыть сервер BLAST (на NCBI) > белковый BLAST > align two sequences и вперед!
Как анализировать карту
См. здесь