Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2013

Задание 11. BLAST

Дано: последовательность белка из 1го семестра.

Задача: Поиском по сходству последовательностей найти гомологов белка.

Все результаты вносите в протокол, затем (или сразу) на html страницу. Критерии оценки – такие же, как в задании про PubMed.

1. Найдите гомологов вашей последовательности в банке Uniprot/SwissProt. Опишите одну находку. Воспользуйтесь программой protein blast (blasp). Выберите одну находку (см. ниже какую взять). Расшифруйте названия колонок выходной таблицы (Description, Max score, Total score, Query cover, E value, Ident, Accession) и приведите значения для находки. Внесите в протокол координаты сходных участков в вашей последовательности и в находке. Сохраните выравнивание, вес, E-value и процент совпадающих и сходных остатков для лучшей находки. Какой процент от найденной последовательности похож на участок query?

Какую находку выбрать: Не следует брать находки, практически совпадающие со входной последовательностью, и находки слабо сходные с ней. Технически: выбирайте находки с Identity порядка 40-70%, coverage менее 100%, E-value < 0.00001, но и не 0.0; интересно, если в находке BLAST обнаружил более одного участка сходства (Number of matches > 1)

2. Постройте карту локального сходства между query и выбранной находкой. Для этого отметьте эти две последовательности в общем списке (Sequences producing significant alignments) и скачайте их (Download->Fasta (complete sequence) ). В интерфейсе для запуска программы BLAST укажите Align two sequences и в окне с результатом откройте DotMatrix. Сохраните карту сходства в протоколе. Опишите сходство этих последовательностей, исходя из карты. Есть ли сходные, но маловероятно, что гомологичные, участки?

3. Сколько имеется эукариотических гомологов вашей последовательности в Uniprot/SwissProt? Если среди эукариот не найдено гомологов, то отметьте этот факт в протоколе и выберите другой таксон, не содержащий ваш белок. Например, другой порядок бактерий (или семейство, или род). Условно будем считать гомологами те последовательности, которые сходны с данной с E-value < 0.001. Укажите требуемый таксон в поле Organism. Для того, чтобы отфильтровать по E-value используйте ссылку Formatting options на странице с результатами (потом надо нажать Reformat и скрыть Formatting options). Если таких находок оказалось ровно 1000 (максимальное по умолчанию число находок), измените соответствующий параметр в Formatting options.

4. Сохраните множественное "выравнивание" 5-15 находок и найдите процент консервативных и функционально консервативных колонок от длины выравнивания. На выходной странице отметьте выбранные последовательности => Download => Multiple alignment и сохраните в формате fasta. Откройте в JalView.

Дополнительное задание

5. Сравните результаты п.4 с результатами поиска последовательности белка против нуклеотидной БД Refseq по числу находок, их E-value и др.