Kodomo

User

Учебная страница курса биоинформатики,
год поступления 2017

Указания к практикуму 10

Как найти полипротеины вирусов полиомиелита и ящура

На сайте Uniprot зайдите в расширенный поиск (Advanced вверху справа). В поле Taxonomy [OC] напишите сначала "poliovirus" и выберите любую запись из Swiss-Prot (т.е. "Reviewed"), у которой описание начинается со слов "Genome polyprotein". Запишите AC этой записи. Потом то же проделайте с названием таксона "aphthovirus" (это вирусы ящура).

Как построить карту локального сходства, зная AC двух белков

На сайте http://blast.ncbi.nlm.nih.gov пройдите по ссылке "Protein BLAST". Найдите и отметьте чекбокс "Align two or more sequences". В верхнее окошко скопируйте AC первого белка, в нижнее — второго и нажмите кнопку BLAST. Чтобы увидеть саму карту локального сходства, необходимо "открыть" "Dot matrix view". Ниже на странице будут приведены локальные выравнивания, отмеченные на карте, от них вам нужны характеристики, а также начала и концы выровненных участков. Не запутайтесь: одно выравнивание может быть представлено в виде нескольких "блоков", вам нужны не границы участков, попавших в отдельные блоки, а границы участков, образующих выравнивание в целом.

Как узнать, в какие зрелые белки попадает данный участок полипротеина

См. в полной записи Swiss-Prot, в поле FT, ключ CHAIN.

Как перемешать последовательность белка и выровнять перемешанные последовательности

Последовательность перемешивается программой shuffleseq. У неё есть необязательный параметр: количество перемешиваний (см. в её help'е). Программе water в качестве второго аргумента можно подать файл со многими последовательностями, тогда последовательность, заданная первым аргументом, будут выровнена с каждой из последовательностей этого файла по отдельности.

Как найти медиану и верхний квартиль весов случайных выравнвианий

Первый способ: написать программу на Python, обрабатывающую файл с выравниваниями, созданный water.

Второй способ: программой grep вытащить все веса в файл, затем обработать в Excel.

Если 100 значений упорядочить по возрастанию, то медианой будет среднее арифметическое между 50-ым и 51-ым значениями, а верхним квартилем — среднее арифметическое между 75-ым и 76-ым значениями.

Как пересчитать вес в биты и биты в p-значение

Если m — медиана, а Q1 — верхний квартиль весов случайных выравниваний, то вес выравнивания S пересчитывается в биты по формуле B=1+(Sm)/(Q1m).
Когда я рассказывал про эту формулу на занятии, то забыл про прибавление 1, прошу прощения. При S=m должен получаться один бит, а при S=Q1 — два бита.

Биты пересчитываются в p-значение по формуле P=2–B. Смысл p-значения: вероятность получить такой же или больший вес при выравнивании двух случайных последовательностей той же длины и состава, что и данные. Маленькое p-значение, скажем, 0,001 или меньше, является аргументом в пользу осмысленности выравнивания с данным весом (оно как бы говорит: "невероятно, чтобы такое получилось по случайным причинам").

Если вдруг по формуле получаются отрицательное число битов (такое изредка случается при выравнивании неродственноых белков), то, конечно, не нужно использовать формулу, дающую P>1. В этом случае P правильно оценить просто как долю случайных выравниваний с весом выше данного.

Как искать гомологи данного белка в банке Swiss-Prot

Зайдите на сайт http://blast.ncbi.nlm.nih.gov и пройдите по ссылке "Protein BLAST". Уберите галочку из чекбокса "Align two or more sequences" (если она там была). В верхнее окошко скопируйте последовательность в fasta-формате или идентификатор белка. В меню Database выберите UniProtKB/Swiss-Prot. Нажмите BLAST и подождите некоторое время (вечером иногда приходится ждать довольно долго, минут до 10).

В выдаче постарайтесь разобраться сами. Она состоит из четырёх основных частей: заголовка, в котором, в частности, описывается исходный белок (запрос, query), цветной картинки, показывающей, как находки ложатся на последовательность запроса, списка находок и выравниваний запроса с находками. Вам нужны выравнивания с двумя самыми верхними находками. Процент покрытия можно посчитать, разделив длину выровненного участка на длину белка, а потом проверить себя, сверивишись со столбцом Query cover списка находок. Остальные характеристики приводятся непосредственно над выравниванием.

Что такое "Expect", подробно разберём на следующем занятии, пока просто запишите его. Вкратце: это среднее число выравниваний с таким же или бо́льшим, по сравнению с данным выравниванием, весом, которые можно получить в случайном банке того же объёма. Хорошо, когда "Expect" очень маленький, десять в минус очень большой степени, например 1e-35, что означает 10–35.