BSI-BLAST


сайт ФББ

сайт МГУ

Поиск гомологов данного белка

PSI-BLAST - алгоритм поиска последовательностей, незначительно похожих на данную. С помощью PSI-BLAST NCBI я искала гомологов белка с Accession Number: Q3SXS7.

Запустив алгоритм по базе данных RefSeq с максимальным количеством находок 100, E-value хороших находок > 0.005, я узнала следующие сведения о белке:

ID: gi|123796333|sp|Q3SXS7|Q3SXS7_MOUSE

Название: Tnfrsf13c protein

Длина: 164 аминокислоты

Организм: Mus musculus (мышь)

Данные сведения оказались полезными для стабилизации результатов итераций. Информация об итерациях представлена в таблице 1.

Таблица 1. Протокол итераций для Q3SXS7

№ итерации

Число находок выше порога (0,005)

Идентификатор худшей находки выше порога

E-value этой находки

Идентификатор лучшей находки ниже порога

E-value этой находки

1

76

XP_005422009.1

0.002

XP_004481317.1

0.015

2

151

XP_003202364.1

-5

XP_005871793.1

0.4

3

170

XP_006798027.1

5e-4

XP_005054102.1

0.25

4

169

XP_003202364.1

0.003

XP_005054102.1

0.041

5

168

NP_001032917.1

-4

XP_003202364.1

0.006

6

167

XP_006637386.1

-4

XP_003202364.1

0.005

7

169

XP_005054102.1

0.003

XP_005524117.1

0.78

8

169

XP_005054102.1

0.002

XP_003790991.1

0.016

9

169

XP_005054102.1

0.003

XP_003790991.1

0.009

Первая итерация: все верхние "хорошие" белки принадлежали млекопитающим, поэтому я решила исключить из выборки все белки из организмов не этого таксона: XP_005422009.1; XP_005527798.1; XP_006027737.1; XP_005040004.1; XP_005488807.1; XP_005515007.1; XP_005237495.1; XP_006150780.1 (растение!) Включены в выборку были две последовательности из семейства факторов некроза из организмов млекопитающих: XP_004481317.1 и XP_006894583.1.

Вторая итерация: было добавлено много новых находок. По уже описанному алгоритму я исключила: XP_003202364.1; XP_006637386.1; XP_006120590.1; XP_005523217.1; XP_005487727.1; XP_005018504.1; XP_005506984.1; XP_005420472.1; XP_005241053.1; XP_006025661.1; XP_006146601.1; XP_006146600.1; XP_006146598.1; XP_006146599.1; XP_006146597.1. Была добавлена XP_005871793.1.

Третья итерация: странно, что количество находок так ощутимо растет - я, в основном, удаляю, а не добавляю. Исключены из "хороших": XP_006798027.1; XP_006275382.1; XP_003221050.1; XP_005054103.1; XP_006131520.1; XP_004918333.1; XP_005307647.1; XP_006637386.1; XP_003202364.1; XP_006120590.1; NP_001032917.1; XP_005422009.1; XP_005527798.1; XP_006027737.1; XP_006259961.1; XP_005523217.1; XP_002192624.2; XP_005237495.1; XP_005040004.1; XP_005488807.1; XP_005487727.1; XP_005506984.1; XP_005515007.1; XP_006150780.1. Ничего не добавлено.

Четвертая итерация: почему-то, сколько я ни удаляю записи белков растения, они остаются. На этот раз: XP_006146597.1; XP_006146598.1; XP_006146599.1; XP_006146600.1, XP_006146601.1; XP_006150780.1. Также удалены 16 последних "хороших" находок.

Пятая итерация: исключаю 28 находок

Шестая итерация: исключаю 26 находок

Седьмая итерация: неясно, почему последовательности опять добавились. Однако, если бы не добавились, изменений не было ббы никаких. Пробую исключить те же 26, что и раньше, + 2 новые.

Восьмая итерация: исключаемые мной последовательности добавляютя снова. Думаю, количество итераций этого не изменит. Все же попробую еще раз исключить 28 находок, которые мне не подходят.

Девятая итерация: ничего не изменилось. 28 последовательностей, которые мне не нравятся, я не включу в выравнивание. Тогда худшая находка из "лучших" - XP_004484190.1 с Е-value 2e-13.

В итоге я построила множественное выравнивание и скачала его в формате fasta с гэпами. Можно также посмотреть на выравнивание последовательностей, открытое в JalView (раскраска Crustalx). Еще есть проект в формате jar. Eсть только 1 консервативный блок, который, скорее всего, соответствует активным центрам белков, однако выравнивание не плохое.

© Дарья Горбачева

изменено 8.08.2014