Второй семестр

Информация о моем белке (зачетное задание №1).

Банк последовательностей белков UniProt

Данные о моём белке (Uniprot):

Метка поля Содержание

Код(ы) доступа ("Accession number") AC P77791; Q2MBW8

Идентификатор записи в БД ID MAA_ECOLI

Название (краткое описание) белка DE RecName: Full=Maltose O-acetyltransferase; EC=2.3.1.79
AltName: Full=Maltose transacetylase

Дата создания документа DT 01-NOV-1997

Дата последнего исправления аннотации DT 16-DEC-2008

Число публикаций, использованных при создании документа RN 6

Журнал и год самой поздней публикации RL Mol. Syst. Biol. 2:E1-E5(2006).

Ключевые слова KW 3D-structure; Complete proteome; Direct protein sequencing; Repeat; Transferase.

Что содержит поле комментариев? CC Функция: ацетилирует мальтозу и другие сахара.
Каталитическая активность: ацетил-CoA + мальтоза = CoA + ацетил-мальтоза
Биофизические свойства:
кинетические параметры:
(Константа Михаэлиса) KM=62 mM для глюкозы;
KM=90 mM для мальтозы;
Vmax=0.20 ммоль/мин/мг фермент с глюкозой в основании;
Vmax=0.11 ммоль/мин/мг фермент с мальтозой в основании;
Примечания: ацителирует глюкозу, мальтозу, маннозу, галактозу с уменьшающейся относительной нормой: 1, 0.55, 0.20, 0.07, 0.04;
Структура: гомодимер;
Сходство: Принадлежит к семье гексапептидных трансфераз.

Идентификаторы записей PDB DR 1OCX

Вопросы:

Ответы:

Поиск в Uniprot белков, схожих с моим:

Запрос Число записей
в SwissProt Число записей
в TrEMBL

"Maltose O-acetyltransferase" 2 262

"EC=2.3.1.79" 2 194

"Maltose O-acetyltransferase (EC=2.3.1.79)" 2 192

"Maltose transacetylase" 2 40

Рассмотрим один из белков, которые по данным Uniprot близки моему:

Метка поля P77791 P37515

Первый код доступа AC P77791 P37515

Идентификатор последовательности в БД ID MAA_ECOLI MAA_BACSU

Название (краткое описание) белка DE RecName: Full=Maltose O-acetyltransferase; EC=2.3.1.79 RecName: Full=Probable maltose O-acetyltransferase; EC=2.3.1.79

Дата создания документа DT 01-NOV-1997 01-OCT-1994

Дата последнего исправления аннотации DT 16-DEC-2008 20-JAN-2009

Название организма OS Escherichia coli (strain K12) Bacillus subtilis

Классификация организма (список таксонов) OC Bacteria › Proteobacteria › Gammaproteobacteria › Enterobacteriales › Enterobacteriaceae › Escherichia. Bacteria › Firmicutes › Bacillales › Bacillaceae › Bacillus.

Длина последовательности SQ 183 184

Молекулярная масса белка SQ 20,096 20,210

Число публикаций, использованных при создании документа RN 6 3

Журнал и год самой поздней публикации RL Mol. Syst. Biol. 2:E1-E5(2006) Nature 390:249-256(1997)

Описание вторичной структуры FT Да, большая часть структуры состоит из альфа-спиралей и бета-тяжей, 1 небольшой участок с бета-поворотом. Нет.

Ключевые слова KW 3D-structure; Complete proteome; Direct protein sequencing; Repeat; Transferase. Complete proteome; Repeat; Transferase.

Темы, освещённые в комментариях CC Каталитическая активность, биофизические свойства, функции, структура, сходство. Каталитическая активность, сходство.

Особенности последовательности
FT Может отсутствовать 1-ая аминокислота - инициатор метеонина. Вероятная мальтозо - ацетил-трансфераза..

Идентификаторы записей PDB DR 1K3P; 1NXE; 1NXG; 1OWB; 1OWC 1431

ВЫВОД: Белок P77791 лучше исследован, известна его вторичная структура, точные функции и т.д., несмотря на то что первая публикация о белке P37515 появилась на 3 года раньше. Белки сходны по строению, так что, на основании исследований E.coli можно делать выводы о функционировании белка Bacillus subtilis.

Наверх

Поисковая система SRS

Белки гамма-протеобактерий, выполняющие функцию, сходную с функцией моего белка P77791 (запросы в SRS):

Формулировка функции белка	Строка запроса	Количество найденных документов
Transferase (трансферазы)	([swissprot-Taxonomy:Gammaproteobacteria] & [swissprot-Description:Transferase])	1 850
Acetyltransferase (ацетил-трансферазы)	([swissprot-Taxonomy:Gammaproteobacteria] & [swissprot-Description:acetyltransferase])	169
То же самое что и первый запрос, но поиск трансфераз по AllText а не по Discription	([swissprot-Taxonomy:Gammaproteobacteria] & [swissprot-AllText:Transferase])	18 632
Поиск по ключевым словам	((([swissprot-Taxonomy:Gammaproteobacteria] & (([swissprot-Keywords:Complete] & [swissprot-Keywords:proteome]) \| [swissprot-Keywords:Complete proteome])) & ((([swissprot-Keywords:Direct] & [swissprot-Keywords:protein]) & [swissprot-Keywords:sequencin]) \| [swissprot-Keywords:Direct protein sequencin])) & [swissprot-Keywords:Transferase*])	185

Последовательности аминокислот, найденных по запросу: ([swissprot-Taxonomy:Gammaproteobacteria*] & [swissprot-Description:acetyltransferase] в fasta-формате.

Наверх

Работа с системой PubMed

По результатам запроса в поисковой системе PubMed, найдено 7 упоминаний полного названия моего белка (Maltose O-acetyltransferase) в литературе.
Ни одна статья не посвящена данному белку конкретно.

Из найденных статей я выбрал: "The single transmembrane domains of ErbB receptors self-associate in cell membranes",
ее автор, Mendrola JM, за последние 3 года издал всего 1 статью.

Разговорное название"shingles" (опоясывающий лишай) PubMed распознаёт как "Herpes zoster".

Наверх

Пути эволюции аминокислотных последовательностей. Пробное выравнивание.

1. Определение положения фрагмента в полной последовательности.

Данный фрагмент соответствует позициям 16 - 36 в полной последовательности моего белка P77791_Ecoli.

2. Построение "наилучшего" выравнивания вручную.

Исходные длины 2-х заданных фрагментов: 21
Длина выравнивания: 22
(совпадающих: 13)
Вес выравнивания: W = M – nG = 13 - 2*2=9
Процент идентичности двух выровненных последовательностей: % = 13 / 22*100 = 59.09

3. Матрица весов замен а.о. BLOSUM62.

На 4-ой позиции выравнивания, мы наблюдаем первую близкородственную замену аминокислотных остатков.
Глутаминовая кислота (E) заменена на глутамин (Q) во второй последовательности.
Вес данной замены, согласно использованной матрице BLOSUM = 2. Вес замены также можно посмотреть под обеими аминокислотами в прикрепленном изображении выравнивания.
Аминокислоты близкородственны, т.к. их они отличаются только (OH)-группой глутаминовой кислоты, вместо которой у глутамина находится (NH2)-группа.

Наверх

Парные выравнивания аминокислотных последовательностей

есть ли хотя бы один пример того, что одной и той же позиции первой последовательности в разных глобальных выравниваниях сопоставлены разные позиции второй последовательности?
Да. В глобальном выравнивании в n-ой области есть 2 близко расположенных гэпа, при увеличении штрафов в 2 раза данные гэпы заменяются на один, это приводит к смещению позиций. Пример:

Стандартные штрафы:

maa_ecoli  92 -CPIRIGDNCMLAPGVHIYTATH------------PIDPVARNSGAELGK 128
capg_staau 43 PYLIQIGNHVTITSGVKF--ATHDGGVWIFRKKYPEIDNFHR-------- 82

Удвоенные:

maa_ecoli 101 MLAPGVHIYTATHPIDPVARNSGAELGKP----------VTIGNNVWIGG 140
capg_staau 44 YLIQIGNHVTITSGVKFATHDGGVWIFRKKYPEIDNFHRIFIGNNVFIGI 93

есть ли хотя бы один пример того, что одной и той же позиции первой последовательности в разных локальных выравниваниях сопоставлены разные позиции второй последовательности?
Да. Причем таких позиций достаточно много. Причины те же, что и в глобальных выравниваниях. Пример:

Стандартные штрафы:

maa_ecoli  76 LGNNFFANFDCVMLDV---------CPIRIGDNCMLAPGVHIYTATH--- 113
capg_staau 25 VGN------DCRFLSVDRSTFGSEPYLIQIGNHVTITSGVKF--ATHDGG 66

Уменьшенные вдвое:

maa_ecoli  92 CPIRIGDNCMLAPGVHIYTATHP-IDPVARNSGAELGKPVTIGNNVWIGG 140
capg_staau 65 -----G-------GVWIFRKKYPEIDNFHR---------IFIGNNVFIGI 93

есть ли хотя бы один пример того, что в одном глобальном выравнивании какой-либо позиции первой последовательности сопоставлена некоторая позиция второй, а в другом выравнивании против той же позиции оказался пропуск?
Да. Это происходит при слиянии/разделении гэпов. Пример показан в вопросе №1.

есть ли хотя бы один пример того, что в одном локальном выравнивании какой-либо позиции первой последовательности сопоставлена некоторая позиция второй, а в другом выравнивании против той же позиции оказался пропуск?
Да. Тот же самый случай. Пример приведен в вопросе №2.

соответствуют ли оптимальные локальные выравнивания, построенные с использованием разных параметров, одним и тем же фрагментам последовательностей?
Нет, фрагменты сильно не соответствуют друг другу:
Стандартные штрафы: 76 - 183 аминокислоты моего белка и 25 - 136 аминокислоты capg_staau.
Удвоенные: 130 - 183 и 83 - 136 соответственно (взят участок первого выравнивания, причем на данном участке различий нет).
Уменьшенные: 6 - 183 и 2 - 136 (уменьшение штрафов позволяет сильно увеличить участок на котором проводится выравнивание).

Наверх

Таблица 1. Результаты поиска гипотетических гомологов белка MAA_ECOLI

BLASTP

	Поиск по БД Swiss-Prot	Поиск по БД PDB	Поиск по БД "nr"
1. Лучшая находка (в принципе должна соответствовать заданному белку)
Идентификатор БД	MAA_ECOLI (соответствует моему белку)	1OCX (соответствует моему белку)	NP_414992(соответствует моему белку)
E-value	3e-105	2e-105	4e-104
Вес (в битах)	379	377	379
% идентичности	100	100	100
Найдены ли другие белки с теми же значениями E-value и веса в битах?	нет	нет	да, один: ref\|YP_001742603.1\| (вес=379, E-value=8e-104)
2. Сколько хороших кандидатов в гомологи найдено?	15	5	100
2. "Худшая" находка (последняя в выдаче с E-value < 1)
Номер находки в списке описаний (Descriptions)	102	29	102
Идентификатор БД	SAT4_ARATH	3FWW	ZP_04097469
E-value	0.001	0,74	3e-64
Вес (в битах)	42.7	29,3	247
% идентичности	38	31	63
% сходства	60	60	77
Длина выравнивания	60	41	182
Координаты выравнивания (номера первых и последних а.о.) (query - заданный; sbjct - сравниваемый)	122,180;249,308	132,172;397,437	1,180;16,192
% гэпов	1	0	1

ответьте, удалось ли найти изучаемый белок в Swiss-Prot и "nr", а его структуру в PDB?

да, удалось везде.

сравните параметры выравнивания изучаемого белка с самим собой при поиске по разным БД и объясните различия (если они есть, конечно);

параметры выравнивания белка с самим собой в разных базах данных отличаются небольшой разницей в E-value и весе выравнивания.

сравните число потенциальных гомологов при поиске по разным БД и поясните причину различий;

больше всего гомологов найдено в базе nr, т.к. она самая крупная, в swissprot меньше гомологов зато больше информации по каждому из них, в pdb меньше всего гомологов (т.к. там должна быть исследована третичная структура!)

сравните "худшие" находки при поиске по разным БД: совпадают ли они? если нет, то почему? какая из "худших" самая хорошая?

не совпадает. "самая хорошая" находка - в базе nr.

Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам

Homo sapiens (taxid:9606)
Идентификатор БД	EDEM2_HUMAN	2R8U	NP_001138497\|
Номер находки в списке описаний (Descriptions)	1	1	1
E-value	1.1	0.38	4.1
Вес (в битах)	29.6	28.1	30.0
% идентичности	28	21	28
% сходства	42	39	42
Длина выравнивания	115	119	126
Координаты выравнивания (номера первых и последних а.о.) (query - заданный; sbjct - сравниваемый)	13,119;380,484	34,144;62,180	13,119;343,447
% гэпов	17	9	17

Вывод: Мой белок имеет очень слабую гомологию с соответствующими белками человека, на что указывает очень высокое E-value (до 4.1!). Причиной этого является сильная удаленность таксонов. Судя по названиям, белки организма человека также являются трансферазами, т.е. выполняют сходную функцию.

Поиск белка по его фрагменту (SEDQQLLLERKHARQLIRQYN)

Результаты поиска белка в Swiss-Prot по фрагменту последовательности

	Поиск по фрагменту	Поиск по полной последовательности
АС лучшей находки	MAA_BACSU	MAA_BACSU
E-value	3e-13	3e-105
Вес (в битах)	71.9	380
Найдены ли другие белки с теми же значениями E-value и веса в битах?	нет, у остальных - вес гораздо меньше, а E-value больше	нет, тот же результат

Вывод: белок проще найти по полной последовательности или по идентификатору, т.к. при запросе по фрагменту, вероятно придется выбирать среди нескольких белков, имеющих сходный фрагмент. E-value и вес также выдаются для указанного фрагмента.

Сравним выравнивания этих белков, полученные с использованием различных алгоритмов: MAA_BACSU - MAA_ECOLI

BLAST:


MAA_BACSU  2    LRTEKEKMAAGELYNSEDQQLLLERKHARQLIRQYNET-PEDDAVRTKLLKELLGSVGDQ  60      
MAA_ECOLI  1    MSTEKEKMIAGELYRSADETLSRDRLRARQLIHRYNHSLAEEHTLRQQILADLFGQV-TE  59

MAA_BACSU  61   VTILPTFRCDYGYHIHIGDHTFVNFDCVILDVCEVRIGCHCLIAPGVHIYTAGHPLDPIE  120
MAA_ECOLI  60   AYIEPTFRCDYGYNIFLGNNFFANFDCVMLDVCPIRIGDNCMLAPGVHIYTATHPIDPVA  119

MAA_BACSU  121  RKSGKEFGKPVTIGDQVWIGGRAVINPGVTIGDNAVIASGSVVTKDVPANTVVGGNPARI  180
MAA_ECOLI  120  RNSGAELGKPVTIGNNVWIGGRAVINPGVTIGDNVVVASGAVVTKDVPDNVVVGGNPARI  179

MAA_BACSU  181  LKQL  184
MAA_ECOLI  180  IKKL  183

NEEDLE:


MAA_BACSU  1 MLRTEKEKMAAGELYNSEDQQLLLERKHARQLIRQYNET-PEDDAVRTKL     49   
MAA_ECOLI  1  MSTEKEKMIAGELYRSADETLSRDRLRARQLIHRYNHSLAEEHTLRQQI     49

MAA_BACSU  50 LKELLGSVGDQVTILPTFRCDYGYHIHIGDHTFVNFDCVILDVCEVRIGC     99
MAA_ECOLI  50 LADLFGQV-TEAYIEPTFRCDYGYNIFLGNNFFANFDCVMLDVCPIRIGD     98

MAA_BACSU  100 HCLIAPGVHIYTAGHPLDPIERKSGKEFGKPVTIGDQVWIGGRAVINPGV    149
MAA_ECOLI  99 NCMLAPGVHIYTATHPIDPVARNSGAELGKPVTIGNNVWIGGRAVINPGV    148

MAA_BACSU  150 TIGDNAVIASGSVVTKDVPANTVVGGNPARILKQL    184
MAA_ECOLI  149 TIGDNVVVASGAVVTKDVPDNVVVGGNPARIIKKL    183

WATER:


MAA_BACSU  2    LRTEKEKMAAGELYNSEDQQLLLERKHARQLIRQYNET-PEDDAVRTKLLKELLGSVGDQ  60      
MAA_ECOLI  1    MSTEKEKMIAGELYRSADETLSRDRLRARQLIHRYNHSLAEEHTLRQQILADLFGQV-TE  59

MAA_BACSU  61   VTILPTFRCDYGYHIHIGDHTFVNFDCVILDVCEVRIGCHCLIAPGVHIYTAGHPLDPIE  120
MAA_ECOLI  60   AYIEPTFRCDYGYNIFLGNNFFANFDCVMLDVCPIRIGDNCMLAPGVHIYTATHPIDPVA  119

MAA_BACSU  121  RKSGKEFGKPVTIGDQVWIGGRAVINPGVTIGDNAVIASGSVVTKDVPANTVVGGNPARI  180
MAA_ECOLI  120  RNSGAELGKPVTIGNNVWIGGRAVINPGVTIGDNVVVASGAVVTKDVPDNVVVGGNPARI  179

MAA_BACSU  181  LKQL  184
MAA_ECOLI  180  IKKL  183

Мы видим, что выравнивания полностью совпадают! И т.к. 3 выравнивания, основанные на математических методах, показывают одно и то же, то, скорее всего, это и являяется наиболее справедливым выравниванием данных двух белков.

Наверх

Биологический смысл выравнивания последовательностей белков

Мною было построено выравнивание аминокислотных последовательностей с условными номерами 9 и 10 на основании пространственного наложения их структур:
(последовательность №9 раскрашена в красный цвет, №10 - соответственно в зеленый)

Скачать выравнивание в формате msf.

Далее мною было произведено оптимальное выравнивание с помощью программы needle:

Скачать выравнивание в формате msf.

Вывод: программа needle произвела оптимальное выравнивание, высчитывая математическими методами наибольший вес выравнивания; при выравнивании вручную я пользовался биологическими методами: сравнением пространственных структур и расположения консервативных остатков. В итоге, глобальное выравнивание выдало математически правильный, но биологически неточный результат. Несмотря на это, в обоих выравниваниях много совпадающих участков.

Наверх

Множественное выравнивание

Ознакомление с программой Muscle:
Для множественного выравнивания возьмем вирусные белки - "дельта-антигены".(Посмотреть последовательности в fasta-формате).
Данные белки были найдены мной по запросу в SRS: ([swissprot-Description:delta*] & [swissprot-Taxonomy:deltavirus*]).

Вот выравнивание, проделанное программой muscle (fasta - формат).

А вот оно же, импортированное в GeneDoc:

Тут можно скачать это выравнивание в формате msf.

Вывод: В файлах с выравниванием программой muscle белки даны в иной последовательности, чем были расположены в исходном файле. Во всех белках присутствует очень много сходных консервативных аминокислот (что является следствием их принадлежности к одному классу). Ну и, разумеется выравнивание в формате msf гораздо нагляднее и удобнее для анализа, чем в fasta - формате.

Далее, проделаю то же самое выравнивание, но вручную:

Тут можно скачать это выравнивание в формате msf.

Выравнивания очень похоже! Основное различие - в порядке аминокислотных последовательностей.

Выравнивание набора гомологов белка MAA_ECOLI:
(для выравнивания были отобраны 5 гомологов принадлежащих таксону Bacteria, с E-value<0.001, с процентами идентичности от 30 до 80, и наиболее удаленные друг от друга в заданных рамках.)
Выравнивание в fasta-формате
Выравнивание в формате msf

Участок с повышенной долей консервативных позиций:
Координаты по остаткам моего белка (MAA_ECOLI):132-178; по столбцам выравнивания:154-200.

Участок с небольшой долей консервативных позиций:
Координаты по остаткам моего белка:81-102; по столбцам выравнивания:85-106.
.
Участки, где выравнивание скорее всего не имеет биологического смысла:
1. Координаты по остаткам моего белка:1-80; по столбцам выравнивания:1-84.
2. Координаты по остаткам моего белка:103-131; по столбцам выравнивания:107-153.
3. Координаты по остаткам моего белка:179-183; по столбцам выравнивания:201-251.

Наверх

Мотивы, паттерны и профили

Рассмотрим наш фрагмент множественного выравнивания.
Создаём 3 паттерна.

Первый паттерн в точности является фрагментом последовательности моего белка (то есть только одной из последовательностей выравнивания).
Второй ("сильный") паттерн надо постараться построить так, чтобы он распознавал все белки моей выборки, и только их.
Третий ("слабый") паттерн надо создать на основе второго, сделав требования к последовательности более мягкими.

Проведу поиск последовательностей банка Swiss-Prot, включающих мотивы, соответствующие каждому из полученных паттернов.

Таблица результатов поиска по паттернам в базе данных SwissProt:

Характеристика паттерна Паттерн В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? Все ли последовательности из Вашего выравнивания найдены?

Фрагмент последовательности RYLFPDRDDV в 1 Нет

Сильный [RKAND]-[YNH]-[LFVAT]-[FY]-[PAVM] -[DN]-[RFS]-[DN]-X(0,4)-D-[VDG] в 7 Все

Слабый [FY]-[PAVM]-{A}-[RFS]-[DN]-X(0,4)-D-[VDG] в 1003 Все

Первый паттерн - это фрагмент последовательности моего белка MAA_ECOLI, а те последовательности, которые имеют гэпы или не совпадают, нам не подходят. Второй, более сильный паттерн, одновременно и более мягкий, он нашел все последовательности. Самый мягкий паттерн (слабый) выявил большое количество последовательностей белков, не только из семейств моего белка, но и из других таксонов. Из всего этого можно сделать вывод - самый оптимальный паттерн - сильный, так как он находит нужное нам число последовательностей белка, и по возможности не находит лишние белки.

Все описанные в PROSITE мотивы в заданном белке MAA_ECOLI

Идентификатор документа PROSITE (AC) Название мотива Краткое описание мотива Тип подписи (паттерн, профиль) Паттерн (регулярное выражение) Специфична ли подпись? Сколько мотивов нашлось в белке?

PS00101 HEXAPEP_TRANSFERASES Сайт повторяющихся гексапептидов, содержащих трансферазы паттерн [LIV] - [GAED] - x(2) - [STAV] - x - [LIV] - x(3) - [LIVAC] - x - [LIV] - [GAED] - x(2) - [STAVR] - x - [LIV] - [GAED] - x(2) - [STAV] - x - [LIV] - x(3) - [LIV] специфична 1

PS00005 PKC_PHOSPHO_SITE Сайт фосфорилирования казеинкиназы С паттерн [ST] - x - [RK] неспецифична 3

PS00006 CK2_PHOSPHO_SITE Сайт фосфорилирования казеинкиназы II паттерн [ST] - x(2) - [DE] неспецифична 5

PS00008 MYRISTYL Сайт N-миристоилирования паттерн G - {EDRKHPFYW} - x(2) - [STAGCN] - {P} неспецифична 4

PS00001 ASN_GLYCOSYLATION Сайт N-гликолизации паттерн N - {P} - [ST] - {P} неспецифична 1

Мотив в аминокислотной последовательности - набор консервативных остатков, важных для функции белка и расположенных на определённом расстоянии друг от друга в последовательности. Специфичный мотив всего один, характерный для данного белка, а неспецифичных гораздо больше, но с короткими паттернами, вследствие того что такие мотивы могут принадлежать белкам из разных таксонов.

Наверх

PSI-BLAST

Задание 1

Проведём работу с четырьмя аминокислотными последовательностями. Первые три последовательности имеют в Swiss-Prot номера доступа P18196, P0A832, P0A780; четвёртая – последовательность моего белка (MAA_ECOLI).

Для этих последовательностей проводим итеративный поиск по банку Swiss-Prot программой PSI-BLAST. При поиске всем параметрам (кроме банка поиска и программы) оставляем значения по умолчанию. Выполняем до пяти итераций, пока появляются новые последовательности выше порога 0,005 на E-value; если же и после пятой итерации список не стабилизировался, можно на этом остановиться.

ID белка AC белка Число итераций Для первой итерации Для последней итерации

Число находок выше порога (0,005) Худшее E-value выше порога Лучшее E-value ниже порога Число находок выше порога (0,005) Худшее E-value выше порога Лучшее E-value ниже порога

MINC_ECOLI P18196 5 124 0.004 0.005 239 0.003 0.007

SSRP_ECOLI P0A832 2 449 3е-10 5.0 449 8е-31 0.62

NUSB_ECOLI P0A780 4 327 0.003 0.008 388 2е-12 0.031

MAA_ECOLI P77791 5 144 0,004 0,005 1303 0,003 0,005

Выводы:

MINC_ECOLI "разошелся", т.к. даже после 5-й итерации список не стабилизировался, т.е. продолжали появляться новые находки, размывающие результат.
SSRP_ECOLI и NUSB_ECOLI "сошлись": в первом случае вторая итерация выдала нам столько же находок, сколько и первая, и новых находок не появилось, поэтому мы можем сразу утверждать, что белок "сходится". Во втором случае новые находки перестали появляться после 4-ой итерации.
Мой белок также "разошелся", т.к и после 5-ой итерации BLAST продолжал находить новые белки.

В случае с последовательностями, которые "сошлись", E-value худшей находки выше порога резко уменьшался с каждой последующей итерацией, E-value лучшей находки ниже порога независимо от итераций мог увеличиваться или уменьшаться. Разрыв между лучшей и худшей находкой увеличивался с каждым разом.

У разошедшихся последовательностей, E-value в обоих случаях менялся незначительно, и, при увеличении числа находок, разрыв между лучшей и худшей находками также менялся очень незначительно. Это может говорить о "расхождении" списка гомологов.

Задание 2

"Не сошлись" интерации для белка MINC_ECOLI. Проведём опять поиск, изменив порог с 0.005 на 0.001.С таким параметром порога третья итерация "сошлась", вследствие того, что белок, размывающий результат, и , вероятно, негомологичный заданной последовательности, на этот раз не попал в список. Если увеличить порог до 0.002, то он опять попадет в список. Таким образом, снижение порога E-value можно использовать для улучшения результата поиска при "расхождении" белка.

Наверх