Поиск по сходству (BLAST)

Задание 1. Определение таксономии и функции нуклеотидной поседовательности

С помощью blastn на сайте NCBI был произведен поиск возможных гомологичных последовательностей. Все параметры я оставила без изменений. Все найденные последовательности кодировали митохондриальный ген белка субъединицы 1 цитохром с-оксидазы. Этот белок присутствует во внутренней мембране митохондрий всех эукариот и катализирует конечный этап переноса электронов на кислород в процессе окислительного фосфорилирования. Для определения таксономии гена были выбраны первые 7 находок, которые были наилучшими по показателям Evalue, веса, процента идентичности и покрытия. Находки отличались уже по типу: 4 из них были из Nemertea и 3 из Entprocta. На рисунке 1 видны результаты blastn.

Результаты команды blastn
Рисунок 1. Результаты команды blastn

Далее последовательности каждой находки соответствующие по локальному выравниванию моему гену были выравнены вместе с ним множественным выравниванием в программе Jalview (рисунок 2). На этом рисунке первая, вторая и пятая последовательности относятся к одному типу. Поэтому можно сделать вывод, что моя последовательность из организма, принадлежащего типу Entoprocta. Точно также был определен род (рисунок 3) - Loxosomella. На рисунке 4 можно видеть дерево, которое только подтверждает правильность выбранного рода.

Множественное выравнивание
Рисунок 2. Множественное выравнивание. Последняя - это начальная последовательность.

Множественное выравнивание
Рисунок 3. Множественное выравнивание. Определение рода. Первая и третья последовательности принадлежат к одному роду, вторая - к другому.

Дерево
Рисунок 4. Дерево на основе выравнивания

Задание 2. Сравнение списка находок нуклеотидных последовательностей тремя разными вариантами blast

Для начала сравнивали по гену из задания 1. Без ограничений на организмы получилось слишком много результатов, поэтому было решено ограничить по типу Entoprocta. Evalue для всех трех поисков было выбрано 0,001. Вначале поиск произведен алгоритмом megablast c его стандартными значениями, потом blastn с параметрами по умолчанию и третий поиск - blastn с измененными параметрами поиска. Неудивительно, что алгоритмом megablast нашлось меньше всего последовательностей, так как значение слова у него 28, что обеспечивает быстроту поиска, но при этом существует возможность пропуска гомологичной последовательности. Находки двух других алгоритмов не отличаются и включают все находки первого поиска, но их порядок отличается, так как в результате изменения параметров изменяется вес локальных выравниваний, Evalue и другие значения. Находок со значением Evalue=0 стандартного алгоритма blastn - 12, некоторые из них имеют в первом алгоритме значение Evalue больше. Показатели находок последнего алгоритма самые плохие из-за больших значений за несоответствие и маленьких за совпадение нуклеотидов. Например, процент покрытия у последней находки на рисунке 7 15%, тогда как у той же самой находки на рисунке 6 процент покрытия 74 и Evalue намного ниже.

Таблица 1.
Сравнение списка находок при использовании разных алгоритмов
Алгоритм Word size Match/Mismatch scores Gap Costs Количество находок гена цитохрома Количество находок гена вируса
megablast 28 1, -2 Linear 6 2
blastn 11 2, -3 5, 2 29 225
blastn с измененными параметрами 7 1, -4 1, 2 29 51

blast
Рисунок 5. Поиск гомологичных последовательностей гена цитохрома алгоритмом megablast

blast
Рисунок 6. Поиск гомологичных последовательностей гена цитохрома алгоритмом blastn с параметрами по умолчанию

blast
Рисунок 7. Поиск гомологичных последовательностей гена цитохрома алгоритмом blastn с измененными параметрами

Тоже самое было проделано для гена длиной примерно 600 нуклеотидов белка ORF 20 вируса Haloarcula phage SH1. В данном случае megablast нашел две подходящие последовательности, хотя никаких ограничений не было, что еще раз говорит о том, что этот алгоритм нужно использовать для нахождения только очень сходных последовательностей. Также в данном случае различалось количество находок двумя другими способами. Находки с плохим Evalue относились к бактериям и даже рыбам.

blast
Рисунок 8. Поиск гомологичных последовательностей гена вируса алгоритмом megablast

blast
Рисунок 9. Поиск гомологичных последовательностей гена вируса алгоритмом blastn с параметрами по умолчанию

blast
Рисунок 10. Поиск гомологичных последовательностей гена вируса алгоритмом blastn с измененными параметрами

Задание 3. Проверка наличия гомологов трех белков в неаннотированном геноме

Выбранные белки: HSP71_YEAST, EIF3G_SCHPO и TBB_NEUCR. Последовательности данных белков были найдены на сайте Uniprot в поиске по названию белков. Скачав файлы в формате fasta, c помощью локального BLAST+ на kodomo и генома из файла X5.fasta как базы для каждого белка были найдены гомологи. Таблицы ниже получены с помощью команды tblastn -query EIF3G_SCHPO.fasta -db X5.fasta -outfmt 7 > EIF3G_SCHPO.txt.

HSP71_YEAST - белок теплового шока, шаперон, который связывает развернутые полипептидные цепи, предотвращая возможную агрегацию, и освобождает их в цикле связывания и последующего гидролиза АТФ. Функции Hsp70 связаны с наличием в его структуре двух доменов. С-терминальный пептид - связывающий домен, который не участвует в регуляции специфичности связывания с пептидами. N-терминальный АТФазный домен, который может находиться в двух разных состояниях: АДФ- и АТФ-связанном, стабилизация которых зависит от взаимодействия с другими регуляторными белками и шаперонами.

По таблице сразу у двух скэффолдов (199, 96, 423) хорошие показатели, потому что длина самого белка 642, так что процент покрытия больше 90 %. Ответ положительный.

query id		subject id	% id	length	mismat	gap   q. start	q. end	s.start s. end	Evalue	bit score
sp|P10591|HSP71_YEAST	scaffold-199	78.98	609	125	2	2	607	1109256	1107430	0.0	 920
sp|P10591|HSP71_YEAST	scaffold-199	55.56	27	12	0	82	108	1110027	1109947	0.002	40.8
sp|P10591|HSP71_YEAST	scaffold-96	66.06	607	201	4	3	606	89928	91742	0.0	 744
sp|P10591|HSP71_YEAST	scaffold-423	65.73	607	203	4	3	606	1313216	1311402	0.0	 737
sp|P10591|HSP71_YEAST	scaffold-423	37.34	391	228	5	4	378	781726	782895	8e-64	 232
sp|P10591|HSP71_YEAST	unplaced-999	81.90	315	56	1	2	315	945	1	8e-171	 540
sp|P10591|HSP71_YEAST	unplaced-980	77.54	334	73	1	276	607	1	1002	9e-142	 461
sp|P10591|HSP71_YEAST	scaffold-157	46.77	402	196	6	216	607	165338	166519	1e-81	 285
sp|P10591|HSP71_YEAST	scaffold-157	54.42	215	93	3	5	217	164418	165053	5e-64	 233
sp|P10591|HSP71_YEAST	scaffold-157	29.03	310	193	5	61	343	219904	218975	5e-32	 133
sp|P10591|HSP71_YEAST	scaffold-693	46.77	402	196	6	216	607	1114528	1115709	2e-80	 281
sp|P10591|HSP71_YEAST	scaffold-693	54.42	215	93	3	5	217	1113608	1114243	1e-63	 232
sp|P10591|HSP71_YEAST	scaffold-693	27.79	331	212	5	61	364	1168679	1167687	2e-29	 125
sp|P10591|HSP71_YEAST	unplaced-804	71.50	193	53	1	417	607	17964	17386	2e-74	 264
sp|P10591|HSP71_YEAST	scaffold-499	71.50	193	53	1	417	607	3580	4158	6e-74	 262
sp|P10591|HSP71_YEAST	unplaced-959	37.34	391	228	5	4	378	9193	10362	1e-63	 231
sp|P10591|HSP71_YEAST	scaffold-469	76.92	104	24	0	437	540	2	313	5e-43	 150
sp|P10591|HSP71_YEAST	scaffold-418	76.92	104	24	0	437	540	312	1	5e-43	 150
sp|P10591|HSP71_YEAST	unplaced-113	68.97	87	26	1	9	94	1	261	1e-32	 122
sp|P10591|HSP71_YEAST	scaffold-138	57.75	71	28	1	539	607	249	37	3e-17	78.6
sp|P10591|HSP71_YEAST	scaffold-61	57.75	71	28	1	539	607	5	217	3e-17	78.6
sp|P10591|HSP71_YEAST	unplaced-721	68.97	29	9	0	579	607	272	186	2e-05	43.9

EIF3G_SCHPO - фактор инициации трансляции у эукариот, поддерживает свободное состояние малой суъединицы, препятствуя преждевременной ассоциации большой и малой субъединицы, а также стимулирует связывание мRNA и Met-tRNA с 40S субъединицей. В данном случае, все параметры сходства у первых двух находок, включая процент покрытия (длина исходного белка - 282), кроме процента идентичности, свидетельствуют о гомологии, поэтому скорее всего, гомологичны не все белки, а домены.

query id		subject id	% id	length	mismat	gap   q. start	q. end	s.start s. end	Evalue	bit score
sp|P78795|EIF3G_SCHPO	scaffold-20	37.98	287	146	10	20	279	8619	7774	2e-21	95.5
sp|P78795|EIF3G_SCHPO	scaffold-444	37.28	287	148	8	20	279	817421	816576	2e-20	92.0
sp|P78795|EIF3G_SCHPO	scaffold-444	37.21	43	27	0	236	278	189369	189497	0.78	30.8
sp|P78795|EIF3G_SCHPO	scaffold-444	28.79	66	45	1	201	264	188955	189152	5.8	28.1
sp|P78795|EIF3G_SCHPO	scaffold-170	31.48	54	37	0	225	278	220797	220636	0.002	38.9
sp|P78795|EIF3G_SCHPO	scaffold-17	39.62	53	32	0	226	278	2050544	2050702	0.008	37.4
sp|P78795|EIF3G_SCHPO	scaffold-17	39.62	53	32	0	226	278	183975	184133	0.023	35.8
sp|P78795|EIF3G_SCHPO	scaffold-17	37.50	40	25	0	225	264	1688251	1688132	0.063	34.3
sp|P78795|EIF3G_SCHPO	scaffold-17	37.21	43	27	0	236	278	914230	914358	0.78	30.8
sp|P78795|EIF3G_SCHPO	scaffold-17	30.30	66	44	1	201	264	913816	914013	4.4	28.5
sp|P78795|EIF3G_SCHPO	scaffold-199	35.29	51	33	0	225	275	253346	253194	0.010	37.0
sp|P78795|EIF3G_SCHPO	scaffold-212	40.91	66	39	0	200	265	296156	296353	0.023	35.8
sp|P78795|EIF3G_SCHPO	scaffold-105	37.50	40	25	0	225	264	330352	330471	0.052	34.7
sp|P78795|EIF3G_SCHPO	scaffold-96	31.15	61	39	1	225	282	197429	197611	0.12	33.5
sp|P78795|EIF3G_SCHPO	scaffold-423	31.15	61	39	1	225	282	1206586	1206404	0.17	33.1
sp|P78795|EIF3G_SCHPO	scaffold-287	41.67	60	32	1	195	251	56264	56443	0.30	32.3
sp|P78795|EIF3G_SCHPO	scaffold-22	34.09	88	58	0	195	282	120213	119950	0.68	31.2
sp|P78795|EIF3G_SCHPO	scaffold-22	30.23	43	27	1	228	267	120375	120247	2.4	29.3
sp|P78795|EIF3G_SCHPO	scaffold-57	30.23	43	27	1	228	267	11654	11526	2.1	29.6

Тубулин (TBB_NEUCR) является основной структурной единицей микротрубочек. Он представляет собой гетеродимер, состоящий из двух близких белков, а- и b-тубулина. Каждая молекула а- и b-тубулина связывает молекулу ГТФ. Строение гетеродимера тубулина показывает, что ГТФ, связанный с а-тубулином, расположен поблизости от места его контакта с b-тубулином и никогда не гидролизуется. При сборке микротрубочек ГТФ, связанный с β-субъединицей, гидролизуется до ГДФ. Этот гидролиз приводит к изменению конформации гетеродимера тубулина, что играет важную роль в динамических превращениях микротрубочек.

Белок в организме присутствует, так как все показатели у скэффолда-26 свидетельствуют о гомологичности. Длина самого белка - 447, поэтому процент покрытия составляет 86.

query id		subject id	% id	length	mismat	gap   q. start	q. end	s.start s. end	Evalue	bit score
sp|P05220|TBB_NEUCR	unplaced-665	81.56	450	61	1	1	428	7236	5887	0.0	 742
sp|P05220|TBB_NEUCR	scaffold-26	86.79	386	51	0	43	428	109811	108654	0.0	 693
sp|P05220|TBB_NEUCR	scaffold-26	66.67	51	17	0	1	51	110007	109855	4e-13	71.6
sp|P05220|TBB_NEUCR	unplaced-5	39.91	441	252	3	1	431	3257	4570	1e-105	 348
sp|P05220|TBB_NEUCR	scaffold-57	40.14	441	251	3	1	431	88586	87273	1e-105	 348
sp|P05220|TBB_NEUCR	scaffold-423	28.79	389	236	8	80	428	190311	191474	6e-49	 161
sp|P05220|TBB_NEUCR	scaffold-423	27.50	80	40	1	9	70	189959	190198	6e-49	45.4
sp|P05220|TBB_NEUCR	scaffold-423	76.92	13	3	0	2	14	189873	189911	6e-49	26.6
sp|P05220|TBB_NEUCR	scaffold-423	27.34	384	237	8	80	422	1101339	1100191	2e-46	 150
sp|P05220|TBB_NEUCR	scaffold-423	33.33	63	34	1	16	70	1101622	1101434	2e-46	47.4
sp|P05220|TBB_NEUCR	scaffold-423	76.92	13	3	0	2	14	1101728	1101690	2e-46	26.9

Задание 4. Поиск гена белка в одном из скэффолдов

С помощью команды infoseq X5.fasta -only -name -length -out был получен список скэффолдов с их длинами. Был выбран скэффолд-126, длина которого составляла 92370. Отдельно последовательность этого скэффолда получена в результате команды seqret X5.fasta:scaffold-126 -out scaffold-126.fasta. Здесь можно скачать последовательность скэффолда. Последовательность была загружена в blast и использовался алгоритм blastx, поиск осуществлялся по базе Refseq_protein и был ограничен по таксону Fungi. Результат можно увидеть на рисунке 11. Из получившихся 97 находок первые пять были генами гипотетических белков, но значения идентичности (52%), Evalue и покрытия шестой находки позволяют говорить о гомологичности. А значит в скэффолде есть ген, кодирующий белок синтазы хоризмата. Выравнивание этой находки можно увидеть на рисунке 12.

blast
Рисунок 11. Находки blastx.

blast
Рисунок 12. Выравнивание скэффолда-126