BLAST

Задание 1.

Открыв страцу BLAST на сайте NCBI, я зарегистрировался в системе. Затем открыл Protein Blast, выбрал алгоритм blastp, выбрал базу данных Refseq_protein и нажал на кнопку "BLAST". В ответ BLAST выдал мне 100 последовательностей парных выравниваний с ними. При этом все найденные последовательности принадлежали бактериям. Однако E-value наихудшей находки равен 1*10^(-38). Следовательно, в параметрах поиска надо увеличить количество выдаваемых результатов. Онако, когда я выбрал количество выдаваемых результатов до 1000, самый максимальный E-value был равен 2*10^(-25). Тогда я выбрал максимум выдачи в 5000 результатов. Однако и тогда E-value был равен 1* 10^(-14).При выставлении максимума выдачи в 10000 результатов максимальный E-value составляет 0,015. Все остальные параметры поиска я оставил без изменений.
При таких условиях поиска BLAST выдал мне 10000 результатов, среди которых были белки бактерий (580 видов), архей (71 вид), грибов (1 вид - Candida tropicalis MYA-3404). При этом в выдаче было 965 находок для бактерий, 75 - архей и 1 для грибов.

Результат наихудшей находки:

Длина выравнивания	136
Bit score	45,4
% идентичных и сходных остатков	Идентичных - 27%, сходных - 44%
E-value	0,015

Картинка выравнивания:

Результат выравнивания из середины списка:

Длина выравнивания	173
Bit score	83,6
% идентичных и сходных остатков	Идентичных - 31%, сходных - 52%
E-value	4e-16

Картинка выравнивания:

Результат лучшего выравнивания:

Длина выравнивания	217
Bit score	439
% идентичных и сходных остатков	Идентичных - 100%, сходных - 100%
E-value	3e-154

Картинка выравнивания:

Далее передо мной встала задача из всей этой массы последовательностей выделить гомологи моего белка. Гомологами я считал последовательности, чьи E-value были меньше 1e-3 и для кторых не менее 70% запроса вошло в полученное выравнивание (Query cover). К слову, сразу видно, что худшая последовательность, для которой я привёл характеристики выше, гомологом исходной последовательности не является.
Итак, для нахождения гомологов я вернулся на страницу запроса, и помимо максимума выдачи 10000 проставил значение Expect treshold 1e-3, после чего нажал кнопку "BLAST". Результатом стали 8176 последовательностей, среди которых, однако, было 4 результата с Query cover < 70% при E-value 1е-3. Отметив эти последовательности флажками, я решил ознакомиться с ними детальней, и нажал кнопку GenPept. Два результата из этих четырёх, которые соответствовали белку детибиотинсинтетазе, я оставил в списке гомологов, результат, соответствующий фосфотрансацетилазе, я исключил, а результат, соответствующий белку onanonoxo-7-onima-8-eninoihtemlysoneda, я оставил, поскольку, согласно Uniprot, этот белок обладает детибиотинсинтетазной активностью. Получилось 8175 гомологов.

Задание 2.

В этом задании необходимо было провести поиск внутри отдельного таксона. Вернувшись на страницу запроса, я в поле "Organism" ввёл "Escherichia coli", выставил максимум выдачи 100 и нажал "BLAST". Среди результатов запроса выбрал запись "ATP-dependent dethiobiotin synthetase BioD 1 [Escherichia coli]" начал сравнивать параметры этой записи при разных поисках. Вопрос о наличии этого результата в первом поиске даже не стоял - ведь первый поиск был внутри всей базы данных Refseq, тогда как во втором поиске я поставил условие - искать внутри определённого таксона. То есть, первый поиск должен в своём составе содержать второй. Score, Query cover и %Ident результатов в обоих запросах остаётся неизменным, в то время как E-value различаются, составляя 4е-24 в первом запросе и 9е-26 во втором. Поскольку E-value указывает случайность находки в определённом объёме данных, мы видим, что в первом поиске этот результат был более случаен, чем во втором.

Задание 3.

Для выполнения этого задания я решил выбрать белок детибиотинсинтазу, полученную из бактерии Bacillus amyloliquefaciens (запись "dethiobiotin synthetase [Bacillus amyloliquefaciens]", Refseq AC: WP_045505834). Затем я вернулся в меню запроса, поставил флажок "Align two or more sequences" и ввёл в появившееся поле Refseq AC выбранного белка и нажал на "BLAST".

Карта локального сходства:

По горизонтали отложены номер аминокислотных остатков моего белка, по вертикали - белка, с которым я сравнивал свой. По карте видно, что в выравнивании 6 открытий гэпов, что выравнивание начинается со второго аминокислотного остатка моего белка и с первого - сравниваемого. То же можно увидеть, взглянув на само выравнивание.
Выравнивание:

Задание 4.

Для выполнения этого задания я выбрал файл align_03_1.fasta, взяв файд с выравниваниями align_03.fasta из практикума 8, копировав в новый файл его содержимое и удалив в нём гэпы. Затем я на сервере kodomo проиндексировал получившуюся маленькую базу данных командой makeblastdb -dbtype prot -in align_03_1.fasta -out new_database . После я запустил в ней поиск моего бедка командой blastp -db new_database -query YP_002729488.fasta . Лучшее из получившихся выравниваний можно увидеть на картинке ниже.

Выравнивание в новой базе данных:

Результаты поиска в новой БД:

Выравнивание	Длина выравнивания	Score	% Identities	% Positives	E-value
BREBN	11	15.0 bits	45%	64%	5.1

Казалось бы, высокий процент совпадений, отличное выравнивание! Но тот факт, что сама длина выравнивания очень мала - всего 11 аминокислотных остатков, низкое значение Score относительно поиска в BLAST и очень высокий E-value позволяют усомниться в этом утверждении. E-value, равный 5.1, указывает на случайность совпадения, говорить о гомологии белков нельзя. Можно лишь предположить гомологию УЧАСТКОВ этих белков, исходя из которой можно сделать вывод, что эти участки могут выполнять сходную функцию в обоих белках.

Главная страница