Открыв страцу BLAST на сайте NCBI, я зарегистрировался в системе. Затем открыл Protein Blast,
выбрал алгоритм blastp, выбрал базу данных Refseq_protein и нажал на кнопку "BLAST".
В ответ BLAST выдал мне 100 последовательностей парных выравниваний с ними. При этом
все найденные последовательности принадлежали бактериям. Однако E-value наихудшей
находки равен 1*10^(-38). Следовательно, в параметрах поиска надо увеличить количество
выдаваемых результатов. Онако, когда я выбрал количество выдаваемых результатов до 1000,
самый максимальный E-value был равен 2*10^(-25). Тогда я выбрал максимум выдачи в
5000 результатов. Однако и тогда E-value был равен 1* 10^(-14).При выставлении
максимума выдачи в 10000 результатов максимальный E-value составляет 0,015. Все
остальные параметры поиска я оставил без изменений.
При таких условиях поиска BLAST выдал мне 10000 результатов, среди которых
были белки бактерий (580 видов), архей (71 вид), грибов (1 вид - Candida tropicalis MYA-3404).
При этом в выдаче было 965 находок для бактерий, 75 - архей и 1 для грибов.
 
Длина выравнивания | 136 |
Bit score | 45,4 |
% идентичных и сходных остатков | Идентичных - 27%, сходных - 44% |
E-value | 0,015 |
Длина выравнивания | 173 |
Bit score | 83,6 |
% идентичных и сходных остатков | Идентичных - 31%, сходных - 52% |
E-value | 4e-16 |
Длина выравнивания | 217 |
Bit score | 439 |
% идентичных и сходных остатков | Идентичных - 100%, сходных - 100% |
E-value | 3e-154 |
В этом задании необходимо было провести поиск внутри отдельного таксона.
Вернувшись на страницу запроса, я в поле "Organism" ввёл "Escherichia coli",
выставил максимум выдачи 100 и нажал "BLAST". Среди результатов запроса выбрал
запись "ATP-dependent dethiobiotin synthetase BioD 1 [Escherichia coli]" начал
сравнивать параметры этой записи при разных поисках. Вопрос о наличии этого
результата в первом поиске даже не стоял - ведь первый поиск был внутри всей
базы данных Refseq, тогда как во втором поиске я поставил условие - искать внутри
определённого таксона. То есть, первый поиск должен в своём составе содержать
второй. Score, Query cover и %Ident результатов в обоих запросах остаётся
неизменным, в то время как E-value различаются, составляя 4е-24 в первом запросе
и 9е-26 во втором. Поскольку E-value указывает случайность находки в определённом
объёме данных, мы видим, что в первом поиске этот результат был более случаен,
чем во втором.
 
Для выполнения этого задания я решил выбрать белок детибиотинсинтазу,
полученную из бактерии Bacillus amyloliquefaciens (запись "dethiobiotin
synthetase [Bacillus amyloliquefaciens]", Refseq AC: WP_045505834). Затем я
вернулся в меню запроса, поставил флажок "Align two or more sequences" и ввёл
в появившееся поле Refseq AC выбранного белка и нажал на "BLAST".
Для выполнения этого задания я выбрал файл
align_03_1.fasta, взяв файд с выравниваниями
align_03.fasta из практикума 8, копировав в новый
файл его содержимое и удалив в нём гэпы. Затем я на сервере kodomo проиндексировал
получившуюся маленькую базу данных командой
makeblastdb -dbtype prot -in align_03_1.fasta -out new_database . После я
запустил в ней поиск моего бедка командой
blastp -db new_database -query YP_002729488.fasta . Лучшее из получившихся
выравниваний можно увидеть на картинке ниже.
Выравнивание | Длина выравнивания | Score | % Identities | % Positives | E-value |
BREBN | 11 | 15.0 bits | 45% | 64% | 5.1 |
Казалось бы, высокий процент совпадений, отличное выравнивание! Но тот
факт, что сама длина выравнивания очень мала - всего 11 аминокислотных остатков,
низкое значение Score относительно поиска в BLAST и очень высокий E-value
позволяют усомниться в этом утверждении. E-value, равный 5.1, указывает на
случайность совпадения, говорить о гомологии белков нельзя. Можно лишь
предположить гомологию УЧАСТКОВ этих белков, исходя из которой можно сделать
вывод, что эти участки могут выполнять сходную функцию в обоих белках.
 
 
Главная страница