Практикум 10. Blast
Поиск гомологов арсенит оксидазы
Во время поиска в NCBI Blast использовались следующие параметры:
Databases: Standart databases
Database: Non-reduntant protein sequences
Organism: 'Rhizobiales' (taxid:356)
Algorithm: blastp (protein-protein BLAST)
Max target sequences: 100
Expect threshold: 0.05
Word size: 5
Max matches in a query range: 0
Matrix: BLOSUM62
Gap Costs: Existence: 11 Extension: 1
Compositional adjustments: Conditional compositional score matrix adjustment
Все остальные опции не были выбраны.
Ссылка на текстовую выдачу программыВсе выбранные белки гомологичны, так как имеют очень большое сходство.
Результат выравнивания можно скачать или открыть по ссылке.
Поиск гомологов полипротеина
Для работы был выбран следующий полипротеин:
ID POLG_ASGVP
AC P36309
OS Apple stem grooving virus (strain P-209) (ASGV)
Putative RNA-directed RNA polymerase/helicase
Его последовательность можно скачать по ссылке.
Во время поиска гомологов с помощью Blast использовались те же параметры, за исключением того, что поиск проводился по всем организмам, а не только по одному таксону
Ссылка на текстовую выдачу программыГомологичными являются все белки, кроме "polyprotein, partial [Apple stem grooving virus] Sequence ID: AFM37535.1". Этот белок слишком не похож на исследуемый. При выравнивании образовалось несколько инделей, длины которых значительно преввышают длины совпадающих фрагментов.
Белок "replicase-associated protein, partial [Apple stem grooving virus] Sequence ID: UVV38559.1" - гомологичен. Его значительно меньшая длина связана с тем, что это не целый белок, а фрагмент. Сходство в том месте, где он выровнялся, довольно большое. Остальные белки гомологичны, так как их последовательности похожи на исследуемую.
Результат выравнивания можно скачать или открыть по ссылке.
Исследование зависимости E-value от объёма банка
Для подсчета доли вирусных белков в Swissprot был выбран белок "replicase [Diuris virus B] YP_006905848.1". При поиске по всей базе данных его E-value был равен 3e-168, а при поиске по вирусам - 3e-169. Для подсчета использовалась формула Карлина: E-value = Kmn·e-λS Для двух поисков различается только один параметр - размер базы данных. Поэтому, если разделить E-value для второго поиска на E-value для первого поиска, все сократится и останется отношение размера второй базы данных на размер первой базы данных, то есть только вирусных белков. Во втором поиске E-value в 10 раз меньше, значит на вирусные белки приходится 10% всех белков.
Поиск "гомологов" бессмысленной последовательности
Для генерации случайной последовательности был написан код на питоне:
letters = ['A', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'K', 'L', 'M', 'N', 'P', 'Q', 'R', 'S', 'T', 'V', 'W', 'Y', 'Z']
import random
l = int(input) # длина последовательности
seq = ''
for i in range(l):
  seq += letters[random.randrange(21)]
print(seq)
В первый раз была сгенерирована последовательность длиной 300 аминокислотных остатков. Бласт не нашел ни одной похожей последовательности. Во второй раз была взята последовательность длиной 30 аминоксилотных остатков. Находок опять не было. Тогда я увеличила порог на E-value до 50. Было всего 4 находки, у трех E-value 20, и еще у одной - 40. Это говорит о том, что рандомные последовательности ищутся плохо, поэтому находки для обычных белков можно считать достоверными.