BLAST (Basic Local Alignment Search Tool) является самым популярным биоинформатическим алгоритмом, поскольку прост в использовании и выполняет важные задачи. Он позволяет строить локальные выравнивания, а его гибкость привела к использованию в качестве инструмента поиска по базам данных биологических последовательностей. В этом задании мы должны были найти с помощью BLAST гомологи белка, который мы всецело исследуем уже на протяжении нескольких практикумов. Для этого нам нужно было разобраться с настраиваемыми параметрами поиска.
Таблица 1. Параметры поиска и их значения
Параметр поиска | Значение | Смысл параметра |
Accession number/sequene | P19567 | Код доступа последовательности в базе данных или сама последовательность |
Database | UniProtKB/Swiss-Prot(swissprot) | База данных |
Organism | Организмы или таксоны, по которым будет осуществлен поиск последовательности для выравнивания | |
Max target sequences | 500 | Максимальное число последовательностей в выдаче |
Short queries | Yes | Автоподбор параметров в случае короткой последовательности |
Expect threshold | 10 | Верхний порог по E-value, на котором прекращается поиск |
Word size | 3 | Размер слова при разбиении последовательностей |
Max matches in a query range | 0 | Максимальное число совпадений между исходной и найденной последовательностью |
Matrix | BLOSUM62 | Матрица весов замен |
Gap Costs | Existence: 11 Extension: 1 | Штрафы за открытие и продление гэпа |
Compositional adjustments | Conditional composition score matrix adjustment | Матрица будет подстроена под конкретный аминокислотный состав (борьба с участками низкой сложности) |
Filter low complexity regions | No | Маскировка участков низкой сложности |
Mask for lookup table only | No | Маска (см. выше) будет применяться только на этапе поиска слов (см. word size), но не при построении выравнивания. |
Mask lower case letters | No | Не учитывать строчные буквы |
Поскольку результаты поиска хранятся на сервере всего 36 часов, мы сохранили текстовую выдачу программы (файл). Затем мы отобрали из результатов 6 возможных гомологов (3 из бактерий и 3 из растений) в формате fasta и провели с ними множественное выравнивание, как в предыдущем практикуме. Проект в Jalview можно скачать здесь, а можно и не скачивать, и посмотреть рисунок 1 (кликните, чтобы улучшить качество).
Рис. 1. Множественное выравнивание гомологов псевдоазуринаю. Кликните, чтобы улучшить качество
В качестве интересного обстоятельства можно отметить, что гомологом псевдоазурина является пластоцианин растений. На это указывает высокая консервативность некоторых участков в выравнивании, степень идентичности, полученное невероятно низкое E-value и функциональная особенность: пластоцианин, равно как и псевдоазурин связывают медь, и по всей видимости, медь-связывающий сайт должен быть консервативным.
Рис. 2. Множественное выравнивание гомологов папаино-подобной протеазы коронавируса. Кликните, чтобы улучшить качество
В этом задании мы проделали тот же поиск протеазы коронавируса, но ограничили таксон вирусами (Viruses (txid:10239)). Список находок сузился, поэтому мы дополнительно применили фильтр к первому запросу с таким же ограничением по таксонам. Грубо говоря, в выдачах те же виды, но поиск был осуществлен по разным выборкам. Обе выдачи можно посмотреть тут и тут. Сравним же E-value одних и тех же гомологов в разных запросах:
Таблица 2. Некоторые значения E-value с неограниченной и ограниченной выборкой
Accession | Было | Стало |
Q8QL53.1 | 7,9 | 0,33 |
P13896.3 | 0.009 | 4*10-4 |
P0C6W8.1 | 9*10-150 | 4*10-151 |
Получается, при уменьшении выборки, E-value уменьшается (то есть мера гомологии увеличивается). Оно и логично, ведь E-value это матожидание, то есть величина, зависящая от размера выборки. Из этого следует, что не стоит намеренно уменьшать выборку при поиске, дабы повысить E-value.
По теореме Карлина E-value = Kmn·e-λS, где n - размер базы данных. Поскольку, эти значения прямо пропорциональны, можно оценить долю вирусных белков в Swissprot. Для этого нужно разделить E-value после введения фильтра на значение без фильтра. Во всех трех случаях получается примерно 0,04 или 4%.
В этом задании нужно было пробластить случайную последовательность. Для ее получения, я нашел английскую версию автобиографического произведения "Другие берега" Владимира Набокова, взял от туда фразу:
On top of all this I present a fine case of colored hearing. Perhaps “hearing” is not quite accurate, since the color sensation seems to be produced by the very act of my orally forming a given letter while I imagine its outline.
Затем удалил из неё пробелы, знаки препинания, а также буквы B, J, O, U, X, Z, не обозначающие никаких "нормальных" аминокислот. К слову, в русской версии фраза звучит интереснее:
Кроме всего я наделен в редкой мере так называемой audition coloree – цветным слухом. Не знаю, впрочем, правильно ли тут говорить о «слухе»: цветное ощущение создается по-моему осязательным, губным, чуть ли не вкусовым чутьем. Чтобы основательно определить окраску буквы, я должен букву просмаковать, дать ей набухнуть или излучиться во рту, пока воображаю ее зрительный узор.
В итоге получилась вот такая последовательность:
ntpfallthisipresentafinecasefclredhearingperhapshearingisntqiteaccratesincetheclrsensatinseemsteprdcedytheveryactfmyrallyfrmingagivenletterwhileiimagineitstline
После, мы пробластили нашу последовательность и получили следующую выдачу. Здесь у нас целый "зоопарк". И регулятор апоптоза из моллюска, и аминопептидаза стрептомицет, и шаперон из сальмонеллы, и синаптический белок крысы. Очень вряд ли, что эти белки являются гомологами, даже несмотря на довольно низкий E-value (0,6). Не очень высокое покрытие, низкая степень идентичности и малое число находок, возможно, в совокупности говорят о том, что наша случайная последовательность не имеет биологического смысла.