Учебный сайт Якушева Александра


Работа в BLAST.

Поиск гомологов белка Q9S3U8 в SwissProt

Параметры запуска Blast

  1. Query subrange - С помощью этого параметра можно применить BLAST не ко всей последовательности, а только к ее участку. По умолчанию
  2. Database - Выбор базы данных. UniProtKB/Swiss-Prot(swissprot)
  3. Organism - Ограничить поиск только белками некоторых видов (или, наоборот, исключить некоторые виды - exclude). Кроме того, можно исключить белки с теми или иными идентификаторами RefSeq. По умолчанию
  4. Algorithm - Выбор алгоритма; я использовал blastp (по умолчанию). Другие варианты: PSI-BLAST (Position-Specific Iterative BLAST), PHI-BLAST (Pattern Hit Initiated BLAST), DELTA-BLAST (Domain Enhanced Lookup Time Accelerated BLAST). Так или иначе, все эти алгоритмы улучшают поиск гомологов, так как учитывают важность отдельных консервативных блоков. По умолчанию blastp
  5. Max target sequences - определяет максимальное количество искомых последовательностей. 20000
  6. Short queries(Automatically adjust parameters for short input sequences) - в случае поиска коротких последовательностей имеет смысл использовать другие параметры по умолчанию, нежели в случае длинных. Эта кнопка позволяет использовать эти параметры. По умолчанию
  7. Expect threshold - порог по E-value. Последовательности с большим в E-value не показываются. По умолчанию 10
  8. Word size - размер слова для поиска. Алгоритм бласта работает так, что индексирует слова определенной длинны. Чем меньше длинна слова, тем больше последовательностей будет сравниваться. По умолчанию 6
  9. Matrix - выбор матрицы аминокислотных замен. По умолчанию BLOSUM62
  10. Gap Costs - Штрафы за наличие и продолжение инделя. По умолчанию Existence: 11 Extension: 1
  11. Compositional adjustments - Корректировка матрицы замен для борьбы с участками малой сложности, в которых определенные аминокислоты повторяются много раз. По умолчанию
  12. Filter(Low complexity regions) - области малой сложности, в которых подсчёт гомологичности работает некорректно, например, в GR-богатых участках, забиваются "иксами". По умолчанию
  13. Mask for lookup table only - маскировка областей малой сложности "иксами" идёт только на шаге поиска возможно гомологичных последовательностей(см. word size), в выводы иксов нет. По умолчанию
  14. Mask Lower Case - вместо X замаскированные участки отмечаются нижним регистром. По умолчанию

Выдача BLAST доступна в Таблице.

Для построения множественного выравнивания были выбраны 10 последовательностей из различных организмов и с различными Similarity и E-value. Они были выровнены при помощи программы MuscleWS, встроенной в Jalview. Затем были удалены белки имеющие малую длину, а также белки с большим количествои инделей. Оставшиеся белки были выровнены для надежности.
Можно скачать Выравнивание
ALIGN

Был найден учаток с высокой долей гомологии. Он и представлен на приклепленной картинке.

Карта сходства белков M2R9A4_CERS8 и A0A1R4HTG4_9MICO

hit_matrix

По карте видно, что у последовательности M2R9A4 произошла транслокация начального фрагмента в конец последовательности, а также делеция следовавшего за ним фрагмента.

Игры с BLAST

В качестве последовательности была взята: "Of Course I Still Love You". Если задать все параметры стандартными (кроме базы данных, которая по задания должна быть Swissprot, и количества выдаваемых последовательностей в 20000), то BLAST найдет все 20000 последовательностей. При этом E-value будет в диапозоне от 5.1 до 48576. При этом процент идентичности был высоким (около 70%). Но после снятия галочки Automatically adjust parameters for short input sequences все они исчезли из выдачи. После смены длины слова на 2, смены матрицы на BLOSUM90 появилась одна выдача с E-value 6.4. После смены алгоритма на PSI-BLAST, смены treshold на 1000 нашлось 48 последовательностей. С E-value от 6.4 до 984.