Pr8: BLAST and more BLAST

# Вступление Мой выбор пал на ген простагландинсинтазы PTGS2 и его окружение. В таблице я привёл описательную информацию о выбранно фрагменте. | Предмет интереса| Величина | | ------ | :------: | |Идентификатор соотв. записи | NC_060925.1| |Номер хромосомы |1 | | 5'-coord| 186025753 | |3'-coord |186036111 | | Длина | 10358| | `.fasta`-файл| [near_PTGS2.fasta](https://drive.google.com/file/d/1gfRm5BOdmqks6wBUCAiVyz7c9RZSYJlV/view?usp=drive_link)| # Аннотация выбранного фрагмента В выбранный фрагмент целиком попадает PTGS2, кроме того, с 3'-конца мы видим первый экзон гена PACEER.

Посмотрев на визуализацию гена PTGS2 в геномном браузере, понимаем: - ген кодируется цепью ДНК, комплементарной для данной - ген содержит 10-11 экзонов Но не кажется ли нам странным, что левые (на картинке) экзоны окрашены иначе, чем остальные? Мы сможем объяснить это наблюдение, если посмотрим на расширенную визуализацию:

Теперь нам всё понятно - с гена могут транскрибироваться две мРНК: одна заканчивается на 3'-конце раньше, чем другая - видимо, здесь как-то хитро регулируется транскрипция. Таким образом, зелёная строка обобщает эти два транскрипта: тёмно-зелёным выделены участки, которые у них совпадают, салатовым - зоны различий. Таким образом, если учитывать PACEER, в выбранный фрагмент попадают 2 гена и 3 CDS (только что обсудили, для PTGS2 мы предполагаем два транскрипта). # Выбор таксона для поиска похожих последовательностей BLAST'ом Целевым для поиска я выбрал таксон *Euarchontoglires* - ветвь млекопитающих, состоящая из приматов и некоторых организмов, подобных грузунам.

[Источник пикчи](https://genome.cshlp.org/content/17/6/760/F1.medium.gif) Теперь, когда мы станем запускать вариации BLAST'а, будем всякий раз искать по таксону *Euarchontoglires* (taxid:314146) и исключать из рассмотрения *Homo sapiens* (taxid:9606). # Megablast Итак, запустим самый "грубый" алгоритм, который найдёт нам самые явные совпадения, поскольку он использует якорь очень большого размера, в связи с чем им удастся вытащить только очень близкие последовательности. | Параметр| Значение| | ------ | :------: | |`max target sequences` | 5000 | |`word_size` | 28 | | `gap cost`| Linear | **Примечание про параметры:** я указал выбранный `gap_cost`, поскольку Linear уникален для Megablast'а. **Анализ выдачи:** Довольно много находок с покрытием поданного контига порядка 40-43%б идентичностью под 95% и evalue около машинного нуля, все они относятся к приматам. Такой query coverage, по-видимому, можно объяснить неконсервативностью интронов. При этом примечательно, что `max_score` у большинства этих находок больше `total_score`, что говорит о наличии нескольких участков совпадений. # Blastn Ищем нуклеотидный образец в нуклеотидной БД. Хороший пример задачи, для которой он отлично подходит, я привёл ниже в пункте про `blast+`. | Параметр| Значение| | ------ | :------: | |`max target sequences` | 1000 | |`word_size` | 15 | Увеличил размер слово и количество находок ради того, чтобы blastn вообще смог запуститься (при меньшей длине слова и большем количестве находок происходит ошибка на сервере). **Анализ выдачи:** На контрасте с megablast'ом, хотя здесь несколько больше находок с покрытием образца выше 50%, процент схожести для них находится в районе 70. Не все из этих последовательностей принадлежат приматам: две с наибольшим покрытием образца относятся к голому землекопу.

Портрет этого красавчика можно взять [здесь](https://www.science.org/do/10.1126/science.aat1320/abs/rat_16x9.jpg)! В целом, результаты выходят более разнообразными. # Blastx Транслируем нуклеотидный запрос и ищем в белковой БД. Такой алгоритм логично применять в ситуации, когда нам интересно найти гомологи белка, который, вероятно, закодирован в исследуемой нуклеотидной последовательности. | Параметр| Значение| | ------ | :------: | |`max target sequences` | 1000 | | `word_size`| 3| **Анализ:** Поскольку интроны бывают довльно длинными, смотреть на `query_coverage` здесь бессмысленно: интроны не дают ему превзойти даже 25%. Процент схожести для большого кол-ва находок из топа (отсортированного по схожести) здесь порядка 80%. Ещё одна очень характерная для экзон-интронной особенность состоит во множественных находках в каждой из приведённых последовательностей: `total_score` тут больше `max_score` примерно в 5-6 раз, что даёт нижнюю оценку количества экзонов в гене (уж точно не менее 5). Наконец, для этого типа бласта у нас сравнительно большие `e-value`: если раньше они все были около 0, теперь они в районе 10^(-70). # tbastx Самый требовательный алгоритм: будет 6 раз бегать сквозь по-разному транслированные нуклеотидные БД. Этот вариант blast'а хорош для той же задачи, которую мы привели для blastx, с той лишь разницей, что предполагаемые находки находятся в неразмеченных (неаннотированных) геномах. | Параметр| Значение| | ------ | :------: | |`max target sequences` | 10 | | `word_size`| 3| Опять же, параметры поставил максимально простые, чтобы хотя бы запустилось. Так и не запустился:''\) # Blast+ В этом сюжете мы попробуем найти в T2T-геноме человека гомологи 16S- и 23S-рибосомальной РНК - первая входит в состав малой субъединицы рибосомы и содержит последовательность, комплементарную сайту Шайна-Дальгарно мРНК, вторая включена в больную субъединицу. Раз мы имеем дело с функциональными РНК, для нас не имеют смысла белковые и транслированные вариации BLAST'а, а ввиду большой филогенетической дистанции мы выбираем blastn, а не megablast, из возможных нуклеотидных алгоритмов. Итак, `sudo apt install ncbi-blast+` Проиндексируем файл `db.fna` командой: ``` makeblastdb -in db.fasta -dbtype nucl ``` Далее "бластанём" каждую рРНК отдельно. ``` blastn -task blastn -query 16s_ecoli.fasta -db db.fna -out 16s_blast.out -max_target_seqs 5000 -word_size 8 blastn -task blastn -query 23s_ecoli.fasta -db db.fna -out 23s_blast.out -max_target_seqs 5000 -word_size 8 ``` `word_size` 8 я взял, чтобы поиск не был мучительно долгим. А теперь посмотрим на результаты! **[Предполагаемые гомологи](https://drive.google.com/file/d/1DYTEd9XJSXJdIwrJdOeXohEdMEK-4EC6/view?usp=drive_link) 16S-рРНК E. Coli** Последовательности из топа по e-value (у них он порядка 10^(-7)) находятся на 13, 14, 15, 21, 22 хромосомах. **[Предполагаемые гомологи](https://drive.google.com/file/d/1rFJikoDj-e7Y8sDNQP6LkVQz5vmWgVWj/view?usp=drive_link) 23S-рРНК E. Coli** Лучшие находки имеют e-value порядка 10^(-17), лежат на 12, 13, 14, 15, 21, 22 хромосомах. Получилась довольно ожидаемая картина: гомологи нашлись на хромосомах, кодирующих рибосомальные РНК. Наверное, в другой сборке человеческого генома (в референсной, например), мы бы нашли ещё один очень характерный тип находок - рибосомальные РНК митохондрий, но в нашей T2T-сборке их пока нет.