Практикум 8

Нуклеотидный BLAST

Автор старался, но не может гарантировать отсутствие биологических ошибок.

1. Разные варианты BLAST для фрагмента ДНК

The royal couple)
Рисунок 1. Напоминание о том, кто такие Panthera leo. Автор фотографии: Haley White, National Geographic Your Shot .

В геноме Panthera leo из 7 практикума был взят участок, внутри которого содержится ген GJA3, кодирующий белок альфа-3 щелевого соединения (gap junction alpha-3 protein). Идентификатор нуклеотидной записи, откуда был взят фрагмент (GeneID): 122229570. Координаты GJA3: complement(1110560..1111915), соотвественно длина - 1355 п.н. Изначально был выбран фрагмент от 1108600 до 1129338 (длина - 20738 п.н.), содержащий не только CDS, но и весь ген с мРНК (ссылка на NCBI Graphics). На рисунке 2 показана схема расположения CDS на выбран фрагменте (показан красным), также видно участок, кодирующий мРНК (фиолетовый) и весь ген (зеленый). Другие белок-кодирующие области в выбранный фрагмент не вошли. Далее при поиске гомологичных последовательностей алгоритмами BLAST было обнаружено, что чрезмерно крупный фрагмент только понижает процент покрытия, но не влияет на список находок. Решено было сократить исследуемый участок и взять фрагмент от 1110500 до 1112000 (длина - 1501 п.н.) - представлен на рисунке 3. FASTA-файлы с последовательностями первоначального и выбранного фрагмента.

NCBI graphic fragment
Рисунок 2. Схема расположения аннотированных элементов в фрагменте [1108600..1129338]. Зеленым показан ген GJA3, фиолетовым - мРНК, красным - область, кодирующая белок (XP_042811140.1).
NCBI graphic fragment
Рисунок 3. Схема расположения аннотированных элементов в выбранном фрагменте [1110500..1112000]. Зеленым показан ген GJA3, фиолетовым - мРНК, красным - область, кодирующая белок (XP_042811140.1).

В качестве целевого таксона, в котором будет осуществляться поиск BLAST, была выбрана группа Unidentata - клада чешуйчатых рептилий, объединяющая Scinciformata, Laterata, Toxicofera, среди представителей есть змеи, игуаны, поясохвосты и другие. На рисунке 4 можно посмотреть на одного из их представителей - ящерицу, названную в честь фантастического дракона Смауга. Львы относятся к млекопитающим (Mammalia), Unidentata - к пресмыкающимся (Reptilia), оба класса относятся к типу хордовые (Chordata). Далее выполнялся поиск гомологичных последовательностей с использованием различных методов BLAST. Для запусков всех из них использовался в качестве последовательности запроса fasta-файл, поиск вёлся по коллекции данных для организмов из группы Unidentata (taxid:1329950), в остальном сохранялись параметры по умолчанию, если иное не указано.

Smaug giganteus
Рисунок 4. Представитель Unidentata - гигантский поясохвост (Smaug giganteus). Автор фотографии: S Hivan Parusnath.
tblastx results
Рисунок 9. Графическое представление лучших по e-value 10 результатов tblastx для nucleotide collection (nr/nt). Alignment score для разных цветов: красный при >=200, розовый при 80-200, черный <40.
tblastx refseq results
Рисунок 10. Графическое представление лучших по e-value 10 результатов tblastx для refseq representative genomes (refseq_representative_genomes). Alignment score для разных цветов: красный при >=200, розовый при 80-200, синий 40-50, черный <40.

2. Поиск в геноме эукариота генов основных рибосомальных РНК по далекому гомологу

После многодневных страданий, связанных с установкой blast+, удалось получить локальный BLAST на своем ноутбуке. Далее была проведена индексация последовательности генома P. leo:

$ makeblastdb -in 'P.leo_genomic.fasta' -dbtype 'nucl'
Были скачены последовательности рРНК E. coli из преложенного файла. В файле содержались следующие рРНК: Локальный поиск BLAST проводился отдельно для последовательности каждой рРНК в файле: 16S и 23S (последовательности были разделены на соответствующие txt файлы). Для поставленной задачи выбрала blastn, потому что работала с последовательностями некодирующих генов для неблизкородственных организмов (эукариоты и прокариоты). Локальный поиск для каждой рРНК:
$ blastn -task blastn -query 16S_rRNA.txt -db P.leo_genomic.fasta -out ~/blast16.out -evalue 0.05
$ blastn -task blastn -query 23S_rRNA.txt -db P.leo_genomic.fasta -out ~/blast23.out -evalue 0.05
Файлы с результатами BLAST для 16S и 23S рРНК.
Размер затравки был оставлен 11 (по умолчанию для blastn), evalue опущено до 0.05 (как в веб-версии). Остальные параметры запуска касались исключительно расположения и названия файлов. Для анализа результатов показалась удобнее выдача для 16S и 23S в формате таблицы (добавление параметра -outfmt со значением 7):
$ blastn -task blastn -query 16S_rRNA.txt -db P.leo_genomic.fasta -out blast16.out -evalue 0.05 -outfmt 7
$ blastn -task blastn -query 23S_rRNA.txt -db P.leo_genomic.fasta -out blast23.out -evalue 0.05 -outfmt 7
Для обоих последовательностей рРНК удалось найти гомологов.
Для 16S рРНК число находок = 7, для всех есть аннотация и все соответствуют участкам 18S рРНК генома P. leo. Идентификаторы гомологичных 18S рРНК (по порядку следования выравниваний): XR_006196888.1, XR_006196890.1, XR_006196891.1, XR_006196892.1, XR_006196893.1, XR_006196895.1, XR_006196894.1. Не смотря на малую длину покрытия в 43 п.н. (при длине последовательности 16S рРНК для E. coli в 1556 п.н.), мне эти находки не кажутся случайными, потому что все гомологичные участки соотвествуют рРНК и участок выравнивания у E. coli был постоянным (1494..1536).
Для 23S рРНК число находок = 31. Из значимых и приятных находок - 28S рРНК (их идентификаторы: XR_006196897.1, XR_006196898.1, XR_006196902.1, XR_006196899.1, XR_006196901.1, XR_006196896.1). Примечательно, что находок для 28S рРНК по четыре на каждую и каждый раз картировался иной фрагмент последовательности E.coli на иной фрагмент генома P. leo, причем порядок следования фрагментов соблюдался. На мой взгляд, это подтверждает, гомологию эукариотических рРНК с данной прокариотической. Из интересного: для XR_006196899.1 найденные гомологичные последовательности были перевернуты во всех четырех случаях (возможно у львов произошла инверсия для данной рРНК). Остальные 7 находок не представляют особого смысла (3 фрагмента не имели аннотации, 3 аннотировались на белок XM_042916655.1, 1 на белок XP_042772540.1).

Список источников

  1. 16S рРНК;
  2. 23S рРНК.

//а также все гиперссылки, присутствующие в смысловой части практикума