Задание 1

Выбранный ранее органзим - Clupea harengus (атлантическая сельдь).

Выбранный CDS
  • Идентификатор нуклеотидной записи, откуда был взят фрагмент: NC_045174.1 (23 хромосома)
  • Координаты участка: 12001700..12009595 (длина 7896 нуклеотидов). В этот участок попал ген coasy. Этот ген кодирует бифункциональную протеин-коэнзим А синтазу.
  • На картинке изображено несколько вариантов первичных транскриптов, которые могут получаться с исходного гена. В данным случае этих вариантов два.
  • Длина CDS: 7896 нуклеотидов
  • Ссылка на файл последовательности данного фрагмента в формате FASTA.

Для сравнения был выбран класс Mammalia. Выбранный таксон является сестринским относительно филума Chordata

Fig.1. Данный ген (coasy) закодирован между 12,002,313..12,009,230 позициями. Общая длина: 6,918 п.н. Зеленым изображен ген. Синим и красным - возможные транскрипты. Более широкая линия - экзоны, узкая - интроны. Далее две строчки оторбражают покрытие RNA-seq. Нижний блок - характеристики интронов по данным RNA-seq.
Результаты поиска
  • blastn: найдено 46 последовательностей, длина слова - 16
  • megablast: найдено 16 последовательностей, длина слова - 16
  • blastx: найдено 86 последовательностей, длина слова - 3
  • tblastx: результатов найти не удалось "CPU usage limit was exceeded". Попытки изменить параметры поиска на более мягкие не изменили ситуацию.
Для чего используются алгоритмы blastn, megablast, blastx, tblastx

blastn: Хорошо использовать для поиска гомологов нуклеотидной последовательности. Особенно для неблизкородственных организмов. Например, если ищем гомологи некого гена для предсказания его потенциальной фукнции.

megablast: Быстроработающий алгоритм, в поиске выдаются последовательности с максимальной идентичностью. Полезен, например, при картировании генома при наличии аннотированного генома близкого родственника.

blastx: Транслирует исходную нуклеотидную последовательность в белковую и ищет гомологи в базе данных белковых последовательностей. Пример использования - если хотим посмотреть на аминокислотные различия в составе белка у близкородственных организмов. Blastn в таком случае не учитывает синонимичные замены не приводящие к смене аминокислоты.

tblastx: Транслирует исходную нуклеотидную последовательность в белковую и ищет гомологи в базе данных транслированных нуклеотидных последовательностей. Показан к применению, если необходимо найти гомологи белок-кодирующего гена среди организмов, у которых отсутсвтуют данные об их последовательности протеома. Blastn в таком случае опять же не учитывает синонимичные замены.

Задание 2. Найдите в геноме эукариота гены основных рибосомальных РНК по далекому гомологу

Индексация генома:

makeblastdb -in GCF_900700415.2_Ch_v2.0.2_genomic.fna -dbtype nucl

16S рРНК входит в состав малой субъединицы, 23S рРНК в состав большой субъединицы рибосомы у прокариот.

Функции 16S-субъединицы: вязывается с факторами инициации трансляции, каркасная функция, узнаёт и связывает последовательности Шайна-Дальгарно.

Функции 23S-субъединицы: каркасная функция, входит в пептидилтрансферазный центр на рибосоме.

Был выбран blastn так как используются некодирующие белок последовательности неродственных организмов:

blastn -task blastn -query 16s.fna -db 'GCF_900700415.2_Ch_v2.0.2_genomic.fna' -out 16s.out -outfmt 7 -evalue 0.01
blastn -task blastn -query 23s.fna -db 'GCF_900700415.2_Ch_v2.0.2_genomic.fna' -out 23s.out -outfmt 7 -evalue 0.01

Опция -evalue=0.05 для отброски совсем плохих находок. Опция -outfmt=7 для выдачи в виде таблицы

Скачать выдачу blastn для 16S и 23S

Результаты поиска

16S: 2 хромосомы (18, 9) и 1 unplaced genomic scaffold. Всего 3 находки

23S: 15 находок по хромосомам: 2, 19, 4(2 находки), 26(2 находки), 8 (2 находки), 5, 6, 10, 24, 18, 9, 17 хромосомы. Четыре находки в unplaced genomic scaffold

Как мы видим, обе рРНК имеют сходство с участками 18 и 9 хромосом. На 18 хромосме совпадения только с некодирующими (или неаннотированными) областями генома. На 9 хромосоме для 23S есть находка на позиции 30245997..30246031, которая соответсвует гену fat3a, предполагаемая функция которого - связывание ионов кальция и участие клеточной адгезии. Остальные находки на 9 и 18 хромосоме принадлежали к неаннотированным участкам.

Остальные находки для 23S

На 2 хромосоме ген epha3. Ген рецептора эфрина, участвует в развитии нервной системы. 19 хромосома - участок гена serpinf1, кодирующего белок из семейства серпинов, ингибитор пептидаз. 4 хромосома - ген plxna2. Этот ген кодирует члена семейства корецепторов семафоринов плексина-А, который оказывает отталкивающее воздействие на поиск путей аксонов во время развития нервной системы. 26 хромосома - ген LOC105897349 - интегрин alpha-M-like.

Все находки для 16S имеют длину выравнивания меньше 50 нуклеотидов. Для 23S находки имеют большую длину выраванивания - до 175 нуклеотидов. При этом нашлось две находки, расположенных на неаннотированном скаффолде NW_024880148.1 и второй хромосоме NC_045153.1. При этом они обе имеют идентичные параметры выравнивания: процент идетичности, e-value, попавший в выравнивание участок последовательности 23S рРНК тоже одинаковый. Возможно, скаффолд NW_024880148.1 на самом деле принадлежит второй хромосоме.

Итого, для 16S рРНК все находки имеют слишком малую длину выравнивания. Для 23S рРНК чуть больше, но все еще довольно небольшую. Процент идентичности для более длинных находок не превыщает 75, для коротких он конечно выше, но вряд ли мы может считать их значимыми, если длина выравнивания в этих случаях 30-40 нуклеотидов. Таким образом, аннотация найденных находок не совпадает с ожидаемой и вряд ли мы можем выделить действительно значимые находки, которые могут являться гомологами генов 16S и 23S рРНК. Действительно, при поиске в NCBI генов 18S и 28S rRNA у Clupea harengus, таких просто не находилось, вероятно они неаннотированы.