Практикум 8.

Задание 1.

С помощью файла формата .gff был найден участок с индентификатором NW_023178552.1 , он является unplaced-scaffold10242 , который соответствует контигу join(LNAT02010262.1:1..6571). Его длина составляет 6571 пар оснований.

Рис. 1.Схема расположения генов на данном фрагменте.

На картинке: 1) на выделенном куске графика разным оттенком зеленого цвета обозначен ген LOC105234463 (ген связанного с G-протеином рецептор-ассоциированного сортирующего белка: темно-зеленым отмечаена его кодирующая область, светло-зеленым — некодирующая. Фиолетовая строчка - это отображение м-РНК с идентификатором XM_034650045.1 этого гена. Красным - кодирующая последовательность с идентификатором XP_034505936.1 гена LOC105234463.

2) Далее показано покрытие экзонами выравниваний РНК-секвенирования, отфильтрованное для удаления выравниваний с низкой значимостью и некоторых очевидных выравниваний с сохраненными интронами вблизи сплайс-переходов и масштабированное с помощью линейного масштабирующего преобразования.

Также есть схемы, показывающие 3) агрегированные RNA-seq риды, охватывающие интроны, и 4)характеристики интронов полученных из РНК-секвенирования.

Ссылка на скачивание файла с последовательностью выбранного контига в FASTA-формате.

BLAST

blastn параметры: исключены таксоны позвоночных с taxid: 1261581 и taxid:7742. Длина слова: 16 букв, кол-во показываемых находок 250. Также были отмечены параметры, уменьшающие влияние участков малой сложности, с той же целью были отмечен параметр, учитывающий наличие специфичных повторов вида большая панда.

найдено: 7 находок. Cреди них: вектор pENTR223-GPRASP2 совокупности открытых рамок считвания человека. Остальные 6 - синтетические конструкции.

Попробуем убрать параметр видоспецифичных повторов: было найдено 20 находок, среди которых уже есть предыдущие 7. Добавившиеся находки имеют более высокое е-value по-сравнению с теми, что были найдены в первый раз. Но интресно, что добавившиеся находки - синтетические конструкции разных эукариотических хромосом.

Blastn используется, если необходимо найти нуклеотидную последовательность в нуклеотидной базе данных ("Ищем гомологи гена эукриот среди генов прокариот")

megablast: Найдена 1 находка с индентичностью в 95.65%, но ее покрытие последовательности составлет 0% (в локальное выравнивание попало 23 нуклеотида).

Megablast используется для быстрого поиска почти идентичных фрагментов("картирование фрагментов последовательностей на уже известнном геноме организма")

blastx параметры: стандартные, за исключением ‘word_size’= 2. Также были исключены Vertebrata (taxid:7742), unclassified Vertebrata (taxid:2202232), Vertebrata environmental sample (taxid:1749399).

Было найдено 0 находок, а также получено сообщение, предлагающее сменить стратегию поиска

Blastxнужен для поиска гена в белковой базе данных.("Есть прокариотический ген белка. Хотим найти гомологи этого белка среди белков прокариот")

tblastx: были исключены позвоночные с taxid:1261581 и taxid:7742, word size = 2. Иcход такой же как и в blastx.

Tblastx можно использовать вместо blastx, и по идее он должен давать больше находок, т.к. учитывает все рамки считывания.

Задание 2

Индексирование генома было выполнено с помощью команды: makeblastdb -in GCF_002007445.2_ASM200744v3_genomic.fna -dbtype nucl

Для выполнения задания выданы последовательности 16S- и 23S-рРНК. Эти р-РНК участвуют в трансляции: 16S-рРНК входит в состав малой субъединицы бактериальной рибосомы, и также играет роль в инициации трансляции: последовательность Шайн-Дальгарно комплиментарна пиримидин богатой области в 16S-рРНК. А 23S-рРНК частично входит в большую субъединицу рибосомы.

Локальный поиск BLAST отдельно для каждой рРНК по полученной базе данных эукариота с помощью blastn был выполнен с помощью команд:

blastn -task blastn -query ecoli16S.fasta -db GCF_002007445.2_ASM200744v3_genomic.fna -out blast16_noe.out

blastn -task blastn -query ecoli23S.fasta -db GCF_002007445.2_ASM200744v3_genomic.fna -out blast23_noe.out

Поиск выполняется с помощью blastn т.к. необходимо провести поиск нуклеотидной последовательности в нуклеотидной базе данных (нуклеотидная последовательность — ген р-РНК, которому не будет соответствовать белок).

Интересно, что при устанавливании порога на e-value=0.05 (значение по умолчанию) находок не было найдено вообще. При меньшем word-size и наличии порога на e-value, blastn не справляется с поиском (он выполнялся бесконечно долго, а программа так и не находит ни одной находки). В указанном выше случае было наоборот найдено 14 находок с е-value 1.7 и 6.1 для 16s-рнк и 7 находок для 23S-рнк - лишь одна из которых имела e-value 0.95 (кусок 8й хромосомы у большой панды), остальные 6 находок имели e-value 3.3.

Самый приемлемый результат (относительно остальных результатов) - находка с e-value=0.95 для 23SрРНК. Она соответствует куску 8й-хромосомы "с координатами" 19500572-19500605

‘19 500 572 - 19 500 605’ - некодирующая часть перед геном обонятельного 8B3-подобного рецептора, что тоже подтверждает “случайность" находки, ее несвязанность с 23S рРНК E.coli.

Посмотреть выдачу программы blastn можно скачав файлы: 16S-рРНК, 23S-рРНК