Задание 1. Разные варианты BLAST для короткого контига
Для работы была выбрана восьмая хромосома Rana temporaria c индентификатором NC_053496.1 с длиной 190444464 bp, из которой был вырезан фрагмент длины 20,662 nt с координатами 97646312..97666973. На этом участке расположен ген NADH dehydrogenase [ubiquinone] 1 beta subcomplex subunit 8, mitochondrial (XP_040218272.1) (97647312..97665973 c длиной 18,662 nt), содержащий 5 CDS.Вырезанный фрагмент сохранён в файл.
blastn:исключен таксон Хордовые - Chordata (taxid7711).Использовались значения по умолчанию(в том числе длина слова 11, E-value 0,05) и максимальное число находок 5000. Всего получено 527 находок, среди которых много синтетических конструкций эукариот, а так же среди первых записей часто всречаются различные участки хромосом Leptodirus hochenwarti(Пещерного жука), что достаточно интересно. Blastn - алгоритм, который принимает на вход нуклеотидную последовательность и ищет похожие последовательности из нуклеотидной базы данных, обычно применяется для поиска гомологичных последовательностей ДНК или РНК, например, некодирующих белки.
megablast:исключен таксон Хордовые - Chordata (taxid7711).Использовались значение по умолчанию(в том числе длина слова 28, E-value 0,05) и максимальное число находок 100). Всего получено 9 находок, среди которых так же есть синтетические эукариотические конструкции, но почти все остальные находки относятся к организму Sympetrum striolatumСтрекоза исчерченная. Megablast - алгоритм, который принимает на вход нуклеотидную последовательность и ищет очень похожие последовательности из нуклеотидной базы данных, обычно применяется для поиска близких видов или,например, для картирования чтений на геном.
blastx:
Алгоритм транслирует заданную нуклеотидную последовательность и осуществялет поиск по белковым базам данных, что используется для посика гомологичных белков.
1 попытка: исключен таксон Хордовые - Chordata (taxid7711). Использовались значения по умолчанию(в том числе длина слова 6, E-value 0,05, 1-стандартная таблица генетического кода(для трансляции последовательности) и максимальное число находок 100. Всего получено 0 находок.
2 попытка: исключен таксон Хордовые - Chordata (taxid7711). Использовались значения по умолчанию(в том числе длина слова 6, E-value 0,05),но 2-митохондриальная позвоночных таблица генетического кода(для трансляции последовательности)) и максимальное число находок 100. Всего получено 0 находок.
3 попытка: исключен таксон Хордовые - Chordata (taxid7711). Использовались значения по умолчанию(в том числе длина слова 6,1-стандартная таблица генетического кода ),но E-value=100 (чтобы выводились все находки, практически не сортируясь по качеству) и максимальное число находок 100. Всего получено 0 находок.
4 попытка: исключен таксон Хордовые - Chordata (taxid7711). Использовались значения по умолчанию(E-value 0,05, 1-стандартная таблица генетического кода),но длина слова 2 и максимальное число находок 100. Всего получено 0 находок.
5 попытка: исключен таксон Земноводные - Amphibia (taxid:8292). Использовались значения по умолчанию(в том числе длина слова 6, E-value 0,05, 1-стандартная таблица генетического кода(для трансляции последовательности) и максимальное число находок 100. Всего получено 0 находок.
6 попытка: исключен таксон Бесхвостые - Anura (taxid:8342). Использовались значения по умолчанию(E-value 0,05, 1-стандартная таблица генетического кода(для трансляции последовательности) и максимальное число находок 100, но длина слова 2. Всего получено 0 находок.
7 попытка: исключен таксон Настоящие лягушки - Ranidae (taxid:8397). Использовались значения по умолчанию(длина слова 6, E-value 0,05, 1-стандартная таблица генетического кода(для трансляции последовательности) и максимальное число находок 100.. Всего получено 0 находок.
8 попытка: исключен таксон - Rana (taxid:8399). Использовались значения по умолчанию(длина слова 6, E-value 0,05, 1-стандартная таблица генетического кода(для трансляции последовательности) и максимальное число находок 100.. Всего получено 0 находок.
Находок не нашлось при исключении любого таксона, вплоть до рода, варьирование параметров так же не помогло. Возможное объяснение: очень длинные интронные участки(эта проблема проявилась еще при выборе фрагмента хромосомы, так как гены кодируюся очень большими последовательностями, в которых экзонные области крайне малы, поэтому пришлось брать фрагмент длиною 20 тысяч нуклеотидов).
tblastx:
Агоритм транслирует полученную нуклеотидную последовательность в белок и ищет схожие последовательности в нуклеотидной базе данных, транслированной в шести рамках считывания, что используется для нахождения похожих непредсказанных белков.
1 попытка: исключен таксон Хордовые - Chordata (taxid7711). Использовались значения по умолчанию(длина слова 3, E-value 0,05, 1-стандартная таблица генетического кода и максимальное число находок 100. Всего получено 0 находок.
2 попытка: исключен таксон Хордовые - Chordata (taxid7711). Использовались значения по умолчанию(длина слова 3, 1-стандартная таблица генетического кода и максимальное число находок 100, но E-value 100. Всего получено 0 находок.
3 попытка: исключен таксон Земноводные - Amphibia (taxid:8292). Использовались значения по умолчанию(длина слова 3, 1-стандартная таблица генетического кода и максимальное число находок 100, но E-value 100. Всего получено 0 находок.
4 попытка: исключен таксон Бесхвостые - Anura (taxid:8342). Использовались значения по умолчанию(длина слова 3, 1-стандартная таблица генетического кода и максимальное число находок 100, но E-value 100. Всего получено 0 находок.
5 попытка: исключен таксон Настоящие лягушки - Ranidae (taxid:8397). Использовались значения по умолчанию(длина слова 3, 1-стандартная таблица генетического кода и максимальное число находок 100, но E-value 100. Всего получено 0 находок.
6 попытка: исключен таксон - Rana (taxid:8399). Использовались значения по умолчанию(длина слова 3, 1-стандартная таблица генетического кода и максимальное число находок 100, но E-value 100. Всего получено 0 находок.
Снова не нашлось ничего при исключении вплоть до рода. Для понимания причины,я сделала поиск c включением рода Rana, и оказалось, что в выдаче 449 находок, каждая является предсказанной (PREDICTED) у моего же организма Rana temporaria.
Задание 2. Поиск в геноме эукариота генов основных рибосомальных РНК по далекому гомологу
Последовательность генома Rana temporaria была проиндексирована командой
Для выполнения задачи был использован blastn, так как исходная последовательность не является белок-кодирующей, а виды не близкие. После применения команды были получены файлы blastn_16S.out и blastn_24S.out, в первом 13 находок, во втором - 75.
В результате локального поиска BLAST для 16s рРНК были найдены гомологи этой рРНК в базе данных на основе геномаRana temporaria - 18S рРНК на 12 хромосоме и метилмалонил-КоА мутаза, митохондриальная на 4 хромосоме (для них E-value=1.33e-04, самое низкое в выдаче).
В результате локального поиска BLAST для 24s рРНК были найдены гомологи этой рРНК в базе данных на основе геномаRana temporaria - псевдоген на 12 хромосоме (E-value=6.78e-18, самое низкое среди выдачи), 28S рРНК на 12 хромосоме (E-value=8.25e-17).
16s рибосомальная РНК является компонентом 30s субъединицы прокариотической рибосомы. Таким образом, она является частью малой субъединицы рибосомы. 16s рРНК играет важную роль в стабилизации механизма трансляции вместе с рибосомой.18s рРНК или 18s рибосомальная РНК входит в состав эукариотической рибосомальной субъединицы 40s. Таким образом, она является компонентом малой субъединицы эукариотической рибосомы. 18s рРНК, связанная с рибосомой, играет важную роль в инициации трансляции у эукариот[1].
24s рибосомальная РНК является частью большой субъединицы прокариотической рибосомы. 28s рибосомальная рРНК является частью большой субъединицы эукариотической рибосомы.