Нуклеотидный BLAST

Задание 1. Разные варианты BLAST для короткого контига

Для работы была выбрана восьмая хромосома Rana temporaria c индентификатором NC_053496.1 с длиной 190444464 bp, из которой был вырезан фрагмент длины 20,662 nt с координатами 97646312..97666973. На этом участке расположен ген NADH dehydrogenase [ubiquinone] 1 beta subcomplex subunit 8, mitochondrial (XP_040218272.1) (97647312..97665973 c длиной 18,662 nt), содержащий 5 CDS.Вырезанный фрагмент сохранён в файл.

Рис1.Выбранный участок хромосомы. Обозначены: зеленым-ген, красным-мРНК, желтым-CDS
  1. blastn:исключен таксон Хордовые - Chordata (taxid7711).Использовались значения по умолчанию(в том числе длина слова 11, E-value 0,05) и максимальное число находок 5000. Всего получено 527 находок, среди которых много синтетических конструкций эукариот, а так же среди первых записей часто всречаются различные участки хромосом Leptodirus hochenwarti(Пещерного жука), что достаточно интересно. Blastn - алгоритм, который принимает на вход нуклеотидную последовательность и ищет похожие последовательности из нуклеотидной базы данных, обычно применяется для поиска гомологичных последовательностей ДНК или РНК, например, некодирующих белки.
  2. megablast:исключен таксон Хордовые - Chordata (taxid7711).Использовались значение по умолчанию(в том числе длина слова 28, E-value 0,05) и максимальное число находок 100). Всего получено 9 находок, среди которых так же есть синтетические эукариотические конструкции, но почти все остальные находки относятся к организму Sympetrum striolatumСтрекоза исчерченная. Megablast - алгоритм, который принимает на вход нуклеотидную последовательность и ищет очень похожие последовательности из нуклеотидной базы данных, обычно применяется для поиска близких видов или,например, для картирования чтений на геном.
  3. blastx:
      Алгоритм транслирует заданную нуклеотидную последовательность и осуществялет поиск по белковым базам данных, что используется для посика гомологичных белков.
    • 1 попытка: исключен таксон Хордовые - Chordata (taxid7711). Использовались значения по умолчанию(в том числе длина слова 6, E-value 0,05, 1-стандартная таблица генетического кода(для трансляции последовательности) и максимальное число находок 100. Всего получено 0 находок.
    • 2 попытка: исключен таксон Хордовые - Chordata (taxid7711). Использовались значения по умолчанию(в том числе длина слова 6, E-value 0,05),но 2-митохондриальная позвоночных таблица генетического кода(для трансляции последовательности)) и максимальное число находок 100. Всего получено 0 находок.
    • 3 попытка: исключен таксон Хордовые - Chordata (taxid7711). Использовались значения по умолчанию(в том числе длина слова 6,1-стандартная таблица генетического кода ),но E-value=100 (чтобы выводились все находки, практически не сортируясь по качеству) и максимальное число находок 100. Всего получено 0 находок.
    • 4 попытка: исключен таксон Хордовые - Chordata (taxid7711). Использовались значения по умолчанию(E-value 0,05, 1-стандартная таблица генетического кода),но длина слова 2 и максимальное число находок 100. Всего получено 0 находок.
    • 5 попытка: исключен таксон Земноводные - Amphibia (taxid:8292). Использовались значения по умолчанию(в том числе длина слова 6, E-value 0,05, 1-стандартная таблица генетического кода(для трансляции последовательности) и максимальное число находок 100. Всего получено 0 находок.
    • 6 попытка: исключен таксон Бесхвостые - Anura (taxid:8342). Использовались значения по умолчанию(E-value 0,05, 1-стандартная таблица генетического кода(для трансляции последовательности) и максимальное число находок 100, но длина слова 2. Всего получено 0 находок.
    • 7 попытка: исключен таксон Настоящие лягушки - Ranidae (taxid:8397). Использовались значения по умолчанию(длина слова 6, E-value 0,05, 1-стандартная таблица генетического кода(для трансляции последовательности) и максимальное число находок 100.. Всего получено 0 находок.
    • 8 попытка: исключен таксон - Rana (taxid:8399). Использовались значения по умолчанию(длина слова 6, E-value 0,05, 1-стандартная таблица генетического кода(для трансляции последовательности) и максимальное число находок 100.. Всего получено 0 находок.
    Находок не нашлось при исключении любого таксона, вплоть до рода, варьирование параметров так же не помогло. Возможное объяснение: очень длинные интронные участки(эта проблема проявилась еще при выборе фрагмента хромосомы, так как гены кодируюся очень большими последовательностями, в которых экзонные области крайне малы, поэтому пришлось брать фрагмент длиною 20 тысяч нуклеотидов).
  4. tblastx:
      Агоритм транслирует полученную нуклеотидную последовательность в белок и ищет схожие последовательности в нуклеотидной базе данных, транслированной в шести рамках считывания, что используется для нахождения похожих непредсказанных белков.
    • 1 попытка: исключен таксон Хордовые - Chordata (taxid7711). Использовались значения по умолчанию(длина слова 3, E-value 0,05, 1-стандартная таблица генетического кода и максимальное число находок 100. Всего получено 0 находок.
    • 2 попытка: исключен таксон Хордовые - Chordata (taxid7711). Использовались значения по умолчанию(длина слова 3, 1-стандартная таблица генетического кода и максимальное число находок 100, но E-value 100. Всего получено 0 находок.
    • 3 попытка: исключен таксон Земноводные - Amphibia (taxid:8292). Использовались значения по умолчанию(длина слова 3, 1-стандартная таблица генетического кода и максимальное число находок 100, но E-value 100. Всего получено 0 находок.
    • 4 попытка: исключен таксон Бесхвостые - Anura (taxid:8342). Использовались значения по умолчанию(длина слова 3, 1-стандартная таблица генетического кода и максимальное число находок 100, но E-value 100. Всего получено 0 находок.
    • 5 попытка: исключен таксон Настоящие лягушки - Ranidae (taxid:8397). Использовались значения по умолчанию(длина слова 3, 1-стандартная таблица генетического кода и максимальное число находок 100, но E-value 100. Всего получено 0 находок.
    • 6 попытка: исключен таксон - Rana (taxid:8399). Использовались значения по умолчанию(длина слова 3, 1-стандартная таблица генетического кода и максимальное число находок 100, но E-value 100. Всего получено 0 находок.
    • Снова не нашлось ничего при исключении вплоть до рода. Для понимания причины,я сделала поиск c включением рода Rana, и оказалось, что в выдаче 449 находок, каждая является предсказанной (PREDICTED) у моего же организма Rana temporaria.

Задание 2. Поиск в геноме эукариота генов основных рибосомальных РНК по далекому гомологу

Последовательность генома Rana temporaria была проиндексирована командой

makeblastdb -in GCF_905171775.1_aRanTem1.1_genomic.fna -dbtype nucl

Были выданы последовательности 16S рРНК и 24S рРНК

Локальный поиск BLAST отдельно для каждой рРНК по полученной базе данных:

blastn -task blastn -query 16S_ecoli.fasta -db GCF_905171775.1_aRanTem1.1_genomic.fna -out blastn_16S.out -outfmt 7
blastn -task blastn -query 24S_ecoli.fasta -db GCF_905171775.1_aRanTem1.1_genomic.fna -out blastn_24S.out -outfmt 7

Для выполнения задачи был использован blastn, так как исходная последовательность не является белок-кодирующей, а виды не близкие. После применения команды были получены файлы blastn_16S.out и blastn_24S.out, в первом 13 находок, во втором - 75.

В результате локального поиска BLAST для 16s рРНК были найдены гомологи этой рРНК в базе данных на основе геномаRana temporaria - 18S рРНК на 12 хромосоме и метилмалонил-КоА мутаза, митохондриальная на 4 хромосоме (для них E-value=1.33e-04, самое низкое в выдаче).

В результате локального поиска BLAST для 24s рРНК были найдены гомологи этой рРНК в базе данных на основе геномаRana temporaria - псевдоген на 12 хромосоме (E-value=6.78e-18, самое низкое среди выдачи), 28S рРНК на 12 хромосоме (E-value=8.25e-17).

16s рибосомальная РНК является компонентом 30s субъединицы прокариотической рибосомы. Таким образом, она является частью малой субъединицы рибосомы. 16s рРНК играет важную роль в стабилизации механизма трансляции вместе с рибосомой.18s рРНК или 18s рибосомальная РНК входит в состав эукариотической рибосомальной субъединицы 40s. Таким образом, она является компонентом малой субъединицы эукариотической рибосомы. 18s рРНК, связанная с рибосомой, играет важную роль в инициации трансляции у эукариот[1].

24s рибосомальная РНК является частью большой субъединицы прокариотической рибосомы. 28s рибосомальная рРНК является частью большой субъединицы эукариотической рибосомы.

Список литературы

  1. https://www.differencebetween.com/what-is-the-difference-between-16s-and-18s-rrna/#16s%20rRNA