Для анализа была взята консенсусная последовательность из практикума 6.
Средством для определения функции и таксономии был выбран blastn, так как об исследуемой последовательности неизвестно ничего, и требуется предположить вид и функцию последовательности. Для этого нужно искать сколько-нибудь похожие гомологи. blastx и tblastx использовать нельзя, так как неизвестно, транслируется ли данная последовательность.
Были использованы общие параметры алгоритма по умолчанию: Max target sequences: 100, Expect threshold: 0.05, Word size: 11. Параметры вычисления счета выравнивания также были оставлены по умолчанию: совпадение: 2, несовпадение: -3, открытие инделя: 5, продолжение: 2. База данных: Nucleotide collection (nr/nt). Выдача доступна по ссылке.
Действительно, последовательность не кодирует какой-либо из белков. Согласно выдаче BlAST она однозначно определяется как фрагмент гена 18s рРНК (все находки).
Среди наиболее вероятных гомологов выделяются выравнивания, имеющие похожий счет и идентичность, с последовательносями из Pharyngocirrus tridentiger (две самых лучших находки для вида, четыре - для рода) и Saccocirrus sp. (21 находка) Таким образом, однозначно род и вид установить не удается, а семейство однозначно определяется как Saccocirridae (25 находок).
Для исследования был выбран контиг LNAT02000021.1 из генома большой панды (Ailuropoda melanoleuca) из практикума 7. В качестве средства для поиска гомологов был использован blastx, так как требуется найти гены, кодирующие реальные белки. По этой же причине поиск был осуществлен в базе данных Swiss-prot.
Параметры алгоритма были оставлены по умолчанию, так как выглядели оптимальными по времени выполнения запроса для такого большого контига (примерно 35 килобаз). Параметры алгоритма: Max target sequences: 100, Expect threshold: 0.05, Word size: 6, матрица: BLOSUM62, открытие инделя: 11, удлинение инделя: 1. С выдачей для запроса можно ознакомиться по ссылке.
В выдаче было всего три находки, лучшие две из которых однозначно указывали на ретротранспозон, относящийся к днинным диспергированным элементам (long interspersed elements, LINEs), конкретно LINE-1 retrotransposable element ORF2 protein. Третья указывала на белок-гомолог той же обратной транскриптазы.
Были выбраны геномы Sinorhizobium meliloti (NC_020528.1) и Sinorhizobium fredii (NZ_CP029451.1).
Для построения точечного графика был использован megablast со следующими параметрами: Expect threshold: 0.01, Word size: 16, Match/Mismatch Scores: 1/-2, Gap Costs: Linear.
Из графика видно, что на сравнительно небольшом участке в середине (1650-1900 K) произошли, скорее всего, две инверсии, а также четыре вставки или делеции. Разрыв прямой линии в начале (0-400 K) означает лишь то, что последовательности кольцевых геномов начинаются с разных участков. Смещение в районе 1050 К означает вставку или делецию участка размером примерно 100 К. Разрывы означают негомологичные участки, где могут находиться, учитывая их размер, например, геномные острова. Однако для подтверждения таких гипотез все же стоит хотя бы проверить GC-состав. На графике наблюдается интенсивный шум, который указывает на большое эволюционное расхождение между рассмотренными видами.