Практикум 8

Задание 1

Была использована последовательность из практикума 6. Для поиска использовался blastn с параметрами по умолчанию. Полученный результат:

Совпадение в 100% не оставляет сомнений в том, что эта последовательность является митохондриальным геном, кодирующим I субъединицу цитохром оксидазы организма Polycirrus medusa из рода Polycirrus

Задание 2

Последовательность из пункта 1

Из выдачи был исключен род Polycirrus, рассматривались только находки с e-value < 0.001

Таким образом, сравнение выдачи демонстрирует, что для данного поиска существенной разницы в параментах blastn нет, однако можно отметить, что при запросе с более чувствительными параметрами E-value стал на несколько порядков больше. Megablast выдает примерно те же результаты, но в другом порядке. Значение E-value в выдаче megablast ещё больше, чем в выдаче blastn

Последовательность из практикума 7

Я использовал последовательность одной из CDS из генома вируса Halovirus HRTV-8:

>lcl|NC_021321.1_cds_YP_008058573.1_7 [gene=8] [locus_tag=M192_gp124] [db_xref=GeneID:16194746] [protein=terminase large subunit] [protein_id=YP_008058573.1] [location=3088..4785] [gbkey=CDS]
ATGGAGGAAATAGCTGAACAGTTCGCCTCTGAGAGCGATGCTGACGTTGATGCGTTGCTCGAAAGGTGGA
ACGGTCGCCCCGACCTTCTCGCTGAGGACATTCTCCGGGCGAAGAATCTGACTACGGACGAAATTGAGCC
GCTGAAGCTCTTTCGACCGTATCAGCCCCGGATTATGCACGCCTACTTCTACGGCGATGCTAAGATTCTG
AACATCTACAAGGGGCGGCGGATTGGCGTTTCCTACGTAATTGGCATCTGTATTCTGCTTGAGGCGCTTC
TCAAGCCGGATACGTTCTACCCCATTCTCTCGAAGACCAAGGGGCAGTCTAATTCGAGGATTAGTGACAT
TAAGACGCTAATCAAGAACGCGAAAATCGACATTGAGCTGGAAAAGGACAATCAGGACGAGATTGTTCTC
TCGAACGGCTCGCGTATCAAGGCGTACACGGGCGACCCGGACTCCGCTCGTGGTGAAGACCCCCCGAAGA
CGGTCTTCATTGACGAGATGGCTTTCCTCGAAGACCAGAGCGCCACCCTCGATGCGTATTTGCCGACGAT
TTCTCTCGGCTCAAGTCAGATGGTTCAGGTGTCCACGCCTAAGGCCCCGAACGACGAGTTCATGGAGGCG
AACGAGCGTGGAACCGCCGATGGTCAAAACGACTTCGGGATTCTCGCGCTGAAACAGCCGACGTTCAGGA
ACGCAGACGAGATTCAGACTGACGTTTCGCTGTTCGAGCAGGACGTTGAACCCGTCCGGGGTGACTTCGA
CCTGATGGCGGCTGAGACTCAGCGAGCCAGCGACCCCAACGGCTTCGCACAAGAGTATCTGTGCCGCCCT
GTGAGCGACGAGTACCGTTTCTTCTCTATGCCTACCATAGAGGCCGCGATGGAGCGTGGGGCCGCTCAGG
ACTACTCCTACGGCCTCAGGCGGTACGACACTCCGAACACTCTGGTTATGGGTGTGGACATTGGGTTCAA
TTCCGACGACACGGCGATTGTGGTCTTCGAGCATGAAGGCCCGCGTCGGTACTGCCGGTACAAGGAGGTC
GTGAACGACCGCGTGCTTTCGCAGGCGGGAATCACTCCATCGAGTCGGCAGAACCCGGCGGCGGTGGCCG
AACGTATCTCTCAGGTCTATCACTCGATGGGCGTTTCCAACGTCGTGATGGACATGACGGGCGTGGGACA
GGGGTTCCACGACGAGGTTCGTCGGCGTATCGGTCGCGGCTATACGGGGTTCAACTTCTCCGCGAAGGAC
AAGGTGGAGAAGATGATGGGCAACATGAATTACGCCCTTCACAACGACCTCGTTACTCTCCCCGAGGACG
ATTCCCTCCGAGAACAACTCGGCTCGATTGTCAAACAGCAGAAGGAAGATTGGCAGAAGCCGAAGTTCAC
GGGGAAGGAACACGCCCCCGAGGGGAAGGACGACCTCGCTATGGCGACCGTGCTGGCGGCGTTCCCTCCG
AACTTCAAGGCCGACAAGTCGCGGAACCTCCAACAGCGCGAGGACGTGACCCCTTCGGTTCAAGTGGACG
AACCGCAGGAACGTGACGGATGGGCGGGCTTGAAGATTAGCGGCACGTCCGGTGGCGGTCGAGGTCGCGG
CTACGCTCTGTCTCACGGACGCGAGAAGCGCGGATACAAAGCACGAAACAGACGCCGCTCTACGGAAAGA
CGGCGACGAAAGTTCTAA

4 лучших находки оказались одинаковы для megablast и blastn, в то время как выдача blastn также содержала несколько более плохих находок, что закономерно, так как blastn более чувствительна. От параметров blastn выдача так же практически не зависит. Самой лучшей находкой во всех выдачах закономерно оказался геном, из которого была взята CDS.

Задание 3

Последовательности белков для этого задания я брал из организма Saccharomyces cerevisiae. Был произведен поиск гомологичных белков в неаннотированном геноме Amoboaphelidium protococarum.
Для этого сначала при помощи команды
makeblastdb -in X5.fasta -dbtype nucl
была создана локальная база данных. Для поиска использовался tblastn при помощи команды:
tblastn -query actin.fasta -db X5.fasta -out actin.out

  1. Актин - один из двух ключевых белков актин-миозинового комплекса. Для него выдача получилось:
     Score =  721 bits (1861),  Expect = 0.0, Method: Compositional matrix adjust.
     Identities = 333/375 (89%), Positives = 363/375 (97%), Gaps = 0/375 (0%)
     Frame = -2

    Покрытие 100%. Судя по высокому значению Identity и 0 значению e-value можно предположить, гомолог актина есть
  2. Миозин - второй из ключевых белков актин-миозинового комплекса. Для него выдача получилось:
          
     Score =  686 bits (1770),  Expect = 0.0, Method: Compositional matrix adjust.
     Identities = 408/943 (43%), Positives = 558/943 (59%), Gaps = 96/943 (10%)
     Frame = -3

    Покрытие 90%. Для миозина уровень сходства существенно ниже, чем для актина, но все ещё достаточно высок, чтобы можно было сделать ввод о гомологии. Возможно белки гомологичны, но их функции существенно изменились
  3. Тубулин является составляющей частью микротрубочек. Для него выдача получилось:
          
     Score =  676 bits (1744),  Expect = 0.0, Method: Compositional matrix adjust.
     Identities = 338/451 (75%), Positives = 385/451 (85%), Gaps = 22/451 (5%)
     Frame = -2
    

    Покрытие 95%. Для Тубулина все показатели также говорят о гомологичности

Задание 4

Я взял scaffold-514 из сборки Amoboaphelidium protococarum длиной 59281 нуклеотида. (Информация о длине контигов была получена при помощи команды infoseq X5.fasta -only -name -length) Его последоательность была получена при помощи команды seqret X5.fasta:scaffold-514 -out sc514.fasta. Поиск был проведен при помощи blastx на сайте ncbi по RefSeq среди Opistoconta, к которым относится Amoboaphelidium protococarum



Результаты выдачи представлены на картинке. Можно предположить, что ген кодирует фимбрин