Банки нуклеотидных последовательностей.


Задание 1. Сборка генома эукариотического организма.

В качестве организма была выбрана Equus przewalskii (Лошадь Пржевальского). Лошадь Пржевальского — единственный вид диких лошадей, сохранившийся на нашей планете. Для науки этот вид был открыт лишь в 1879 г. и получил свое название в честь имени первооткрывателя — путешественника Николая Пржевальского.



  • Число сборок генома = 1. (завершенна на уровне сборки скэффолдов: Assembly level: Scaffold)
  • Число проектов по секвенированию организма = 3 : PRJNA253941, PRJDB1946, PRJNA200657.
  • Число образцов = 1: SAMN02808398.

  • Исходная таблица


  • BioSample ID = SAMN02808398
  • BioProject ID = PRJNA200657
  • Assembly ID = GCA_000696695.1


  • описание образца SAMN02808398 (BioSample) с сайта NCBI (сайт)


    В описании указано следующее:
  • Идентификаторы образца: SAMN02808398 (в базе данных NCBI Genomes); ATBW (в базе данных GenBank).

  • Систематическое положение вида: относится к роду Equus (Лошади), семейству Equidae (Лошадиные), отряду Perissodactyla (Непарнокопытные, или непарнопалые), более подробная номенклатура представлена на рисунке выше.

  • характеристика организма:

    пол - самец
    географическое положение - Синьцзян-Уйгурский автономный район (Китай)

    дата сбора - 12/02/12

    Изолят (субпопуляция) - Burgud

    описание проекта (BIOPROJECT ID - PRJNA200657)

    Ссылка на страницу BioProject PRJNA200657

    На странице приведена аннотация к проекту:

    Перевод аннотации: Currently, Przewalski’s horse (Equus przewalskii) is the only wild horse species survived in the world. The total number is around 2000 and distribute in wild and zoos. Przewalski’s horse is about 132cm height, , shorter than the domestic horse. Like other wild equids, it has black dorsal stripe, black tail and black erect mane without forelock. The most distinctive feature is the color of its coat: sandy. All of przewalski’s horse are come from 12 ancestors. It has 66 chromosomes which is different with the domestic horse (2n=64). Having its genome sequence could help to understand the genetic relationship between przewalski and domestic horse and is conducive for the protection of przewalski’s horse.

    Также на странице проекта приведен ряд его параметров:

  • Project Data Type:Genome sequencing; Locus Tag Prefix:L233

  • Attributes:Scope: Monoisolate; Material: Genome; Capture: Whole; Method type: Sequencing

  • Relevance:Agricultural

  • Параметры сборки генома лошади (Assembly GCA_000696695.1):


  • N50 = 57,610 (т.е. большая половина генома покрывается контигами, длина которых не меньше значения N50).
  • L50 = 10,599 (число контигов, покрывающих собой не менее половины генома, т.е. длиной не меньше значения N50).
  • Ссылка на таблицу контигов/скэффолдов
  • Ссылка на последовательность одного из контигов
  • Параметры некоторых контигов:
  • контиг Accession Name Length
    Самый длинный ATBW01009134 contig8909 942,236
    Самый короткий ATBW01121767 contig121677 200


    Задание 2. Составление таблицы митохондриальных генов указанного мха.

    Данный мне вид мха - Racomitrium ericoides.


    Требовалось найти полный геном митохондрий указанного мха в базе данных Nucleotide (NCBI), для чего нужно было составить поисковый запрос:

  • ((Racomitrium ericoides[Organism]) AND mitochondrion) AND complete genome


  • Первая запись лежит в NCBI, вторая - в GenBank. Можно предположить, что обе записи содержат результаты одного и того же секвенирования, т к у обеих одинаковые название, авторы и количество пар нуклеотидов. В комментариях к описанию записи в NCBI говорится, что референсная последовательность совпадает с приведенной в GenBank. ("The reference sequence is identical to KP233863.")
    Запись в NCBI датируется более поздним временем (27-MAR-2015 - NCBI, 14-FEB-2015 - GenBank), поэтому я выбрала для дальнейшей работы именно ее.

    Далее нужно было получить список всех генов и информацию об их количестве. Для этого я перешла по ссылкам Genome и Gene в разделе Related information.


    Как видно из таблицы, в геноме митохондрий Racomitrium ericoides присутствует 66 генов, из которых 49 кодируют белки, 3 - рибосомальные РНК и 24 - тРНК.


    Затем я сделала таблицу генов, отсортированных по положению на хромосоме. (для этого я сначала отсортировала файл на странице Gene: Sort by Chromosome, вот, что получилось в NCBI, затем сказала новый изменённый файл)

    gene_result.txt

    Задание 3. Опиcать десять ключей, используемых в таблицах особенностей.

    ссылка на таблицу таблицу особенностей с сайта INSDC

    ключ его описание пример
    CDS Protein-coding sequence 803..1344
    /gene="traN"
    /product="transfer protein N"
    RBS ribosome binding site 95..100
    /gene="sod"
    rep_origin Origin of replication 6
    /direction=LEFT
    /note="ori"
    repeat_region region of genome containing repeating units 80..401
    /rpt_type=DISPERSED
    /rpt_family="Alu-J"
    tRNA mature transfer RNA 655..730
    /gene="tRNA-Leu(UUR)"
    /anticodon=(pos:678..680,aa:Leu,seq:taa)
    /product="transfer RNA-Leu(UUR)"
    mat_peptide mature peptide or protein coding sequence; coding sequence for the mature or final peptide or protein product following post-translational modification; the location does not include the stop codon (unlike the corresponding CDS) 55..399
    /gene="TCR1A"
    /product="T-cell receptor alpha chain"
    mobile_element region of genome containing mobile elements /mobile_element_type="transposon:Tnp9"
    LTR long terminal repeat, a sequence directly repeated at both ends of a defined sequence, of the sort typically found in retroviruses 1..244
    /note="5'/LTR"
    misc_signal any region containing a signal controlling or altering gene function or expression that cannot be described by other signal keys (promoter, CAAT_signal, TATA_signal, -35_signal, -10_signal, GC_signal, RBS, polyA_signal, enhancer, attenuator, terminator, and rep_origin) 83..86
    /regulatory_class="CAAT_signal"
    /gene="Ambn"
    5'UTR 1) region at the 5' end of a mature transcript (preceding the initiation codon) that is not translated into a protein; 2) region at the 5' end of an RNA virus genome (preceding the first initiation codon) that is not translated into a protein; 1..63
    /gene="crasp"
    Задание 4. Установить, какому гену принадлежит последовательность, полученная в практикуме 6, и таксономию организма.

    Для выполнения этой задачи использовался BLASTN.

    На вход была дана нуклеотидная последовательность, полученная в практикуме 6.

    данная последовательность в формате fasta

    Первые результаты выдачи BLASTN: (использовался алгоритм "samewhat similar sequences" по банку nr)


    Для последующей работы я отобрала 4 лучшие находки из достоверных, у которых процент идентичности превышает 70%.
    Как видно из рисунка они принадлежат к роду - Arabidopsis thaliana.


    Все четыре находки являются последовательностями митохондриального гена.


    Таблица с информацией о находках:
    Вид Ссылка на GenBank Identities Выравнивание Выравнивание в fasta-формате
    Arabidopsis thaliana ecotype Landsberg erecta mitochondrion, complete genome 1 359/546(66%) Рис. а 1.fasta
    Arabidopsis thaliana ecotype Col-0 mitochondrion, complete genome 2 359/546(66%) Рис. b 2.fasta
    Arabidopsis thaliana ecotype C24 mitochondrion, complete genome 3 359/546(66%) Рис. c 3.fasta
    Arabidopsis thaliana mitochondrial genome 4 359/546(66%) Рис. d 4.fasta



    Изображения выравниваний:

    Рис. a


    Рис. b


    Рис. c


    Рис. d


    Можно заключить, что:

    1) Последовательность, полученная в практикуме 6, - митохондриальный ген.

    2) С высокой вероятностью она принадлежит организму из таксономических групп Eukaryota; Plantae; Angiosperms; Eudicots; Rosids; Brassicales; Brassicaceae; Arabidopsis; Arabidopsis thaliana.

    СПАСИБО ЗА ПРОСМОТР


    © Мария Медведева