Банки нуклеотидных последовательностей

Превью:

Используя различные разделы и поиск по конкретным базам данных сайта NCBI, были выполнены нижележащие задания.
Для изучения ключей был так же использовалась справочная страница сайта INSDC - The DDBJ/ENA/GenBank Feature Table Definition

Характеристика качества сборки генома эукариотического организма

Для исследования был выбран организм Triticum aestivum (bread wheat) - пшеница мягкая или летняя, однолетнее травянистое злаковое, относится к подсемейству мятликовые. Далее мы провели поиск через Browse by organism на странице базы данных Genome, всего раздел выдал тринадцать сборок, но в результате выбрана была GCA_900067645.1, как одна из наиболее полных (представлена и более полная GCA_000210335.1, но в ней указана partial genome representation и нет данных о покрытии.

Вот некоторая информация о проектах и о сборке в частности:
Количество проектов11
Выбранный проектPRJEB11773
Количество образцов13
Выбранный образецBiosample SAMEA3663800
Имя сэмпла(Sample name)Triticum_aestivum_CS42_TGAC_v1
SRAERS970949 ( assembly for Chinese spring)
Технология секвенированияwhole genome shotgun sequencing
Покрытие40х
Число контигов1743969
Число скэффолдов735943
N5021299
L50169174
Самый длинный контиг Contig_1(длина - 508,392)
Самый короткий контиг Contig_735943(длина - 501)
Адрес таблицы контигов htmlhttps://www.ncbi.nlm.nih.gov/Traces/wgs/?val=FAOM01&display=contigs&page=1
Ссылка на tsv-таблицу контигов FAOM01_contigs.tsv

Ключи и их описания.

Сайт INSDC стал источником описания ключей, ниже приведено несколько примеров ключей: название, значение, пример в записи базы данных, etc.

Название ключа Описание ключаПример записи (первая строка - ID)
rep_origin Origin of replication = точка начала репликации, фрагмент молекулы НК, с которого стартует репликация, собственно rep_origin 1..442
/note="oriV; conserved part of vegetative replication
origin including interons"
assembly_gap Расстояние между двумя компонентами сборки генома/транскриптома assembly_gap 4518..4662
/estimated_length=145
/gap_type="within scaffold"
/linkage_evidence="paired-ends"
stem_loop Шпилька = согнутый вдвое участок, сформированный из цепочки НК комплементарными основаниями, образовавшими связи(стебель), в котором так же присутствует участок - петля, где основания свободны, не сформировали пары. stem_loop 282323..282337
/note="similar to that found in the intergenic region
between bxlE and bxlR of S. lividans, also found at the 5'
end of xylanase genes (xln) in various Streptomycetes;
possibly involved in regulation"
misc_feature Смыслово обособленный участок, который может представлять интерес для изучения, но не может быть описан каким-то другим ключом, так как является новым или просто редко встречается. Этот ключ не используется, если нужно всего-лишь отметить участок, чтобы прокомментировать его или использовать в каком-то другом месте описания misc_feature complement(281255..281971)
/gene="SCO0289"
/gene_synonym="SCF85.17c"
/note="Pfam match to entry PF00532 Peripla_BP_like,
Periplasmic binding proteins and LacI family., score
92.80, E-value 6.8e-24"
misc_recomb Сайт любого обобщённого, специфичного для сайта или реплицирующего события рекомбинации, где случилась поломка и восстановление дуплекса ДНК, что не может быть описана другими ключами рекомбинации или квалификаторами source key (пишутся через "/" в графе после ключа, как то, например, "/proviral") FT misc_recomb (561)..(566)
FT /note='HindIII site'
FT misc_recomb (573)..(578)
FT /note='AvaI site'
FT misc_recomb (586)..(591)
FT /note='EcoRI site'
FT misc_recomb (593)..(598)
FT /note='BamHI site'
FT misc_recomb (625)..(630)
FT /note='ClaI site'
FT misc_recomb (629)..(634)
FT /note='ClaI site'
FT misc_recomb (1156)..(1161)
FT /note='ApaLI site'
FT misc_recomb (2128)..(2133)
FT /note='PstI site'
FT misc_recomb (2204)..(2209)
FT /note='NcoI site'
FT misc_recomb (2284)..(2289)
FT /note='AvaI site'
FT misc_recomb (2294)..(2299)
FT /note='AvaI, SmaI, and XmaI site' FT
misc_recomb (2551)..(2556)
FT /note='ApaLI site'.
(https://www.ncbi.nlm.nih.gov/nuccore/DD212689.1)
mobile_element Участок генома, содержащий мобильные элементы = последовательности нк, которые могут перемещаться внутри генома mobile_element 875..82523
/mobile_element_type="other:integrative and conjugative
element ICESsuJH1301"

(https://www.ncbi.nlm.nih.gov/nuccore/KX077887.1)
prim_transcript Первичный(изначальный, непроцессированный) транскрипт, может включать нкРНК, рРНК, тРНК, 5'-нетранслируемую область (5'UTR), кодирующие последовательности (CDS, экзон), интервенционные последовательности (интрон) и 3 'нетранслируемую область (3'UTR); prim_transcript <1..>937
/gene="mad2"

(https://www.ncbi.nlm.nih.gov/nuccore/U72150.2)
STS Sequence tagged site = сайт с меткой последовательности; короткая однократная последовательность ДНК, характеризует своеобразный ориентир в геноме, может быть обнаружена с помощью ПЦР; область генома может быть отображена путем определения порядка серии STS; STS 895..1800
/gene="Porcn"
/gene_synonym="2410004O13Rik; AW045557; DXHXS7465e; Mg61;
mMg61; Mporc; porc; Ppn"
/standard_name="Porcn"
/db_xref="UniSTS:545975"

(https://www.ncbi.nlm.nih.gov/nuccore/NM_145908.4)
tmRNA Транспортная-матричная РНК (transfer messenger), сначала действует как тРНК, а затем как мРНК, которая кодирует пептидную метку. Рибосома транслирует эту область мРНК с тмРНК и прикрепляет закодированную метку к С-концу незавершенного белка, в то время как эта метка, нацелена на белок для уничтожения или протеолиза tmRNA 43155..43509
/gene="ssrA"
/locus_tag="COF54_RS14025"
/old_locus_tag="COF54_14025"
/product="transfer-messenger RNA"
/inference="COORDINATES: nucleotide
motif:Rfam:12.0:RF00023"
/inference="COORDINATES: profile:INFERNAL:1.1.1"
/note="Derived by automated computational analysis using
gene prediction method: cmsearch."
/db_xref="RFAM:RF00023"

(https://www.ncbi.nlm.nih.gov/nuccore/NZ_NUSF01000047.1)
unsure Небольшая область последовательности оснований, как правило, 10 или менее длиной, которая не может быть уверенно идентифицирована. Такой регион может содержат известные основания(А, T, G или C) или смесь их с неизвестными ('N'). "Unsure" не используется при аннотировании зазоров в сборках генома. Для комментариев к зазорам в других последовательностях, а не в собранных(assembled) геномах, используется функция зазора(gap) unsure 6657..6670
/gene="Arid1b"
/gene_synonym="8030481M12; 9330189K18Rik; AI836955;
Ardi1b; B230217J03Rik; mKIAA1235"
/note="Sequence derived from one plasmid subclone."

(https://www.ncbi.nlm.nih.gov/nuccore/NM_001085355.1)

Состояние дел в одном из массовых геномных проектов:
'The Canadian Cattle Genome Project(CCGP)' - the part of 'The 1000 Bull Genomes Project'

The 1000 Bull Genomes Project - направлен на предоставление обширной базы данных, чтобы сделать возможным для исследовательского сообщества внос генетических вариаций для геномного прогнозирования и широкомасштабных исследований генома во всех породах крупного скота. .<\p>

The Canadian Cattle Genome Project(CCGP) - изначально часть более обширного проекта The 1000 Bull Genomes Project, который был направлен на предоставление обширной базы данных, чтобы сделать возможным для исследовательского сообщества внос генетических вариаций для геномного прогнозирования и широкомасштабных исследований генома во всех породах крупного скота. Главная цель, таким образом, разработка ресурса, позволяющего партнёрам проекта вводить полную последовательность геномов в быков и коров, которые были ранее генотипированы с помощью SNP-массивов. Это может быть использовано, например, для повышения точности геномного предсказания, а так же в более общих исследованиях генома, заинтересованных в идентификации различного рода мутаций

Проекты сотрудничали, часть геномов из поставленной цели проекту 1000Bulls предоставил CCGP, получив доступ к остальным, таким образом проекты разделили цели. Однако, самостоятельно CCGP отмечает, что все последовательности и данные генотипов будут использоваться для разработки усовершенствованнных инструментов рассчета условно-вычисленных генотипов. Эти генотипы будут устанавливать эталон для селекционеров породистых и помесных животных. Так же будут осуществляться методы отбора животных по генотипу с использованием условно-исчисленной 'высокой плотности' генотипов.

Ведущий исследователь проеута - доктор Пол Стотхард, из университета Альберты. Проект запущен в 2012, изначально планировался как трёхлетний, на официальной странице отмечен последний год работы - 2014.
315 геномов животных были донированы The 1000 Bull Genomes Project. В статье от 21 мая 2015 года(самой поздней) указано, что к этому моменту отсеквенировано 379 животных. Дальнейших обновлений не наблюдалось.

Изначальные планы проекта:

Отдельно хотелось бы сказать про количество отсеквенированных организмов:
Одна популяция животных в исследовании - одна порода, то есть всего быков: 7*30+дополнительные быки, включённые по тем или иным причинам. Но в Приложении 1 к статье указаны все породы рассмотренных по итогам исследования быков, и их общее число - 14, если не считать помесных животных. Отсюда и число 379.

Таким образом, число секвенированных единиц: 379 - CCGP (315 которых это часть 1147 от "1000 Bull...". Однако, важно понимать, что даже выполнив цель исследования, без партнёров секвенировали они сами далеко не 1147 геномов. Достоверно известно о 234 геномах в первой фазе проекта, после которой, видимо, они стали делиться информацией, и в работе поучаствовали не только CCGP.

Если говорить о 1000 Bull Genomes - планировалось минимум отсеквенировать 1000 геномов, как ясно из названия.
Участвовали в проекте: Biosciences Research Division, Department of Environment and Primary Industries, Bundoora, Victoria, Australia.
Steering committee ? Ruedi Fries (Technische Universitat Munchen, Germany) ? Mogens Lund/Bernt Guldbrandtsent (Aarhus University, Denmark) ? Didier Boichard (INRA, France) ? Paul Stothard (University of Alberta, Canada) ? Roel Veerkamp (Wageningen UR, Netherlands) ? Ben Hayes/Mike Goddard (DFL) ? Curt Van Tassell (United States Department of Agriculture)

P.S. В статье от 'The 1000 Bulls genome' указано, что они идентифицировали 129 предковых форм, 43 предковые формы и 15 предковых форм для популяций Хольштейн, Флеккиевой популяции и популяции из Джерси - то есть было рассмотрено минимум три породы.

Источники:

Митохондриальные геномы Trichoplax adhaerens

Для выполнения данного задания был выбран единственный представитель таксона Placozoa - Трихоплакс.

Рисунок 1. Не больно-то презентабельный вид нашего объекта сверху

Все митохондриальные гены белков представлены в таблице по ссылке.

Сводная таблице по размерам геномов - справочная информация

Таксон Размер генома
ВироидыНаименьший - 220 bp, колеблется в среднем от 350 до ~450 bp. Наибольший отмеченный - 467 bp.
Вирусы, бактериофагиОт нескольких тысяч (цирковирус имеет самый маленький на данный момент геном 2000 bp) до 1200 тысяч bp (у мимивирусов), отмечено лишь до 500 тыс bp у бактериофагов.
Типичный = 10*4
Бактерии, археиОт 5*10^5 (у облигатных паразитов) до 10^7.
Типичный размер - ~2*10^6, по крайней мере такого порядка, за точную цифру не поручусь.
Имеют, в среднем, около 400 генов.
ЭукариотыОт 8.8*10^6 до 7*10^11 bp; гены: от 3000 до 150000 у млекопитающих.
Типичный - 10^9.


Вернуться назад

На главную страницу


©Solonovich Vera,2017