Последовательность по составу: Страница не найдена

Содержание

3.5. Порядок формирования дел в организации / КонсультантПлюс

3.5. Порядок формирования дел в организации

3.5.1. Формированием дел называется группировка исполненных документов в дела в соответствии с номенклатурой дел.

В дело помещаются документы, которые по своему содержанию соответствуют заголовку дела, при этом запрещается группировать в дела черновые и дублетные экземпляры документов (за исключением особо ценных), а также документы, подлежащие возврату.

3.5.2. Дела формируются в организациях при централизованном ведении делопроизводства — службой ДОУ организации, при децентрализованном — как структурными подразделениями (лицами, ответственными за ДОУ), так и службой ДОУ организации.

Формирование дел ведется под непосредственным методическим руководством архива организации, а при необходимости — и соответствующего государственного архива.

3.5.3. При формировании дел необходимо соблюдать следующие основные требования:

документы постоянного и временного хранения необходимо группировать в отдельные дела;

включать в дело по одному экземпляру каждого документа;

группировать в дело документы одного календарного года; исключение составляют: переходящие дела; судебные дела; личные дела, которые формируются в течение всего периода работы данного лица в организации; документы выборных органов и их постоянных комиссий, депутатских групп, которые группируются за период их созыва; документы учебных заведений, которые формируются за учебный год; документы театров, характеризующие сценическую деятельность за театральный сезон; дела фильмов, рукописей, истории болезней и др.;

дело должно содержать не более 250 листов, при толщине не более 4 см.

3.5.4. Внутри дела документы должны быть расположены так, чтобы они по своему содержанию последовательно освещали определенные вопросы. При этом документы располагаются в хронологическом порядке (входящие — по датам поступления, исходящие — по датам отправления) или по алфавиту авторов и корреспондентов.

Приложения к документам, независимо от даты их утверждения или составления, присоединяются к документам, к которым они относятся.

Приложения объемом свыше 250 листов составляют отдельный том, о чем в документе делается отметка.

3.5.5. Распорядительные документы группируются в дела по видам и хронологии с относящимися к ним приложениями:

уставы, положения, инструкции, утвержденные распорядительными документами, являются приложениями к ним и группируются вместе с указанными документами. Если же они утверждены в качестве самостоятельного документа, то их группируют в отдельные дела;

приказы по основной деятельности группируются отдельно от приказов по личному составу;

приказы по личному составу группируются в дела в соответствии с установленными сроками их хранения. Целесообразно при больших объемах документов приказы по личному составу, касающиеся различных сторон деятельности организации (прием на работу, увольнение и перемещение, командировки и т.д.), группировать в отдельные дела;

поручения вышестоящих организаций и документы по их исполнению группируются в дела по направлениям деятельности организации;

утвержденные планы, отчеты, сметы, лимиты, титульные списки и другие документы группируются отдельно от их проектов;

документы в личных делах располагаются в хронологическом порядке по мере их поступления;

лицевые счета рабочих и служащих по заработной плате группируются в отдельные дела и располагаются в них по алфавиту фамилий;

предложения, заявления и жалобы граждан по вопросам работы организации и все документы по их рассмотрению и исполнению группируются отдельно от заявлений граждан по личным вопросам;

переписка группируется, как правило, за календарный год и систематизируется в хронологической последовательности, документ-ответ помещается за документом-запросом. При возобновлении переписки по определенному вопросу, начавшейся в предыдущем году, документы включаются в дело текущего года с указанием индекса дела предыдущего года. В зависимости от специфики деятельности организации переписка может группироваться также за учебный год, срок созыва выборных органов и т.д.

Определение, фонетический (звуко-буквенный) разбор и разбор слова по составу



На данной странице представлено лексическое значение слова «последовательный», а также сделан звуко-буквенный разбор и разбор слова по составу с транскрипцией и ударениями.

Оглавление:

  1. Значение слова
  2. Звуко-буквенный разбор
  3. Разбор по составу

Значение слова

ПОСЛЕДОВАТЕЛЬНЫЙ, ая, ое; лен, льна.

1. Непрерывно следующий за другим. Последовательные движения.

2. Логически обоснованный, закономерно вытекающий из чего-н. Рассуждать последовательно (нареч.). Будьте последовательны в своих поступках.

| сущ. последовательность

, и, ж.

Фонетический (звуко-буквенный) разбор

после́довательный

последовательный — слово из 6 слогов: по-сле-до-ва-тель-ный. Ударение падает на 2-й слог.

Транскрипция слова: [пасл’эдават’ил’ный’]

п — [п] — согласный, глухой парный, твёрдый (парный)
о — [а] — гласный, безударный
с — [с] — согласный, глухой парный, твёрдый (парный)
л — [л’] — согласный, звонкий непарный, сонорный (всегда звонкий), мягкий (парный)
е — [э] — гласный, ударный
д — [д] — согласный, звонкий парный, твёрдый (парный)
о — [а] — гласный, безударный
в — [в] — согласный, звонкий парный, твёрдый (парный)
а — [а] — гласный, безударный
т — [т’] — согласный, глухой парный, мягкий (парный)
е — [и] — гласный, безударный
л — [л’] — согласный, звонкий непарный, сонорный (всегда звонкий), мягкий (парный)
ь — не обозначает звука
н — [н] — согласный, звонкий непарный, сонорный (всегда звонкий), твёрдый (парный)
ы — [ы] — гласный, безударный
й — [й’] — согласный, звонкий непарный, сонорный (всегда звонкий), мягкий (непарный, всегда произносится мягко)

В слове 16 букв и 15 звуков.

Цветовая схема: последовательный

Ударение в слове проверено администраторами сайта и не может быть изменено.

Разбор слова «последовательный» по составу

последовательный

Части слова «последовательный»: по/след/ова/тельн/ый
Состав слова:
по — приставка,
след — корень,
ова, тельн — суффиксы,
ый — окончание,
последовательн — основа слова.



Основные характеристики звезд

3. ОСНОВНЫЕ ХАРАКТЕРИСТИКИ ЗВЕЗД

    Звезда — это горячий газовый шар, разогреваемый за счет ядерной энергии и удерживаемый силами тяготения. Основную информацию о звездах дает испускаемый ими свет и электромагнитное излучение в других областях спектра. Главными факторами, определяющими свойства звезды, являются её масса, химический состав и возраст. Звезды должны меняться со временем, так как они излучают энергию в окружающее пространство. Информация о звездной эволюции может быть получена из диаграммы Герцшпрунга-Рассела, представляющей собой зависимость светимости звезды от температуры её поверхности (рис.9).


Pис. 9. Диаграмма Герцшпрунга-Рассела. Линия показывает начальные положения звезд с различными массами на главной последовательности

    На диаграмме Герцшпрунга-Рассела звезды распределены неравномерно. Около 90% звезд сконцентрировано в узкой полосе, пересекающей диаграмму по диагонали. Эту полосу называют главной последовательностью. Её верхний конец расположен в области ярких голубых звезд. Различие в заселенности звезд, находящихся на главной последовательности и областей, примыкающих к главной последовательности, составляет несколько порядков величины. Причина в том, что на главной последовательности находятся звезды на стадии горения водорода, которая составляет основную часть времени жизни звезды. Солнце находится на главной последовательности. Его положение указано на рис. 9.

    Следующие по населенности области после главной последовательности — белые карлики, красные гиганты и красные сверх-гиганты. Красные гиганты и сверхгиганты — это в основном звезды на стадии горения гелия и более тяжелых ядер.
    Светимость звезды — полная энергия, испускаемая звездой в единицу времени. Светимость звезды может быть вычислена по энергии, достигающей Земли, если известно расстояние до звезды.
    Из термодинамики известно, что, измеряя длину волны в максимуме излучения черного тела, можно определить его температуру. Черное тело с температурой 3 K будет иметь максимум спектрального распределения на частоте 3·1011 Гц. Черное тело с температурой 6000 K будет излучать зеленый свет. Температуре 106 K соответствует излучение в рентгеновском диапазоне. В таблице 2 приведены интервалы длин волн, соответствующие различным цветам, наблюдаемым в оптическом диапазоне.

Таблица 2

Цвет и длина волны

Цвет

Диапазон длин волн,

Фиолетовый, синий

3900 — 4550

Голубой

4550 — 4920

Зеленый

4920 — 5570

Желтый

5570 — 5970

Оранжевый

5970 — 6220

Красный

6220 — 7700

    Температура поверхности звезды рассчитывается по спектральному распределению излучения.

    Классификацию спектрального класса звезд легко понять из таблицы 3.
    Каждая буква характеризует звезды определенного класса. Звезды класса O самые горячие, класса N — самые холодные. В звезде класса O видны в основном спектральные линии ионизованного гелия. Солнце принадлежит к классу G, для которого характерны линии ионизованного кальция.
    В таблице 4 приведены основные характеристики Солнца. Пределы изменения таких характеристик звезд как масса (M), светимость (L), радиус (R) и температура поверхности (T) даны в таблице 5.

Таблица 3

Спектральные классы звезд

Обозначение класса
звезд

Характерный признак
спектральных линий

Температура
поверхности, K

O

Ионизованный гелий

> 30 000

B

Нейтральный гелий

11 000 — 30 000

A

Водород

7 200 — 11 000

F

Ионизованный кальций

6 000 — 7 200

G

Ионизованный кальций,
нейтральные металлы

5 200 — 6 000

K

Нейтральные металлы

3 500 — 5200

M

Нейтральные металлы,
полосы поглощения
молекул

< 3 500

R

Полосы поглощения
циана (CN)2

< 3 500

N

Углерод

< 3 500

 


Рис. 10. Соотношение масса-светимость

    Для звезд главной последовательности с известной массой зависимость масса-светимость показана на рис.10 и имеет вид
L ~ Mn, где n = 1.6 для звезд малой массы (M < M ) и n = 5.4 для звезд большой массы (M > M). Это означает, что перемещение вдоль главной последовательности от звезд меньшей массы к звездам большей массы приводит к увеличению светимости.

 

 

 

Таблица 4

Основные характеристики Солнца

Масса M

2·1033 г

Радиус R

7·1010 см

Светимость L

3.83·1033 эрг/с (2.4·1039 МэВ/с)

Поток излучения с единицы
 поверхности

6.3·107 Вт/м2

Средняя плотность вещества

1.4 г/см3

Плотность в центре

~100 г/см3

Температура поверхности

6·103 K

Температура в центре

1.5·107 K

Химический состав:
водород
гелий
углерод, азот, кислород, неон и др.


74%
23%
3%

Возраст

5·109 лет

Ускорение свободного падения
на поверхности

2.7·104 см/с2

Шварцшильдовский радиус — 2GM /c2
(c — скорость света)

2.95 км

Период вращения относительно
неподвижных звезд

25.4 суток

Расстояние до центра Галактики

2.6·1017 км

Скорость вращения вокруг центра
Галактики

220 км/с

Таблица 5

Пределы изменения характеристик различных звезд

    Таким образом, более массивные звезды оказываются и более яркими.
    В левой нижней части диаграммы (рис.9) — вторая по численности группа — белые карлики. В правом верхнем углу диаграммы группируются звезды с высокой светимостью, но низкой температурой поверхности — красные гиганты и сверхгиганты. Этот тип звезд встречается реже. Названия “гиганты” и “карлики” связаны с размерами звезд. Белые карлики не подчиняются зависимости масса-светимость, характерной для звезд главной последовательности. При одной и той же массе они имеют значительно меньшую светимость, чем звезды главной последовательности.
    Звезда может находиться на главной последовательности на определенном этапе эволюции и быть гигантом или белым карликом на другом. Большинство звезд находится на главной последовательности потому, что это наиболее длительная по времени фаза эволюции звезды.
    Одним из существенных моментов в понимании эволюции Вселенной является представление о распределении образующихся звезд по массам. Изучая наблюдаемое распределение звезд по массам и учитывая время жизни звезд различной массы, можно получить распределение звезд по массам в момент рождения. Установлено, что вероятность рождения звезды данной массы, очень приближенно, обратно пропорциональна квадрату массы (функция Солпитера):

F(M) ~ M-7/3.

Однако это лишь общая закономерность. В некоторых областях наблюдается дефицит массивных звезд. В областях, где много молодых звезд, звезд малой массы меньше. Считается, что первые звезды были в основном яркими, массивными и короткоживущими.
    По-видимому, функция масс должна обрываться на нижнем конце около масс ~ (0.1 — 0.025) M . Используя в качестве нижней оценки два значения масс M ~ 0.1 M и 0.025 M , можно получить относительную массу звезд, имеющих массы больше 5M :

и долю массы звезд, имеющих массу меньше солнечной, —

    Для того, чтобы объяснить наблюдаемые распространенности различных элементов, необходимо предположить, что в звездах происходят ядерные реакции, в которых и образуются эти элементы. Особенности протекания ядерных реакций рассмотрены ниже.

последовательность

| музыкальная композиция | Britannica

последовательность , в музыке мелодическая или аккордовая фигура, повторяющаяся на новом уровне высоты тона (то есть транспонированная), таким образом объединяющая и развивающая музыкальный материал. Слово последовательность имеет два основных значения: средневековая последовательность в литургии латинской мессы и гармоническая последовательность в тональной музыке.

В средневековой музыке и литературе последовательность представляла собой латинский текст, связанный с определенной напевной мелодией, которую пели на мессе между Аллилуйей и чтением Евангелия.Он развился примерно в 9 веке от тропа (добавление музыки, текста или того и другого) до jubilus , витиеватого окончания последнего слога Аллилуйи. Мелодические тропы обычно разбивались на фразы, которые повторялись в исполнении (как aa, bb, cc, …) чередующимися хорами. Тексты, установленные на эти мелодии и на мелодии Alleluia, изначально были прозой и поэтому назывались средневековым латинским названием prosa .

К XI веку последовательность приобрела общую поэтическую форму, отражающую музыкальную структуру: обычно вступительные и заключительные строки заключали в себе серию рифмованных метрических куплетов различной длины ( x aa bb cc у ).Каждому слогу соответствовала одна музыкальная нота. В конце концов, тексты были установлены на вновь сочиненные мелодии, а длина куплетов была уравнена. Последовательности стали очень популярными по всей Европе, и сохранились тысячи их примеров, подходящих для различных литургических праздников. В 16 веке Тридентский собор отменил все последовательности литургии, кроме четырех: Victimae paschali laudes («Хвала пасхальной жертве»), Veni Sancte Spiritus («Приди Святый Дух»), Lauda Sion («Хвала Сиону») и Dies irae («День гнева»). Stabat mater dolorosa («Скорбящая мать стояла») была восстановлена ​​в 1727 году. труверы, средневековые французские поэты-композиторы).

В тональной музыке гармоническая последовательность, как аккомпанемент для мелодии, представляет собой мотив из двух или более гармоний, последовательно повторяющихся в транспозиции, обычно дважды или трижды, сохраняя одну и ту же мелодическую форму (относительное движение) каждой часть или голос.Создавая гармоническое и тональное разнообразие с единым рисунком, последовательность служит средством музыкального развития. Обычно используются два типа последовательности: немодулирующая последовательность (или тональная), в которой все повторения сохраняются в одной тональности; и , модулирующий последовательность , которая может проходить через несколько клавиш.

Несмотря на то, что гармоническую последовательность легко злоупотреблять, если применять ее механически, она широко использовалась всеми композиторами тональной музыки, то есть теми, кто работал примерно с 1700 по 1900 год.Очень длинные секвенции появляются в концертах эпохи барокко, особенно в произведениях Георга Фридриха Генделя и Антонио Вивальди. Часто последовательность используется для модуляции в разделе развития сонатной формы, как в первой части Симфонии № 1 Бетховена до мажор (1800). Замечательная расширенная серия модулирующих секвенций характерна для развивающей части Концерта для фортепиано с оркестром № 1 ми минор (1830) Фредерика Шопена .

Последовательная композиция – обзор

ТЕОРЕМА 5.49

Если полная TSS безопасна для RBB, то бисимуляционная эквивалентность корневого ветвления, которую она индуцирует, является конгруэнтностью.

См. [82] ряд примеров полных TSS, показывающих, что все синтаксические требования безопасного формата RBB существенны для результата конгруэнтности в теореме 5.49.

Расчет этикеток замороженных/жидких продуктов. Ключевым моментом в определении того, является ли TSS T безопасным RBB, является поиск подходящей замороженной/жидкой маркировки аргументов функциональных символов.Предполагая, что сигнатура Σ конечна, существует эффективная процедура, которая вычисляет замороженную/жидкую маркировку Λ, свидетельствующую о том, что T является RBB-безопасным тогда и только тогда, когда существует одна такая маркировка.

Процедура «Вычислить жидкие этикетки для σ и T »:

Красный / зеленый направленный граф G состоит из вершин < F , I > Для F ∈ Σ и 1 ⩽ I ar(f) .

Существует ребро от 〈 f , i 〉 к 〈 g , j 〉 в G тогда и только тогда, когда существует правило перехода в f T с его выводом x1,…,xar(f))→aC[g(t1,…,tj−1,D[xi],tj+1,…,tar(g))]⋅

Вершина 〈 g , j 〉 красный тогда и только тогда, когда существует правило перехода в T с его целью в форме

C[g(t1,…,tj−1,D[y],tj+1,…,tar(g) )],

, где y — правая часть положительной посылки этого правила.Все остальные вершины в G окрашены в зеленый цвет.

Процедура окрашивания зеленых вершин в G в красный цвет осуществляется следующим образом. Если вершина 〈 f , i 〉 красная и в G существует ребро из 〈 f , j 〉 в зеленую вершину 〈 0 〈 g

,

g

, 9

г , j 〉 окрашен в красный цвет.

Процедура завершается, если ни одна из зеленых вершин больше не может быть окрашена в красный цвет, и в этот момент она выводит ориентированный красно-зеленый граф.

Λ помечает аргумент i функционального символа f «жидкость» тогда и только тогда, когда вершина 〈 f , i 〉 в выходном графе описанной выше процедуры красная.

Применим теорему 5.49 к двум ТСС из раздела 2.6, расширенным с молчаливым шагом.

BPA с пустым процессом и автоматическим шагом. Алгебра процессов BPA ετ получается из BPA ε расширением Act с молчаливым шагом τ. TSS для BPA ετ представляет собой TSS для BPA ε в таблице 1 при условии, что и находятся в диапазоне Act ∪ {τ}.

В разделе 5.1 было отмечено, что TSS в таблице 1 является panth. Процедура расчета маркировки замороженного/жидкого вещества для TSS дает следующий результат: первый аргумент последовательного состава — жидкость (из-за цели x ′ · y в третьем правиле перехода для последовательного состава), в то время как оба аргумента альтернативной композиции и второй аргумент последовательной композиции замораживаются. TSS в таблице 1 с и в диапазоне Act ∪ {τ} является безопасным для RBB в отношении этой маркировки замороженных/жидких продуктов.Например, для последовательной композиции мы имеем следующее:

его третье правило перехода с по = τ составляет правило терпения для первого аргумента последовательной композиции;

в первых двух правилах перехода и в третьем правиле перехода с a ≠ τ переменная x в жидком аргументе источника появляется как левая часть одной положительной посылки , который не содержит символ отношения ⟶τ;

в его третьем правиле перехода переменная x ′ в правой части посылки встречается в жидком положении цели.

Читателю остается убедиться, что остальные правила перехода в таблице 1 безопасны для БОР. В разделе 3.5 было доказано, что TSS в таблице 1 является полным. Следовательно, согласно теореме 5.49, корневая эквивалентность бисимуляции ветвления является конгруэнцией относительно BPA ετ .

Приоритеты с бесшумным шагом. В общем случае бисимуляционная эквивалентность корневого ветвления не является конгруэнтностью по отношению к оператору приоритета. Например, предположим, что b < c ; тогда a ·(τ ·( b + c ) + b ) и a ·( b + c ) являются корневыми разветвлениями биподобными, но τ a 06 · 90 ·( b + c ) + b )) и θ( a · ( b + c )) не являются корневыми биподобными.Следовательно, с учетом теоремы 5.49, TSS для BPA ετθ в таблице 2 (с a и b в пределах Act ∪ {τ}) не может быть в безопасном формате RBB.

Поскольку второе правило перехода в таблице 2 имеет цель θ( x ′), процедура в разделе 5.5 помечает аргумент θ жидкости. Таким образом, если предположить, что имеется одно или несколько действий b , превышающих действие a в отношении упорядочения по действию, жидкий аргумент x в источнике этого правила перехода возникает как левая часть отрицательных посылок. x↛bЭто нарушает безопасный формат RBB.

Системы BOLD: справочник

Инструменты расширенного анализа

BOLD включает основные и расширенные инструменты для анализа данных образцов и последовательностей.

Самым большим улучшением инструментов расширенного анализа в новой версии BOLD 3.6 является то, что браузер выравнивания теперь позволяет пользователям редактировать и сохранять последовательности.

 

 

 

Новая функциональность: полное удаление

BOLD теперь обрабатывает полное удаление неоднозначных оснований и пробелов.Этот параметр доступен на странице параметров для Сводка расстояний , Средство просмотра выравнивания и Сводка зазоров штрих-кода .

Иллюстрация новой опции обработки удаления на странице параметров анализа.
Результаты анализа электронной почты для параллельных рабочих процессов

Используйте параметр для запуска нескольких анализов, отправляя результаты по электронной почте после завершения каждого анализа. Результаты могут храниться до 4 недель, сохраняться для сравнения в будущем, а ссылки на результаты могут быть переданы между соавторами.Эта опция доступна на странице параметров для большинства инструментов анализа BOLD.

Иллюстрация опции отправки результатов анализа по электронной почте на странице параметров инструмента
Публикация результатов

Когда рядом с диаграммой появляется значок «Развернуть», это означает, что диаграмму можно расширить для увеличения размера, который можно использовать в публикациях.

Иллюстрация значка «Развернуть» справа от графика. Наверх

Сводка по расстоянию

Желательно, чтобы штрих-коды демонстрировали очень низкое расхождение последовательностей внутри вида со значительно более высоким расхождением последовательностей на более высоких таксономических уровнях.Инструмент Distance Summary дает отчет о расхождениях последовательностей между последовательностями штрих-кодов на конспецифическом и родственном уровнях.

Параметры

В качестве параметров доступны различные модели расстояния и алгоритмы выравнивания, а также параметры для фильтрации последовательностей на основе длины последовательности или проблем с последовательностью.

Результаты

Сравнения выполняются между заданными таксономическими уровнями с частотой, представленной на графике, как показано ниже.Предусмотрена одна визуализация, нормализованная по видам для устранения систематической ошибки выборки. Подробная информация о сравнениях, проведенных на уровне видов, родов и семейств, доступна по ссылкам в правом верхнем углу.

Страница сводки по расстоянию

Наверх

Состав последовательности

Частота оснований ДНК, наблюдаемая с акцентом на содержание GC, может быть полезной метрикой для биологов-эволюционистов. Например, содержание GC в области штрих-кодирования CO1 коррелирует с содержанием GC всего митохондриального генома для многих видов.

Параметры

В качестве параметров доступны различные модели расстояния и алгоритмы выравнивания, а также параметры для фильтрации последовательностей на основе длины последовательности или проблем с последовательностью. Параметры по умолчанию позволяют рассчитывать проценты GC для общей композиции последовательности, а также для положений кодонов 1, 2 и 3, но при желании их можно не выбирать.

Результаты

Страница результатов предоставляет статистику по частоте каждого основания (G, C, A и T) в выбранных записях и может отображать гистограммы содержания GC по всем позициям кодонов.

Страница результатов композиции последовательности

Наверх

Сводка пробелов штрих-кода

Сводка пробелов штрих-кода предоставляет пользователям информацию о расстоянии до ближайшего соседа для каждого из видов в списке выбранных экземпляров.

Параметры

В качестве параметров доступны различные модели расстояния и алгоритмы выравнивания, а также параметры для фильтрации последовательностей на основе длины последовательности или проблем с последовательностью.

Результаты

Расстояния выделяются, если ближайший сосед расходится менее чем на 2% или когда расстояние до ближайшего соседа меньше внутривидового расстояния. Предупреждения, представленные этим инструментом, можно обобщить, щелкнув ссылку в правом верхнем углу страницы результатов Barcode Gap .

Результаты анализа пропусков штрих-кода

Наверх

Кривая накопления

Кривая накопления стандартизированных штрих-кодов ДНК и связанных с ними функций обеспечивает четкую, прозрачную и воспроизводимую оценку разнообразия и эффективности выборки областей или коллекций.Этот инструмент также позволяет пользователям быстро сравнивать эффективность выборки в нескольких регионах по нескольким таксономическим уровням.

Параметры

Каждая кривая представляет собой график зависимости количества видов, родов, подсемейств и/или БИН от количества образцов. Поле «Дополнительная информация» также может быть построено, например, для графического отображения морфотипов. Поскольку инструмент позволяет создавать несколько графиков, он может помочь исследователю определить, какие географические регионы производят меньше новых групп (создание нескольких графиков по странам, провинциям или регионам) или какая таксономическая группа находится на плато (создание нескольких графиков по типам, классам и т. отряд, семейство или подсемейство).Поле «Дополнительная информация» также можно использовать для изучения эффективности протоколов отбора проб, прогресса в регионах ФАО и т. д.

Порядок выборки может быть случайным, и для большого набора данных более высокая степень сглаживания может быть оптимальной за счет большего количества итераций; однако это займет больше времени для расчета. Порядок представления также можно выбрать, чтобы визуализировать влияние усилий по выборке.

Результаты

Крутой наклон указывает на то, что большую часть разнообразия еще предстоит открыть.Кривая, более пологая вправо, указывает на то, что было собрано разумное количество отдельных образцов, и более интенсивный отбор, вероятно, даст лишь несколько дополнительных групп.

Страница результатов кривой накопления

Наверх

Браузер выравнивания

Управление выравниванием последовательностей и базовыми вызовами является важным шагом в любом анализе штрих-кода. Чтобы избежать неудобств, связанных с импортом последовательностей в стороннее программное обеспечение для анализа и редактирования, BOLD предоставляет встроенный браузер выравнивания, который включает в себя многие функции, популярные в других пакетах.В новейшей версии BOLD обновленный браузер выравнивания поддерживает прямое редактирование базы данных. Также доступны несколько вариантов выравнивания, таких как алгоритмы MUSCLE и Kalign, а также параметры раскрашивания.

Редактирование последовательности

В новейшей версии BOLD обновленный Alignment Browser поддерживает прямое редактирование базы данных. Пользователи могут выбрать последовательности или отдельные базы, а затем щелкнуть правой кнопкой мыши, чтобы увидеть параметры редактирования. После редактирования весь сеанс может быть отправлен для загрузки отредактированных последовательностей в свои записи.

Параметры

В качестве параметров доступны различные модели расстояния и алгоритмы выравнивания, а также параметры для фильтрации последовательностей на основе длины последовательности или проблем с последовательностью.

Страница браузера выравнивания

Наверх

Диагностические символы

Анализ Diagnostic Character предоставляет средства для изучения полиморфизма нуклеотидов или аминокислот между наборами последовательностей, сгруппированных по таксономическим или географическим меткам.В частности, этот инструмент идентифицирует базы консенсуса из каждой группы, сравнивает их с таковыми из оставшихся последовательностей в других группах, а затем характеризует, насколько уникальна каждая база консенсуса. Целью этого инструмента является классификация оснований консенсуса по их диагностическому потенциалу, которые классифицируются следующим образом:

Характеристики в инструменте диагностических символов ( * основание является либо нуклеотидом, либо остатком)
Сокращение Имя Значение
Д Диагностика На данной позиции в MSA база * встречается только в одной группе.
ДП Диагностический или частичный Из-за наличия неоднозначных оснований в других группах, это основание * может быть классифицировано как P , если тот же символ также появляется в некоторых, но не во всех последовательностях в других группах, ИЛИ D , если это не так. появиться вообще.
Р Частичный символ В этом положении в MSA это основание встречается во всех последовательностях в этой одной группе, однако оно также встречается в некоторых, но не во всех последовательностях в других группах.
УЕ Частичный или неинформативный символ Из-за наличия как неоднозначных оснований, так и этого представляющего интерес основания во всей последовательности по крайней мере в одной другой группе, это основание * может быть либо частичным, либо неинформативным в зависимости от того, сколько неоднозначных оснований в другой группе действительно совпадают с рассматриваемая база.
Я Недопустимый символ Во всех последовательностях в других группах присутствуют только неоднозначные основания.Поскольку D , P и U возможны, об этой базе ничего нельзя сказать, поэтому она объявляется недействительной.
У Неинформативный символ Более 1 группы разделяют эту базу консенсуса. Эта база не обладает диагностической способностью и не может быть использована в каких-либо последующих диагнозах.
Параметры

Поскольку этот инструмент выполняет анализ только набора последовательностей, выбранных пользователем, на результат сильно влияют исходные данные и параметры анализа.Даже самые незначительные изменения в исходных последовательностях, параметрах фильтрации или параметрах анализа могут привести к тому, что консенсусные последовательности в каждой группе и, следовательно, диагностический потенциал будут различаться между анализами. В результате интерпретация каждого анализа абсолютно зависит от совокупности всех факторов. В целом, наличие большего количества последовательностей в группе обеспечит более точную диагностику каждой группы, поскольку это уменьшает проблему, вызванную небольшим размером выборки.

Алгоритм
  1. Выравнивание всех последовательностей служит отправной точкой этого анализа.Алгоритм выравнивания является одним из параметров, доступных для указания пользователем.
  2. В зависимости от принадлежности к группе последовательности разделяются на различные наборы.
  3. Собираются
  4. консенсусных последовательностей в каждом наборе последовательностей.
  5. Для каждой группы консенсусные основания проверяются одно за другим и сравниваются с основаниями, обнаруженными во всех остальных последовательностях. Основываясь на количестве встречаемости и проценте встречаемости консенсусной базы в других группах (определение см. в таблице выше), определяется диагностический потенциал этой базы в текущей группе.

Примеры диагностических символов

Страница результатов диагностических символов

Наверх

Отчет о несоответствии БИН

Модуль индекса штрих-кода (BIN) анализирует новые последовательности COI и присваивает их существующему или новому BIN. Пожалуйста, посетите документацию BIN для более подробной информации. Помимо создания страниц BIN, эта система действует как быстрая проверка правильности таксономического обозначения в записях образцов.

Отчет о несоответствии BIN облегчает эту проверку, сравнивая таксономию выбранных записей со всеми остальными в BIN, с которыми они связаны.

Результаты

Результаты сортируются по степени конфликта, отображая те записи в BIN, где сначала возникает конфликт на уровне типа (вероятно, результат перекрестного загрязнения) до конфликтов на уровне вида. Пользователи могут выбирать и извлекать записи с этой страницы, чтобы просматривать вспомогательные данные, комментировать, помечать тегами или редактировать таксономию, где есть подтвержденная ошибка.

В отчете также перечислены записи в BIN, не содержащие таксономического несоответствия (см. вкладку Concordant BIN на странице результатов), а также записи в BIN, не содержащие других последовательностей (см. вкладку Singletons).

Отчет о несоответствии БИН стр.

Наверх

Состав последовательности и содержание генов в коротком плече ржи (Secale зерновых) Хромосома 1

Аннотация

Фон

Целью исследования является выяснение состава последовательности короткого плеча хромосомы 1 ржи ( Secale злаковый ) с особым вниманием к содержанию его генов, поскольку эта часть генома ржи является интегрированной частью нескольких сотен сортов хлеба. сорта пшеницы во всем мире.

Методология/основные выводы

Множественная амплификация ДНК 1RS со смещением, полученная из хромосом 1RS, отсортированных потоком, с использованием линии добавления 1RS дителосомной пшеницы и ржи и последующее секвенирование этой ДНК с помощью Roche 454FLX дала информацию о последовательности 195 313 ​​589 п.н. Это количество информации о последовательности привело к 0,43-кратному охвату последовательностью плеча хромосомы 1RS, что позволило идентифицировать гены с предполагаемой вероятностью 95%. Детальный анализ показал, что более 5% последовательности 1RS состоит из генного пространства, идентифицируя по крайней мере 3121 генный локус, представляющий 1882 различных функции генов.Повторяющиеся элементы составляли около 72% последовательности 1RS, наиболее распространенными были Gypsy/Sabrina (13,3%). Для возможной разработки маркеров было идентифицировано более четырех тысяч сайтов простых повторов последовательностей (SSR), в основном расположенных в считываниях последовательностей, связанных с генами. Существование вставок хлоропластов в 1RS было подтверждено путем идентификации химерных прочтений хлоропласт-геномной последовательности. Анализ синтении 1RS к полным геномам Oryza sativa и Brachypodium distachyon показал, что около половины генов 1RS соответствуют дистальному концу короткого плеча хромосомы 5 риса и проксимальной области длинного плеча . Brachypodium distachyon хромосома 2.Сравнение содержания генов плеча хромосомы 1RS и 1HS ячменя выявило высокую консервативность генов, связанных с хромосомой 5 риса.

Выводы

Настоящее исследование выявило содержание генов и потенциальные функции генов на этом плече хромосомы и продемонстрировало многочисленные элементы последовательности, такие как SSR и связанные с генами последовательности, которые можно использовать для будущих исследований, а также при селекции пшеницы и ржи.

Образец цитирования: Fluch S, Kopecky D, Burg K, Šimková H, Taudien S, Petzold A, et al.(2012) Состав последовательности и содержание генов в коротком плече ржи ( Secale oceane ) Хромосома 1. PLoS ONE 7(2): е30784. https://doi.org/10.1371/journal.pone.0030784

Редактор: Николя Саламин, Университет Лозанны, Швейцария

Поступила в редакцию: 14 июня 2011 г.; Принято: 26 декабря 2011 г.; Опубликовано: 6 февраля 2012 г.

Авторское право: © 2012 Fluch et al. Это статья с открытым доступом, распространяемая в соответствии с лицензией Creative Commons Attribution License, которая разрешает неограниченное использование, распространение и воспроизведение на любом носителе при условии указания оригинального автора и источника.

Финансирование: Это исследование было поддержано Австрийским научным фондом (P18414-B2 и P19944-B17), Министерством образования, молодежи и спорта Чешской Республики и Европейским фондом регионального развития (Оперативная программа исследований и разработок для Нововведения № ЭД0007/01/01). Спонсоры не участвовали в разработке исследования, сборе и анализе данных, принятии решения о публикации или подготовке рукописи.

Конкурирующие интересы: Авторы заявили об отсутствии конкурирующих интересов.

Введение

С начала прошлого века было предпринято несколько попыток интегрировать полезные генетические вариации родственных видов в культурную гексаплоидную пшеницу посредством межвидовой гибридизации. В 1930-х годах в Германии гибридизация между сортом мягкой пшеницы ( Triticum aestivum L.) и сортом. После «Петкуса» ржи ( Secale croаle L.) последовала спонтанная гомеологическая замена, заменяющая хромосому 1В пшеницы на хромосому 1R ржи.Хромосома ржи полностью компенсировала недостающую хромосому 1В. Однако его присутствие оставалось незамеченным до начала 1970-х годов [1]. Позже было обнаружено, что хромосома 1R могла в значительной степени компенсировать также отсутствие хромосом 1А и 1D, принадлежащих к той же гомеологической группе.

Последующие скрещивания гексаплоидных линий пшеницы, несущих замену 1B/1R, с линиями без хромосомы замены привели к появлению транслокационной хромосомы 1BL.1RS, в которой короткое плечо 1R (1RS) было транслоцировано на длинное плечо пшеницы хромосома 1B (1BL), заменяющая короткое плечо 1BS пшеницы.Позднее были также разработаны транслокации с участием хромосомных плеч 1AL и 1DL [2], [3]. Было обнаружено, что все эти транслокации придают устойчивость к нескольким заболеваниям, вызываемым патогенами пшеницы, включая мучнистую росу, листовую ржавчину, стеблевую ржавчину, желтую ржавчину и насекомых, а также к русской пшеничной тле, зеленому жуку и пшеничному курчавому клещу, последним из которых является переносчик вируса полосатой мозаики пшеницы [2], [4]–[9]. Важно отметить, что на определенных фонах пшеницы было обнаружено, что плечо хромосомы 1RS улучшает адаптацию к условиям низкой влажности и увеличивает урожайность пшеницы [10], [11].Недавно было высказано предположение, что повышение урожайности может быть связано с увеличением биомассы корней [12]. Соответствующая область QTL была локализована в дистальной части 1RS [13], [14].

Благодаря этим ценным характеристикам линии пшеницы, несущие 1RS, были интегрированы в программу селекции пшеницы CIMMYT (International de Mejoramiento de Maíz y Trigo; Международный центр улучшения кукурузы и пшеницы). Благодаря этой программе хромосома 1RS была распространена по всему миру. Позже были обнаружены сотни сортов пшеницы, несущие 1BL.Транслокация 1RS [15], [16]. В США были выведены сорта пшеницы с транслокацией 1AL.1RS, несущие 1RS от сорта ржи Insave. Однако распространение этой транслокации оставалось ограниченным США [7]. Сорта пшеницы с хромосомой 1DL.1RS так и не получили практического значения.

Рожь является близким родственником пшеницы. Его значение 1C было оценено в 8,095 пг ДНК [17] или 7917 Мбп [18]. На основании измерения длин хромосом Schlegel et al. [19], молекулярный размер короткого плеча 1R оценивается в 442 Мбп.Подобно другим видам трав, геном ржи содержит большое количество некодирующей повторяющейся ДНК, которая, как сообщается, составляет 84–92% генома [20], [21]. Короткое плечо 1R несет сателлит, разделенный вторичной перетяжкой, которая также известна как ядрышкоорганизующая область (NOR) и содержит гены, кодирующие 45S рРНК. Количество генов 45S рДНК оценивается примерно в 2000, что составляет около 3% ДНК 1RS [22]. Сателлит также несет локус 5S-рДНК с примерно 5000 копиями гена 5S рДНК, что составляет 0.4% ДНК 1RS [22]. Генетическое и физическое картирование 1RS показало, что большинство ранее идентифицированных генов кластеризуются внутри сателлита 1RS [23]–[31]. В этом регионе были локализованы гены секалина [32], а также ряд генов, придающих устойчивость к листовой и полосатой ржавчине [8], русской пшеничной тле [9], зеленому жуку и пшеничному курчавому клещу [7]. Несколько молекулярных маркеров, разработанных для 1RS, также расположены в дистальной области [27], [31], которая характеризуется близкой синтенией к короткому плечу гомеологической группы 1 пшеницы [33].

Коллинеарность геномов растений была установлена ​​путем разработки генетических маркеров и картирования сцепления. Коллинеарность геномов подробно охарактеризована для видов злаков [34], [35]. Подробные карты колинеарности трав завершились сравнениями на основе последовательностей ДНК [36]. Доступность почти полных последовательностей генома злаков с малым геномом, таких как рис, сорго и Brachypodium distachyon , облегчает анализ колинеарности злаков с большим геномом с использованием этих небольших геномов в качестве матриц.Недавно Хакауф и соавт. [37] оценили коллинеарность между рожью и рисом, используя 334 генетически картированных маркера ржи на основе EST. Они идентифицировали соответствующие области генома риса путем in silico корреляции генов ржи и риса. В соответствии с предыдущими наблюдениями [38] и на основе последовательностей генов Hackauf et al. [37] установили статистически значимую коллинеарность хромосомы 5 риса и хромосомы 1 ржи.

Недавний прогресс в разделении больших геномов злаков на более мелкие части путем потоковой сортировки отдельных хромосом и хромосомных плеч, а также возможность получения достаточного количества ДНК всего из 10 000 хромосом с помощью амплификации с множественным смещением (MDA) значительно облегчили анализ колинеарности в злаки с большими геномами [39]–[43].Проточная цитометрическая сортировка хромосом ржи была разработана Kubaláková et al. [44] и Шимкова и соавт. [45]; авторы использовали проточную цитометрию для сортировки плеча хромосомы 1RS для создания библиотеки BAC, специфичной для 1RS. Наличие библиотеки ВАС, специфичной для 1RS, позволило впервые проанализировать состав последовательностей генома ржи, в частности 1RS, путем секвенирования концов ВАС [21]. Одновременно Кофлер и соавт. [46] разработали набор маркеров SSR из ДНК 1RS, отсортированных потоком. Несмотря на эти усилия, данные о последовательностях генома ржи (9240 последовательностей, что составляет 5557 уникальных генов) и сведения о ее коллинеарности с другими злаками все еще очень ограничены.Таким образом, развитие маркеров, связанных с представляющими интерес признаками, и позиционное клонирование генов также ограничены. Снижение сложности полных геномов путем выделения отдельных хромосом и их секвенирования с помощью технологии секвенирования следующего поколения является привлекательным средством получения больших объемов данных о последовательностях из конкретных областей генома для идентификации последовательностей генов и других локусов, которые могут служить маркерами, и для установления коллинеарность с другими видами, как это было показано для ячменя [41], [42] и пшеницы [43].

Настоящее исследование посвящено анализу состава последовательности плеча хромосомы 1RS. Пиросеквенирование ДНК методом дробовика 454, полученное из 1RS с потоковой сортировкой, привело к 0,43-кратному охвату последовательности плеча хромосомы. Этот новый подход также позволил подробно описать пространство генов, а также повторяющуюся часть этого важного плеча хромосомы, включая области SSR, которые можно использовать в качестве первых генетических маркеров. Проведен сравнительный анализ содержания генов 1RS с генами риса, Brachypodium distachyon и короткого плеча 1H хромосомы ячменя, что послужило основой для анализа изменений в структуре генома, сопровождающих эволюцию культурных трав.

Результаты

Набор данных и его качество

Телоцентрическая хромосома 1RS не стабильно наследуется в линиях сложения пшеницы и ржи. Поэтому необходим цитологический контроль семян, используемых для размножения, чтобы убедиться в наличии достаточного количества 1РС в образцах для проточной цитометрии. Это привело к хорошему разрешению плеча 1RS на гистограммах интенсивности флуоресценции хромосом (потоковые кариотипы), высоким выходам при сортировке хромосом и низкой контаминации отсортированных фракций другими хромосомами.Кариотип потока состоял из четырех пиков, представляющих различные хромосомы пшеницы, и хорошо разрешенного пика хромосомы 1RS (рис. 1). Телосому можно было легко отсортировать, и отсортированные 1RS были идентифицированы с помощью FISH с зондами, представляющими субтеломерный гетерохроматин (pSc200) и теломерные повторы (рис. 1). Чистота проб в отсортированной фракции варьировала от 89 до 93%. Наиболее чистый образец использовали для дальнейшей обработки. Эта выборка включала 93 % 1RS и 7 % различных хромосом пшеницы и их фрагментов.После очистки ДНК было получено 14 нг хромосомной ДНК из 30 000 телосом 1RS, отсортированных потоком, которые впоследствии были использованы для амплификации с множественным замещением (MDA), в основном, как описано Simková et al. [40]. Выход амплифицированной ДНК 1RS составил 5,1 мкг.

Рис. 1. Гистограмма относительной интенсивности флуоресценции («проточный кариотип»), полученная после проточного цитометрического анализа окрашенной DAPI суспензии хромосом пшенично-ржаной линии с добавлением телосом 1RS.

Кариотип содержит четыре пика, представляющие хромосомы пшеницы (обозначенные I, II, III и 3B), и пик телоцентрической хромосомы 1RS.Пик хромосомы 1RS четко различим, и хромосомы легко сортируются. Вставка: изображения отсортированных потоком хромосом 1RS после FISH с зондами для теломерных последовательностей (красный) и субтеломерных последовательностей ДНК pSc200 (зеленый). Хромосомы контрастировали DAPI (синий).

https://doi.org/10.1371/journal.pone.0030784.g001

Последовательность считывается.

В результате секвенирования Roche 454 FLX ДНК 1RS было прочитано 942 768 последовательностей. В этом наборе данных 42 167 прочтений последовательностей (4.5%) были идентифицированы как «идентичная последовательность», т.е. были обнаружены как минимум дважды в наборе данных, и рассматривались как предполагаемые артефакты, скорее всего, созданные с помощью эмульсионной ПЦР [47]. Оставляя одну прочитанную последовательность в наборе данных, дополнительные копии удаляли вместе с прочтениями короче 50 п.н. Остальные 895 199 прочтений последовательности набора данных составляли информацию о последовательности 195 313 ​​589 п.н. со средней длиной последовательности 219 п.н. и использовались для дальнейшего анализа (таблица S1). Предполагаемый размер хромосомы 1RS, который составляет около 5.6% всего генома ржи [19], составляет около 442 Мпн. Следовательно, доступная информация о последовательности составляет примерно 43,2% последовательности плеча хромосомы 1RS без учета возможных перекрытий.

Состав последовательности 1РС

Более 5% всех прочтений последовательностей связаны с генным пространством 1RS.

Для идентификации последовательностей, связанных с предполагаемым геном, использовались восемь баз данных последовательностей (таблица S2). Отдельные базы данных использовали для идентификации 5S и 45S рДНК, а также генов секалина.Используя пошаговую процедуру, описанную в разделе «Материалы и методы», мы идентифицировали 5,45% всех прочтений, представляющих генное пространство (48 841 прочтений). Из них 2,05% (18 325 прочтений) представляли два рибосомных локуса (1,78% и 0,26% для 45S и 5S локусов рДНК соответственно) и 0,05% секалиновые локусы (400 прочтений) (таблица S1).

Рибосомные локусы 1RS.

Локусы 45S и 5S рДНК обнаружены в непосредственной близости от дистальной части плеча хромосомы, как показано гибридизацией in situ , и, как сообщается, присутствуют примерно в 2000 и 5000 копиях [22], составляющих около 18 Мбн. (3,9%) и 2.3 млн пн (0,5%) генома 1RS соответственно. Это предполагает 7,8-кратную разницу в пространственных требованиях двух локусов, что также отражено в наших результатах: мы идентифицировали 15 962 прочтения последовательности (1,78%) для 45S рДНК и 2361 прочтение последовательности (0,26%) для локуса 5S рДНК. , что дает разницу в 6,75 раза (таблица S1).

Локус Secalin Sec-1.

Сообщалось о трех локусах секалина для ржи. Локусы Sec-1 и Sec-3 расположены на коротком и длинном плече хромосомы 1R соответственно.Локус Sec-1 на 1RS содержит гены γ-секалина 40 кДа и ω-секалина (∼45 кДа), тогда как Sec-3 на 1RL содержит локус HMW-секалина (∼100 кДа). Локус Sec-2 , обнаруженный на коротком плече хромосомы 2R, кодирует 75 кДа γ-секалин. Было обнаружено, что все 400 прочтений последовательностей (0,05%) связаны с генами секалина. Большинство — 316 идентифицированных прочтений — представляли гены ω-секалина, которые, как сообщается, присутствуют примерно в 15 копиях в 1RS [48], а 45 из них были связаны с γ-секалином.Кроме того, 39 прочтений последовательности не могут быть отнесены к генам γ-секалина или ω-секалина из-за высокого уровня гомологии последовательностей двух секалинов в определенных областях (таблица S1).

Аннотирование прочтений последовательностей выявило не менее 3121 генного локуса и не менее 1882 различных функций генов в 1RS.

Исключая рибосомные гены и гены секалина, 3,36% всех прочтений последовательностей (30 118 прочтений) идентифицировали генное пространство 1RS. Основываясь на гомологии генома риса, эти чтения последовательностей соответствуют 3121 различным моделям генов риса (таблица 1).Дополнительные 3638 предполагаемых генных локусов, которые не имели гомологии с набором моделей генов RGA (Rice Genome Annotation), были идентифицированы на основе записей в NCBI UniGene ( Hordeum , Oryza и Triticum ), RAP. -DB, Rye UniGene, Wheat ABDS и NT Cereal), соответственно, которые не имели гомологии с набором моделей генов RGA (Rice Genome Annotation). К оценочному числу в 3638 человек следует относиться с осторожностью. Даже при работе с наборами унигенов, содержащими только одну запись/ген в заданном наборе, между наборами данных унигенов могут существовать последовательности, представляющие один и тот же ген.Следовательно, эти результаты предполагают наличие по крайней мере 3121, но до 6759 локусов генов на 1RS, включая также два локуса секалина, без учета рибосомных генов (таблица 1 и подробности в таблице S3).

Определение количества функций генов в 1RS было основано на доступном наборе данных о рисе в базе данных RGA. Этот набор был дополнен функциональными аннотациями, найденными в базах данных Triticum , Hordeum UniGene и NT Cereal. Используя эти два подхода, мы идентифицировали 1882 функции генов, включая секалины γ и ω.Из них 1608 были основаны на наборе данных RGA риса, а 272 функции были восстановлены с помощью баз данных Triticum, UniGene, Hordeum, UniGene и NT Cereal (таблица 1). Кроме того, максимум 3852 дополнительных генных функции могут быть выдвинуты на основе либо существующих, но функционально не аннотированных последовательностей EST (экспрессированные гены), либо in silico идентифицированных областей предполагаемых генов (гипотетических генов). Аннотация функциональных генов выявила 43 локусов устойчивости к болезням , относящихся к 12 функциональным категориям, а также 29 локусов из 10 функциональных категорий, относящихся к устойчивости к мучнистой росе (таблица S3).

Гены, присутствующие в 1RS, срабатывают с вероятностью 95%.

Уравнения, данные Ландером и Уотерманом [49], и понятия биномиального распределения в элементарной теории вероятностей были использованы для получения аппроксимации вероятности обнаружения гена в настоящем анализе. Предполагая размер генома 1RS ржи 442×10 6 п.н., 895 199 прочтений последовательности со средней длиной 219 п.н. (L) и необходимым перекрытием (Т) 50 п.н., вероятность пропуска смежной области 1514 п.н. (указана средняя предполагаемая кодирующая область гена; http://rice.plantbiology.msu.edu) составит примерно 4,5%, а с помощью элементарной теории вероятностей — 5,0% соответственно. Другими словами, вероятность попадания в любой участок хромосомы размером 1,51 т.п.н. при хотя бы одном прочтении последовательности составляет 95%, и с этой вероятностью почти все гены представлены в нашем наборе данных, если предположить равномерное распределение прочтений последовательности вдоль генома 1RS. Для получения оценки распределения прочтений последовательности вдоль 1RS два гена, рибосомный локус 45S и ген ω-секалина, были проанализированы программным комплексом MOSAIK, который обеспечивает график покрытия с точностью до основания, анализируя представление каждого основания эталонная последовательность в последовательности читается.В качестве эталонных последовательностей были выбраны локально собранная единица рибосомного гена 45S, специфичная для ржи (JF489233), и запись последовательности AF000227, представляющая повторяющуюся единицу гена ω-секалина. Эти гены повторяются несколько раз в геноме 1RS, поэтому для анализа было доступно достаточное количество прочтений последовательности (таблица S1). Обе эталонные последовательности охватывают около 9 т.п.н., обеспечивая достаточную матрицу для анализа покрытия. В каждой матрице были самокомплементарные повторяющиеся области, как было выявлено с помощью точечного анализа, что давало более высокую множественность в этих областях (дополнительная фигура S1.). Локус ω-секалина дополнительно содержал область повтора, соответствующую записи TREP 255 (ретротранспозон, LTR, неизвестен), обеспечивающей повышенное покрытие этой области. Из общей длины гена ω-секалина 98,4% было представлено прочтениями последовательности, за исключением участка длиной 152 п.н. Среднее покрытие было примерно 9-кратным (стандартное отклонение +/-4) на пару оснований без учета повторяющихся областей, что по величине хорошо совпадает с опубликованным числом копий 15 для этого гена [48]. С другой стороны, полная длина рибосомного гена 45S была представлена ​​считываниями последовательности, дающими примерно 360-кратное (+/-71) среднее покрытие, без учета межгенной спейсерной области.Предполагаемое количество копий этого локуса у ржи составляет около 2000 [22], но Gustafson et al. [50] сообщили об уменьшении области NOR для 1RS, присутствующей в пшенице.

Примерно три четверти генома 1RS повторяются.

Идентификация повторяющихся элементов в считываниях последовательности 1RS выполнялась, как описано в разделе «Материалы и методы», в несколько последовательных этапов в рамках конвейера анализа. Подход включал идентификацию известных типов повторов, таких как микросателлитные области и повторы типа транспозонов, но также были идентифицированы элементы повторов de novo.

Повторы простой последовательности 1RS.

Повторы нетранспозонного типа, такие как SSR, были идентифицированы в 18,5% всех прочтений последовательностей (165 629 прочтений), что составляет 204 286 последовательностей SSR, которые присутствовали либо в виде одиночных, либо в виде составных SSR в различных комбинациях. Однако только 2048 из этих прочтений (0,23%) содержали SSR, охватывающие более 50% общей длины прочитанной последовательности. Они были идентифицированы как чтения SSR и не анализировались далее, в то время как остальные были помечены как чтения, содержащие SSR.(AG) n был наиболее распространенным динуклеотидным повтором (4,8%), за ним следовал (AT) n (3,5%). (AAG) n был наиболее распространенным (0,7%) среди тринуклеотидных повторов, а (AAAT) n среди тетрануклеотидов (0,2%) (таблица S4_Все SSR). Частота, особенно в случае три- и тетрануклеотидных повторов, может быть занижена, поскольку неопределенность при идентификации гомополимера 454 секвенирования может мешать обнаружению истинных областей SSR, прерывая последовательность регулярного повтора.

SSR, содержащие элементы в качестве генетических маркеров.

Две категории прочтений, содержащих SSR, были проанализированы для идентификации генетического маркера. Прочтения SSR (2048 прочтений) и чтения последовательностей, идентифицированные как связанные с генами, но также содержащие SSR. Почти четверть прочтений, связанных с генами, соответствовала этой последней категории (7162 прочтений). Для создания ПЦР-ампликонов для SSR идентифицировали положение SSR в прочитанной последовательности. Учитывая среднюю длину праймера ПЦР 18–22 п.н., мы рассчитали правильные положения SSR для фланкирующих длин минимум 30 п.н. и 40 п.н.Прочтения, содержащие SSR, удовлетворяющие этим требованиям, были помечены как предполагаемые кандидаты на роль генетических маркеров (таблица S4).

Что касается прочтений SSR, было идентифицировано 321 или 455 (15,7% и 22,2%) прочтений в зависимости от разрешенной длины фланкирующей последовательности в 30 или 40 п.н. (таблица S4_SSR). Это контрастировало с считываниями последовательностей, связанными с генами, где более половины чтений содержали SSR в пригодном для использования положении (SSR, связанные с таблицей S4_Gene). Предварительный анализ 103 прочтений SSR выявил 26 полос, специфичных исключительно для 1RS.

Шесть классов транспозонов доминируют в ландшафте повторов 1RS.

Обнаружение повторяющихся элементов известного типа было основано на базе данных повторов TREP с использованием ее категоризации также для тех элементов, которые были идентифицированы с использованием других баз данных. Таким образом, 68,5% всех прочтений были помечены как соответствующие хотя бы одной из записей (таблица 2). Повторяющиеся элементы 1RS охватывают 341 из 1717 записей, представленных в полной базе данных повторов TREP, включая 122 элемента класса I, 183 элемента класса II и 36 неклассифицированных типов (таблица S5).Однако 4 записи из 35 ржаного происхождения в базе данных TREP не дали гомологии ни с одной из считываний последовательностей, специфичных для 1RS. Идентифицированные прочтения включали часто используемые специфичные для ржи зонды, представляющие собой вкрапленные повторяющиеся элементы pSC119.1 (0,6%) и pSC119.2 (0,05%), преимущественно зонд, мечящий теломеры. Также «Revolver», недавно описанный [51] в геноме ржи равномерно распределенный транспозон, представлял 0,3% прочтений последовательности, в то время как Bilby (retrotransposon/LTR/Copia), специфичное для генома ржи семейство центромерных повторов [52], было представлено на 0.2% всех прочтений (таблица S5). Что касается элементов транспозонов, то суперсемейства Gypsy и Copia были наиболее распространенными ретротранспозонами, составляя около 42,7% и 7,3% прочтений последовательностей соответственно, за которыми следует суперсемейство ДНК-транспозонов CACTA (6,3% всех прочтений) (табл. 2).

Половина прочтений последовательности, идентифицированных как повторяющиеся элементы, были получены из 29 семейств транспозонов, из которых 25 представляли ретротранспозоны класса I (Gypsy 21 и Copia 4) и 4 семейства ДНК-транспозонов класса II (все CACTA).Самым многочисленным семейством в 1RS был ретроэлемент класса I Gypsy/Sabrina, составляющий 13,3% прочтений последовательности и примерно в 2,5 раза превосходящий по численности второй по распространенности, а именно Gypsy/WHAM (4,9%). Другими распространенными ретроэлементами были Wilma, Sabine и Cereba (все из надсемейства Gypsy), составляющие 3,3, 2,8 и 2,5% прочтений последовательности соответственно. Надсемейство CACTA Jorge было наиболее частым элементом транспозона ДНК класса II; что составляет 2,7% прочтений последовательности (таблица S5).

Чтения последовательности, частично удовлетворяющие критериям фильтрации (хорошее выравнивание, но низкое покрытие или плохое выравнивание, но хорошее покрытие), но не помеченные иным образом, также рассматривались как предполагаемые повторяющиеся элементы, представляющие 6.7% всех прочтений (табл. 2).

Новые повторяющиеся элементы.

RepeatScout — пакет программного обеспечения для поиска повторов de novo [53] — использовался для идентификации предполагаемых повторяющихся элементов. Эта система идентифицировала 9842 предполагаемых элемента повторяющейся последовательности после исключения повторов низкой сложности и тандемных повторов. Повторное сопоставление полученных мотивов предполагаемых повторов с прочтениями последовательностей с использованием программного обеспечения RepeatMasker дало 685 повторяющихся последовательностей, на которые попало не менее 10 прочтений последовательностей. Они были приняты как «повторы романа».Наконец, для устранения множественных представлений среди новых повторов был использован BASTClust, который уменьшил количество идентифицированных новых повторов до 638, представленных 31 001 прочтением последовательности. Новые повторы имели среднюю длину 245 пар оснований (в диапазоне 51–461 п.н.) и были представлены от 10 до 317 прочтений последовательностей.

Прочтения химерной последовательности указывают на предполагаемые вставки хлоропластов в 1RS.

Анализ ядерных геномов растений выявил вставки генов, происходящих из органелл, в ядерный геном [54], [55].Для оценки наличия прочтений последовательностей, специфичных для органелл, указывающих на предполагаемые вставки в 1RS, набор данных был сначала проверен с параметрами высокой строгости (90% перекрытия и 90% идентичности) по доступным хлоропластным и митохондриальным последовательностям пшеницы, идентифицируя 0,2% всех читает (1803 просмотров). В хит-последовательностях 421 представляет собой хлоропластную (Cp) и 1355 митохондриальную (Mt) последовательности, в то время как 27 не могут быть отнесены исключительно ни к одному из геномов (таблица S1). Во-вторых, скрининг с одинаково высоким значением идентичности (90%), но с уменьшенным перекрыванием (40%), был проведен для идентификации предполагаемых химерных фрагментов, представляющих органелларно-ядерные соединения, несущих как органелларные, так и предполагаемые 1RS-специфические последовательности ДНК.Этот последний скрининг выявил не митохондриальные, а 24 чтения последовательности, представляющие 15 хлоропластных областей химерного типа. Шесть из 15 областей представляли соединения хлоропласт/транспозон. Один представлял собой соединение, аннотированное как хромосомная ДНК Triticum aestivum, а 8 из них представляли собой соединения хлоропластов с областями последовательности без гомологии. Контролируя достоверность этих участков соединения с помощью ПЦР, 9 из 15 реамплифицировали из смеси различных сортов геномной ДНК ржи (3, 1 и 5 положительных реакций ПЦР в местах соединения хлоропласт/транспозон, хлоропласт/хромосома и хлоропласт/не- гомологии соответственно).Существование химерных фрагментов указывает на наличие вставок хлоропластного генома в 1RS, в то время как аналогичные митохондриальные вставки проверить не удалось. Чтения последовательности, специфичной для органелл, охватывают 54% хлоропластного и 49% митохондриального геномов, что дает несколько более высокие значения, чем среднее значение, полученное для всего набора данных (43%). Однако присутствие загрязняющей органелларной ДНК нельзя полностью исключить, особенно в случае митохондрий.

Разные некодирующие участки генома.

Для восстановления всех возможных совпадений прочтений последовательностей с доступной информацией о последовательностях растений, прочтения последовательностей были протестированы с базами данных, представляющими различную информацию о последовательностях некодирующих областей генома, таких как Brachypodium distachyon , и базами данных риса, представляющими 1 т.п.н. выше и ниже по течению области генов или межгенные области. Всего было идентифицировано 79 271 прочтений последовательностей, что составляет почти 8,9% всех прочтений функционально неидентифицированных областей.Большинство из них (8,47%) попали в 374 записи BAC NCBI (37 из Hordeum , 337 из Triticum ), в то время как остальные характеризовались базами данных Brachypodium и риса, представляющими 1 т.п.н. гены и записи NCBI, не относящиеся к BAC (SCAR, микросателлит, RAPD, маркер STS) (таблица S1)

Связь 1RS с геномами других трав

Synteny к
Oryza sativa и Brachypodium distachyon обнаруживает неравномерное распределение локусов.

Чтобы визуализировать синтению (идентичность содержания генов) генома 1RS с геномами риса и Brachypodium distachyon, модельные геномы были разделены in silico на 10 5 п.н. ячеек, в результате чего было получено 3729 и 2713 ячеек соответственно. В среднем эти корзины содержали 10,9 и 9,4 генных моделей на ячейку для Oryza sativa и Brachypodium distachyon соответственно (таблица 3). Впоследствии считывания последовательностей ржи, ранее идентифицированные как предполагаемые гены риса, и геномов Brachypodium distachyon были отнесены к этим корзинам на основе общей аннотации риса для локусов, относящихся к локусам LOC_Os риса (база данных аннотаций генома риса).Таким образом, 3076 моделей генов риса и 1363 из Brachypodium distachyon были распознаны в двух модельных геномах как гомологи считываний последовательности 1RS ржи. Гены-гомологи 1RS были разбросаны по геномам, включая 1863 (49,96%) и 931 (34,3%) бинов в геномах Oryza sativa и Brachypodium distachyon соответственно (рис. 2). Идентификация бинов, содержащих высокую долю локусов, гомологичных 1RS (Highly Homolog Bin, HHB), позволила нам идентифицировать области генома риса, предпочтительно представленные в 1RS.Высокогомологичные бины, возможно, представляют собой группу генов, которые были унаследованы как блоки в ходе эволюции. Мы идентифицировали 109 HHB в Oryza sativa и 100 HHB в Brachypodium distachyon , содержащих 436 и 306 хитов модели гена, соответственно (таблица 3). Как у Oryza sativa , так и у Brachypodium distachyon почти каждая вторая генная модель попадала в «высоко гомологичные корзины»: 43,56% и 44,41% генов соответственно.

Рис. 2. Синтения прочтений последовательности 1RS с не связанными с TE генными моделями Oryza sativa и Brachypodium distachyon .

Частота совпадений генов в сгенерированных in silico корзинах геномов Oryza sativa и Brachypodium distachyon была выражена как кратное стандартному отклонению (SD). A : Oryza sativa хромосом 1–12. B : Brachypodium distachyon хромосом 1–5. CEN : Центромера. Цветовая маркировка: 0 Бин без соответствия 1RS. 1 Бочки с незначительной гомологией 1RS 2 Бочки со значительной гомологией 1RS на уровне 95% (1.98 SD) 3 Бочки со значительной гомологией 1RS на уровне 99% (Highly Homolog Bin, 2,58 SD).

https://doi.org/10.1371/journal.pone.0030784.g002

Бункеры, демонстрирующие гомологию к прочтению последовательности, были распределены по всем хромосомам обоих модельных геномов (рис. 2), в то время как HHB показали кластеризацию в обоих геномах. У риса около 42 % ВСГ сконцентрировано в дистальной области короткого плеча хромосомы 5, в то время как у Brachypodium distachyon более половины (54 %) ВСГ сконцентрировано в проксимальной области длинного плеча хромосомы 2. Таблица 4).В этих HHB имеется 546 моделей генов риса и 502 модели Brachypodium distachyon , в то время как только 262 (48%) и 232 (46,2%) были поражены считываниями последовательностей, связанными с 1RS.

Анализ Synteny от 1RS до 1HS идентифицирует консервативные блоки генов.

Редкая доступность картированных маркеров 1RS на основе последовательностей по сравнению с 1HS не позволила провести прямой анализ коллинеарности (порядка генов) двух хромосом. Однако содержание гена 1RS коррелировало с содержанием гена 1HS на основе риса в качестве эталонного генома.Недавно был опубликован анализ коллинеарности хромосомы 1H ячменя к геномам риса и сорго [41], описывающий 4125 локусов риса, гомологичных генам, идентифицированным на 1H. Более трети этих генов (1409) располагались на хромосомах риса 5 и 10. В более поздней публикации это число было пересмотрено до 1845 [42]. Используя этот набор данных, мы идентифицировали 322 и 218 гомологичных локусов на коротком плече хромосомы 1H, гомологичных генам, идентифицированным на хромосомах риса 5 и 10 соответственно.Кроме того, мы идентифицировали 465 локусов гомологов 1RS риса на хромосоме 5 и 156 на хромосоме 10 (таблица S6). Гомологические наборы генов риса, соответствующие 1RS или 1HS, сравнивали, анализируя небольшие приращения генома риса с использованием виртуальных ячеек размером 10 5 п.н., описанных выше, что позволило идентифицировать наборы генов с высоким сходством. Индекс подобия бина был рассчитан путем сравнения количества генов, проявляющих гомологию как с 1HS, так и с 1RS (общие гены), со всеми генами, проявляющими гомологию 1HS и/или 1RS в этом конкретном бине (см. M&M).Что касается набора генов, связанных с хромосомой 5, было идентифицировано 242 общих гена (44,4%) из 545 локусов-гомологов. Они были рассредоточены по 57 ячейкам (среднее сходство 0,77). Что касается хромосомы 10, из 350 гомологов было идентифицировано только 24 (6,9%) общих гена, расположенных в 19 бинах (среднее сходство 0,18) (табл. 5). Что касается распределения генов-гомологов на хромосомах риса, то общие гомологи, специфичные для хромосомы 5, накапливаются в ячейках на дистальной части короткого плеча. Бункеры, содержащие общие гены, относящиеся к хромосоме 10, сгруппированы в середине длинного плеча (рис.3). Заметная разница, как в доле общих генов, так и в уровнях сходства, предполагает, что блоки генов, связанные с хромосомой 5, эволюционно более консервативны по сравнению с элементами, связанными с хромосомой 10, которые кластеризуются в перицентрической области 1HS. Кроме того, существует заметная разница между геномами 1HS и 1RS в отношении распределения тех генов, которые не являются общими для двух плеч хромосом. Исключительно 1RS-специфичные гомологи риса распределены по всей длине хромосом риса 5 и 10.Лишь единичные представительства исключительно 1HS-специфичных гомологов риса зарегистрированы на хромосоме 5. На 10-й хромосоме 1HS-специфические гомологи риса приурочены к области общих генов (рис. 3).

Рисунок 3. Сравнение содержания генов 1RS и 1HS на основе Chr.5 и Chr.10 модельного генома риса.

Сгенерированные in silico 10 5 п.н. виртуальных ячеек хромосом 5 и 10 риса использовались в качестве платформ для сравнения содержания генов гомологов 1RS и 1HS с рисом.Сходство 1RS с 1HS в отношении конкретного бункера для риса оценивали путем оценки доли общих локусов среди всех гомологичных локусов в конкретном бункере, как описано в разделе «Материалы и методы». Цветная полоса показывает уровень сходства, начиная с 0 (синий) до 1 (полное сходство; красный), что означает, что все локусы совпадения проявляют гомологию как с 1RS, так и с 1HS. Общий : распределение ячеек, содержащих гены, гомологичные как 1RS, так и 1HS. 1RS гомолог : ячейки, содержащие гены, гомолог 1RS, 1HS гомолог : распределение ячеек, содержащих гены, гомолог 1HS.В двух последних случаях красный цвет определяет ячейки с генами, представляющими исключительно гомологи 1RS или 1HS.

https://doi.org/10.1371/journal.pone.0030784.g003

Обсуждение

Высокопроизводительное 454 секвенирование оказалось мощным средством более глубокого понимания состава последовательностей огромных геномов растений за счет предоставления огромного количества информации о последовательностях по разумной цене [56], [57]. Недавний прогресс в расчленении геномов растений на мелкие части путем сортировки хромосом с использованием проточной цитометрии в сочетании с технологией высокопроизводительного секвенирования ДНК [39], [41]–[43] предоставил новые и мощные средства анализа сложных геномов растений размером в гигабазы.На сегодняшний день этот подход был использован для секвенирования хромосомы 1H ячменя [41] и хромосомы 7DS пшеницы [43]. Используя аналогичный подход, описанный Mayer et al. [41], в настоящем исследовании мы сосредоточились на коротком плече хромосомы 1R ржи, которое несет ряд известных важных для сельского хозяйства генов и было включено в большое количество сортов пшеницы как транслокация 1BL.1RS. Наши результаты дают первое крупномасштабное представление о структуре последовательностей и составе генома ржи и, в частности, 1RS.Кроме того, мы показали, что покрытие чтения последовательностей следующего поколения всего лишь 0,43× может дать ценную информацию об интересующем геноме, позволяя идентифицировать гены, присутствующие в геноме, с оценочной вероятностью до 95%.

В этой работе мы использовали технологию Roche 454 FLX для секвенирования ДНК, полученной из хромосомы 1RS, отсортированной потоком. Чтобы получить достаточное количество ДНК для секвенирования, ДНК отсортированных хромосом амплифицировали с помощью амплификации с множественным смещением. Несмотря на то, что MDA имеет наименьшую погрешность амплификации среди методов полногеномной амплификации [58], он имеет свои ограничения в количественном анализе из-за неравномерной амплификации определенных повторяющихся элементов [59].Поэтому количественную интерпретацию настоящих результатов, особенно в отношении повторяющихся элементов, следует проводить с осторожностью. Однако сравнительный анализ основных классов повторов с 454 прочтениями последовательностей (любезно предоставленными д-ром А. Хубеном), представляющих весь геном ржи (охват ~0,04x) без MDA, выявил лишь незначительные различия, которые можно объяснить либо существующими разница между полным геномом и 1RS или разница в покрытии (данные не показаны).

При отсутствии эталонного генома самой большой проблемой при анализе 454 фрагментов является сопоставление считанных последовательностей с записями разнообразных и в значительной степени гетерологичных баз данных с помощью BLAST.Даже с большими базами данных последовательностей, когда длина входной последовательности очень мала (т. е. 100 п.н. и ниже), значение e имеет тенденцию быть очень высоким (e -2 и выше) даже при идеальном выравнивании. Причина этого в том, что более короткое выравнивание с гораздо большей вероятностью будет случайным, чем более длинное. В частности, для 454 последовательностей это может привести к пропуску значимых совпадений при использовании e-значения для оценки совпадений, поскольку даже высокое перекрытие (до 100%) или высокая идентичность (между 90 и 100%) не будут адекватно отражены в электронная стоимость.По этой причине были введены критерии, основанные на перекрытии (не менее 55%), а также идентичности (не менее 80%) и длине выравнивания не менее 60 п.н. или 20 а.о. соответственно. Однако при использовании этих критериев хорошее выравнивание более длинных прочтений последовательностей (самые длинные 454 фрагмента имели длину до 350 п.н.) были бы непреднамеренно упущены из-за параметра строгой идентичности (минимум) 80%. Таким образом, в качестве вторичного набора параметров был введен подход e-значения с использованием предела e −20 с пониженной идентичностью (70%).Согласно нашему опыту, различные алгоритмы BLAST (BLASTn, BLASTp, BLASTx, tBLASTx) более чувствительны к различиям в реализации, чем фильтрация на основе идентичности/перекрытия, которая применялась в качестве основного набора параметров. Поэтому обоснованно предполагалось, что результаты BLAST будут в высокой степени сопоставимыми.

В ходе этой работы была получена информация о последовательности почти 200 миллионов п.н., что дает примерно 0,43-кратное покрытие плеча хромосомы 1RS. Несмотря на относительно низкий охват, вероятность поражения гена оценивалась в 95%.Довольно однородный охват генов 45S рДНК и ω-секалина подтверждает эту оценку и предполагает, что теоретически почти все генные локусы, присутствующие в 1RS, были идентифицированы. Однако идентификация генов в наборе данных может быть затруднена из-за эволюционной дистанции запрашиваемых последовательностей и используемых баз данных гетерологичных последовательностей, что приводит к более низкому уровню извлечения генов. Чтобы хотя бы частично решить эту проблему, мы использовали несколько баз данных последовательностей близкородственных видов. Один из подходов к оценке предполагаемого количества генных локусов в 1RS заключается в суммировании количества непересекающихся генных локусов, попадающих в разные базы данных с учетом генного пространства.С помощью этой процедуры мы оценили количество локусов генов в 1RS в диапазоне от 3121 до 6759, включая гены секалина. Однако, учитывая контаминацию отсортированной фракции 1RS различными хромосомами пшеницы, мы также можем предсказать завышение количества генов примерно на 10%. Более того, к аннотациям, возникающим из баз данных UniGene, следует относиться с осторожностью, поскольку эти базы данных содержат записи EST. Таким образом, один и тот же локус гена может представлять более одной записи Unigene. Записи также могут быть связаны с мобильными элементами, а дубликаты генов могут существовать в наборах данных, специфичных для разных видов.Все эти факторы могут еще больше уменьшить предполагаемое наибольшее количество генных локусов на 1RS.

При условии, что 1RS включает около 5,6% генома ржи и содержит по крайней мере 3121 локус гена, можно предположить, что на гаплоидный геном ржи приходится 56 000 локусов гена, без учета локусов рДНК. Это хорошо согласуется с размером почти 51 000 идентифицированных моделей генов у Oryza sativa (http://rice.plantbiology.msu.edu/), от 38 000 до 48 000 генов у ячменя [41], [42] и 55 000 генов. до 111 000 генных локусов на диплоидный геном пшеницы [60].С другой стороны, мы идентифицировали по крайней мере 1882 различных функции генов, связанных с 1RS, что, безусловно, является недооценкой истинного количества функций генов, поскольку 3852 экспрессированных и гипотетических гена были идентифицированы без функциональной аннотации. Среди идентифицированных функций генов несколько локусов, участвующих в устойчивости к мучнистой росе, были обнаружены в 1RS, которые могут быть ответственны за передачу этой устойчивости сортам пшеницы. В нашем наборе данных все одиннадцать генов, признанных Bartos et al.[21] в 1RS с использованием BAC была восстановлена ​​информация о конечной последовательности.

Анализ сиквенс-состава 1RS дал возможность сосредоточиться на репрезентации органеллярных элементов генома. У эукариот происходил и до сих пор происходит обмен ДНК между геномами митохондрий и хлоропластов, происходящими в результате эндосимбиоза, и ядром, что служит важной движущей силой эволюции генов и геномов [61]–[63]. Перенос ДНК из органеллы в ядро ​​во время ранней эволюции органелл привел к массивному перемещению генов органелл в ядро, в результате чего функциональные объекты все еще активно транскрибируются.Напротив, почти все недавние ядерные переносы митохондриальной или пластидной ДНК связаны с некодирующими последовательностями. Сообщалось, что в геноме риса органелларные вставки, возможно, происходят в горячих точках, где могут быть обнаружены целые блоки органелларных вставок ДНК [64]. Настоящее исследование выявило наличие вставок хлоропластов в 1RS путем идентификации прочтений химерных последовательностей хлоропластов и предполагаемых геномных элементов. Несмотря на большее количество идентифицированных прочтений специфических митохондриальных последовательностей, химерные фрагменты с митохондриальными последовательностями не были обнаружены, что позволяет предположить возможное митохондриальное загрязнение отсортированных хромосом.

Наши результаты показывают, что 74,46% последовательности плеча хромосомы 1RS содержат известные повторяющиеся элементы, включая локусы рибосом, но исключая предполагаемые семейства генов. Эти данные хорошо согласуются с данными, представленными Bartoš et al. [21], основанный на анализе концевых последовательностей ВАС (BES) клонов, представляющих 1RS (75,6% известных повторов). Однако были различия в подклассах, например. Цыгане 49% против 43%, Copia 14% против 7,3% и CACTA 4,4% против 6,3%, сравнивая BES и настоящий набор данных. Эта разница может быть объяснена примерно 100-кратной разницей в покрытии: 0.45% против 43% охвата генома 1RS для BES и настоящего набора данных соответственно. Кроме того, Bartoš et al. [21] обнаружили 8,8% неизвестных повторяющихся элементов, в то время как в нашем случае мы идентифицировали около 4% новых повторяющихся элементов с помощью поиска RepeatScout, что дало 84,2% и 74,5% повторяющихся элементов соответственно. Однако данные, основанные на информации о последовательности 1RS, значительно ниже уровня 92%, опубликованного ранее Flavell et al. [20]. В последней работе часть повторяющихся последовательностей всего генома ржи была определена с помощью анализа C o t, который идентифицирует все повторяющиеся элементы в геноме, в то время как BES и наша стратегия идентифицировали повторяющиеся элементы, используя только методы in silico.Отклонение данных, полученных in silico, от ранее сообщенных Flavell et al. [20] может быть связано с разницей в методологии C o t анализ более чувствителен к идентификации повторяющихся элементов последовательности в геноме.

Полученная информация о последовательности также может быть использована для создания генетических маркеров для этого плеча хромосомы. Таким образом, мы идентифицировали около 5000 предполагаемых маркерных сайтов на основе областей SSR, либо охватывающих более половины прочитанной последовательности, либо присутствующих в прочитанной последовательности, представляющей генное пространство 1RS.Предварительные эксперименты показали, что около четверти идентифицированных участков могут служить специфическими маркерами 1RS на основе ПЦР у транслокационных 1BL.1RS пшениц. Эти ампликоны, возможно, применимы и к диплоидной ржи. В дополнение к маркерным сайтам на основе SSR вся информация о последовательности, относящаяся к генам в 1RS, может быть использована для создания, например, маркеров типа SNP или InDel путем повторного секвенирования.

Коллинеарность геномов растений была обнаружена после появления сравнительного картирования, кульминацией которого стало создание сравнительной геномики.Наиболее полный набор данных о царстве растений доступен для семейства Poaceae , включая основные злаки кукурузу, пшеницу, ячмень, рожь, сорго и просо, а также рис и Brachypodium distachyon . Последние два вида представляют собой полностью секвенированные малые геномы [65], [66]. В нашем исследовании аннотированные 454 прочтения последовательности не были генетически картированы на плече хромосомы ржи. Однако большое количество предполагаемых генных локусов позволило провести подробный полногеномный корреляционный анализ 1RS с полными геномами риса и Brachypodium distachyon .Анализ показал, что гены, присутствующие в 1RS, разбросаны по всей длине двух модельных геномов, но неравномерно. В соответствии с предыдущими наблюдениями о коллинеарности хромосомы 5 риса и хромосомы 1 ржи [37], [38], в нашем случае высокогомологичные бины, представляющие синтетические области, сгруппированы в дистальной области короткого плеча хромосомы 5 риса и в проксимальной области. область длинного плеча chr2 Brachypodium distachyon . Это согласуется с высокой коллинеарностью между рисом и Brachypodium distachyon в этих двух регионах.Кроме того, в настоящем исследовании мы показываем первый анализ синтении внутри Triticeae между рожью и ячменем на основе данных, полученных с помощью технологии секвенирования нового поколения. Сравнение содержания генов коротких плеч хромосомы 1 было выполнено с использованием информации о последовательности, доступной для генома риса, используемого в качестве платформы, поскольку полная информация о последовательности сравниваемых геномов недоступна. С помощью виртуальных бинов, сгенерированных на модельном геноме, выявлены участки генома, которые наследуются блоками в ходе эволюции этих видов.Синтенический анализ коротких плеч хромосомы 1 двух видов показал, что более компактные участки генома риса представлены в 1HS, тогда как участки гомологов 1RS более рассеяны в анализируемых хромосомах риса. Наибольшее сходство содержания гена 1RS/1HS было локализовано в дистальной части хромосомы 5 риса, что предполагает высокий уровень консервативности в этом регионе. Гораздо меньшее сходство наблюдалось в отношении генов, связанных с хромосомой 10, которые представляют перицентрическую область 1HS.Наблюдаемое различие между двумя плечами хромосом может быть связано либо с приблизительным положением центромеры в 1H, либо с меньшей консервативностью этого участка в ходе эволюции. Однако мы должны отметить, что различный подход к идентификации гомологии в 1RS и 1HS также может способствовать наблюдаемым различиям.

Заключение

Из-за присутствия во многих сортах пшеницы, выращиваемых по всему миру, плечо хромосомы ржи 1RS считается важным элементом зародышевой плазмы пшеницы.Настоящее исследование выявило содержание генов и потенциальные функции генов на этом плече хромосомы и продемонстрировало многочисленные элементы последовательности, такие как SSR и связанные с генами последовательности, которые можно использовать для будущих исследований, а также при селекции пшеницы и ржи. Недавно также были созданы контиги 1RS с отпечатками BAC (Burg K, неопубликовано) и помещены в базу данных физических карт, размещенную Калифорнийским университетом в Дэвисе (http://probes.pw.usda.gov:8080/rye1RS/). Цучида и др. [67] разработали линии делеции (рассечения) 1RS, которые были успешно использованы для физического картирования 150 1RS-специфических маркеров SSR 26, происходящих из настоящего исследования, в 15 ячеек (Lelley T, личное сообщение).В настоящем исследовании мы сопоставили содержание гена 1RS с плечом хромосомы 1HS Hordeum , которое генетически является хорошо изученным компонентом геномов Triticeae. Все эти результаты и ресурсы будут способствовать дальнейшему описанию молекулярной структуры 1RS. Поскольку все хромосомы ржи могут быть очищены методом проточной цитометрии либо непосредственно из ржи (хромосома 1R), либо из пшенично-ржаных линий с добавлением хромосом — хромосомы 2R–7R [44], может быть использована стратегия, изложенная и проверенная в настоящем исследовании. для секвенирования и детального анализа всего генома ржи поэтапно для каждой хромосомы.

Материалы и методы

Хромосомная сортировка и амплификация с множественным смещением (MDA)

Семена 1RS пшенично-ржаной дителосомной аддитивной линии, полученной из ржи ( Secale злаковый L.) cv. «Империал» на фоне пшеницы ( Triticum aestivum L.) сорт. «Китайская весна» [68], предоставлены доктором Б. Фрибе (Канзасский государственный университет, Манхэттен, США). Поскольку эта линия добавления 1RS является цитологически нестабильной, семена, отобранные для размножения, проверяли на наличие 1RS цитологическим методом в кончиках корней.Выращивали только те семена, которые имели 44 хромосомы, включая два телоцентрика 1RS. Растения из таких семян дают около 60% дителоцентрических и 40% монотелоцентрических потомков, в то время как монотелоцентрические растения с 43 хромосомами (42 + 1 телоцентрический 1RS) будут давать только около 30% монотелоцентрических и не дителоцентрических потомков, что делает их непригодными для сортировки. Семена проращивают до оптимальной длины корня 2-3 см. Синхронизацию клеточного цикла и накопление метафаз в кончиках корней и приготовление жидких суспензий хромосом проводили по Kubaláková et al.[44]. Хромосомы в суспензии окрашивали 2 мкг/мл DAPI (4′,6-диамидино-2-фенилиндол) и анализировали с использованием проточного цитометра FACSVantage SE (Becton Dickinson, Сан-Хосе, США) со скоростью около 800–1200 хромосом/мл. сек. Телосомы 1RS сортировали со скоростью 10/сек партиями по 30000 в 50 мкл деионизированной воды в пробирке для ПЦР. Чистоту отсортированных фракций проверяли с помощью флуоресцентной гибридизации in situ с хромосомами, отсортированными на предметном стекле, с использованием зондов для субтеломерного гетерохроматина (pSc200) и теломерных повторов [40].Изотермическую амплификацию хромосомной ДНК проводили согласно Šimková et al. [40]: отсортированные потоком хромосомы обрабатывали протеиназой К, очищали на колонке Microcon YM-100 (Millipore Corporate, Billerica, USA) и очищали хромосомную ДНК, амплифицировали с использованием набора illustra GenomiPhi V2 DNA Amplification Kit (GE Healthcare, Chalfont St. Giles, Соединенное Королевство), согласно инструкции производителя, в реакционной смеси по 20 мкл в течение 1,5 часов. Образцы были лиофилизированы и отправлены для секвенирования 454.

Roche 454 FLX работает

Пять микрограммов ДНК, амплифицированной из 1RS, отсортированных потоком, использовали для подготовки библиотеки секвенирования 454 с использованием набора для подготовки библиотеки ДНК GS FLX в соответствии с инструкциями производителя (Roche Diagnostics, Брэнфорд, США). Одноцепочечные библиотеки секвенирования 454 были количественно определены с помощью количественного анализа ПЦР [69] и обработаны с использованием стандартного набора emPCR GSFLX I и стандартного набора для секвенирования LR70 (Roche Diagnostics, Бранфорд, США) в соответствии с инструкциями производителя.Секвенирование проводили на четырех дорожках 16-полосной прокладки на планшете для титрования FLX 70×75 («титрование») и на двух полных планшетах для титрования 70×75, что дало 942 768 прочтений со средней длиной прочтений 219 п.н., что дало ∼ 205 МБ необработанных данных последовательности. Данные двух полных циклов вместе с циклом титрования были объединены для обработки всего набора данных в одной партии.

Анализ последовательности.

Некачественные считывания последовательностей были удалены с помощью встроенного в Roche 454 NEWBLER (v1.1.03.24) программное обеспечение. Был создан биоинформатический конвейер для анализа оставшихся прочтений последовательности. Для этого были интегрированы различные программные средства и сценарии Perl. Ядром документирования результатов была база данных Microsoft SQL Server, которая использовалась для сбора всех выходных данных анализа и хранения данных анализа для последующих запросов результатов.

Конвейер использовал пошаговую процедуру классификации чтений последовательностей, начиная с исключения фрагментов короче 50 бит/с. Оставшиеся прочтения последовательностей были отсканированы на наличие идеальных и почти идеальных дубликатов последовательностей с использованием PHRAP [70] для удаления технических артефактов.Две прочтенные последовательности считались идеальными дубликатами, если они были одинаковой длины и при выравнивании двух последовательностей не было обнаружено несоответствия по одному основанию. Прочтения последовательности считались почти идеальными дубликатами, если они показывали (1) разницу в длине менее 5 п.н., (2) не более трех несоответствий и (3) максимум 2 п.н. смещения в выравнивании. Прочтения последовательности, удовлетворяющие одному из двух критериев соответствия, считались техническими дубликатами и удалялись, оставляя в наборе данных только одно репрезентативное прочтение последовательности.После удаления технически неподходящих прочтений качество последовательности оставшихся прочтений последовательности было проверено путем анализа «значений качества, совместимых с PHRED» [71], полученных из потоковых диаграмм. Эти проверки показали, что 99,1% прочтений последовательностей имели баллы выше 20, а 0,86% — между 15 и 20. Лишь 169 прочтений последовательностей имели баллы от 10 до 15, и только 5 были ниже 10.

После удаления низкокачественных последовательностей оставшиеся прочтения последовательностей рассматривались как репрезентативный набор данных для 1RS, который затем анализировали на наличие повторов, органелл или генных элементов генома, как описано ниже.После каждого шага вновь классифицированные чтения последовательностей помечались соответствующей классификацией и удалялись из набора данных, то есть исключались из следующих шагов анализа.

Идентификация ТТР

Репрезентативный набор данных был подвергнут двухэтапному анализу SSR с использованием программного обеспечения SciRoKo [72]. Во-первых, были идентифицированы мононуклеотиды длиннее 8 п.н. и динуклеотиды с >4 повторениями мотива. Во-вторых, были идентифицированы тринуклеотиды с >4 повторами и тетра-, пента- и гексануклеотиды с >3 повторениями мотива.Из дальнейшего анализа исключались только фрагменты с участками SSR, охватывающими более 50% длины фрагмента; остальные последовательности были помечены как элементы, содержащие SSR, и сохранены в наборе данных для последующего анализа.

Повторяющийся элемент и обнаружение рДНК

повторяющихся элемента и рДНК идентифицировали с помощью программы RepeatMasker [73] со стандартными настройками параметров, за исключением того, что проверка бактериальной вставки была отключена. В качестве справочных баз данных для обнаружения повторяющихся элементов использовались три набора данных: а) TREP, б) повторы TIGR Oryza и в) самостоятельно составленная коллекция из элементов Secale Revolver.Для обнаружения рДНК были выбраны три набора данных: а) все элементы рДНК MIPS-REcat, б) все элементы рДНК повторов TIGR Oryza и в) самостоятельно составленная коллекция из элементов рДНК Musa и Secale ( Таблица S2). Автоматическая классификация выравниваний между прочтениями последовательностей ржи и эталонными последовательностями основывалась на следующих критериях: выравнивание считалось неприемлемым, если а) perc_div (расхождение в процентах) превышало 30% или b) perc_div составляло от 20 до 30% и либо perc_ins (процентное расхождение) вставок) или perc_del (процент удалений) превышали 5%.Кроме того, выравнивания с перекрытием менее 20 п.н. считались ненадежными. Все остальные выравнивания были приняты как качественные хиты. Все прочтения последовательностей, охватываемые более чем 60% совпадений качества, были классифицированы как повторяющиеся элементы или рДНК и исключены из последующего анализа. Все прочтения последовательностей, соответствующие критериям качества, но либо с охватом менее 60%, либо с плохим выравниванием, были помечены как предполагаемые элементы в соответствующей категории и сохранены в наборе данных. В конце конвейера анализа считывания помеченных последовательностей без выделенной функции были отнесены к категории предполагаемых повторов.Впоследствии неклассифицированные чтения последовательностей были дополнительно проанализированы с помощью BLAST по сравнению со всеми последовательностями Secale , Triticum и Hordeum базы данных NCBI NT Cereal (таблица S2), которая содержит значительное количество информации о последовательностях, связанных с транспозонами. Были идентифицированы считывания последовательности, производящие значительное попадание (подробности о применяемых параметрах приведены ниже) в отношении элементов транспозона или рДНК, которые также были удалены из последующего анализа.

Экспрессированные последовательности, связанные с транспозоном, были идентифицированы с использованием базы данных белков риса, выполняющей поиск в начальной строке FASTA записи «транспозон».

Все повторяющиеся элементы, идентифицированные последними базами данных, были вписаны в номенклатурную систему базы данных TREP.

Органеллярные элементы

чтения последовательностей, связанных с органеллами, были идентифицированы путем сравнения BLAST с доступными последовательностями хлоропластов и митохондрий T. aestivum (таблица S2). WU-BLAST использовали для сравнения последовательностей, используя 90% в качестве порогового значения как для перекрытия, так и для идентичности. Чтения последовательностей, дающие совпадение с одной из двух эталонных последовательностей, были классифицированы как органелларные элементы и впоследствии удалены из набора данных.Второй раунд поиска был проведен по уменьшенному значению перекрытия (40%), чтобы идентифицировать предполагаемые химерные чтения последовательностей, содержащие как органеллы, так и геномные элементы, связанные с 1RS.

Унифицированная (аннотационная) онтология на основе риса

Чтобы получить общую аннотацию для всех прочтений последовательностей, согласованных между видами, все эталонные последовательности доступны в базе данных пептидов Brachypodium distachyon , Secale злаков, UniGene, Triticum aestivum, UniGene, Oryza sativa, UniGene и 5. записи базы данных были аннотированы относительно базы данных пептидов Oryza (т.е. Аннотация генома риса, RGA) с использованием BLASTp или BLASTx с параметрами, описанными ниже. Дополнительные источники аннотаций использовались для локусов, которые не могли быть аннотированы на основе наборов данных RGA. Некоторые из записей баз данных Triticum UniGene и Hordeum UniGene уже имели аннотацию NCBI, которые были приняты в качестве дополнительных источников аннотаций для ридов последовательности ржи. Впоследствии оставшиеся неаннотированные записи были подвергнуты поиску BLAST по записям RAP-DB (база данных проекта аннотаций риса), в результате чего были получены дополнительные аннотированные записи базы данных.Используя этот подход, примерно 10% локусов UniGene могут быть аннотированы с помощью RGA, 2% с помощью NCBI и 1% с помощью RAP-DB.

Обнаружение прочтений последовательностей, представляющих генное пространство

Все еще неклассифицированные чтения последовательности набора данных были подвергнуты серии анализов WU-BLAST 2.0. Одиннадцать наборов данных были использованы для идентификации прочтений последовательностей, представляющих пространство генов 1RS (таблица S2). Для получения информации о пространстве генов 1RS мы сначала идентифицировали хорошо известные локусы генов секалинов (ω-секалин и γ-секалин).Затем восемь эталонных наборов данных были использованы для идентификации прочтений последовательностей, представляющих предполагаемые экспрессированные части генома ( пептидов Oryza sativa , пептидов Brachypodium distachyon , NCBI: Oryza sativa UniGene, Secale зерновых UniGene, Triticum aest). Hordeum vulgare UniGene, NT Зерновые и бин-картированные локусы коротких плеч хромосом пшеницы 1A, 1B и 1D). Два дополнительных набора данных были использованы для выяснения предполагаемых нетранскрибируемых областей пространства генов 1RS ( Oryza UTR, Oryza Intron).Только набор данных Secale UniGene был видоспецифичным и, следовательно, был приведен в соответствие с доступными считываниями последовательностей с использованием BLASTn. Сравнение прочтений последовательности с другими видами проводилось в первую очередь на уровне белка с использованием BLASTx в базах данных Oryza sativa и Brachypodium distachyon Peptide. Чтобы оптимизировать восстановление аннотаций чтения последовательностей, как tBLASTx, так и BLASTn использовались для идентификации последовательностей, специфичных для генного пространства, в базах данных Oryza , Triticum , Hordeum UniGene и NT Cereal, где последовательности субъектов и запросов были на уровне нуклеотидов. .Перекрытия между двумя методами оказались достаточно высокими. Вопреки нашим ожиданиям, с помощью tBLASTx было выявлено только 10% дополнительных качественных совпадений (данные не показаны).

Для автоматизированного анализа результатов BLAST было важно использовать один и тот же набор параметров для всех сравнений последовательностей. Выравнивание двух последовательностей считалось значимым, если i) либо они имели перекрытие не менее 55 %, идентичность не менее 80 % и длину выравнивания не менее 60 п.н. или 20 а.о. соответственно, или, альтернативно, ii) они имели e-значение e -20 и идентичность не менее 70%.Первый критерий использовался для первичной фильтрации набора данных, за ним следовал критерий 2 с последующим объединением попаданий. Первое попадание, отвечающее этим критериям, использовалось в качестве аннотации для данного считывания последовательности, показывая одну аннотацию на считывание.

Анализ синтении 1RS ржи к геномам Oryza sativa и Brachypodium distachyon

Чтобы визуализировать синтению последовательности 1RS к геномам риса и Brachypodium distachyon, модельные геномы были разделены in silico на 10 5 ячеек п.н.Впоследствии считывания последовательностей, ранее идентифицированные как предполагаемые гены в соответствующем геноме, были распределены по сгенерированным корзинам. Для каждого бина была определена необработанная оценка (X = количество локусов, пораженных по крайней мере одним считыванием последовательности, деленное на общее количество локусов в бине). Для сравнения бинов стандартная оценка (Z) для каждого бина была определена в соответствии со следующей формулой: (X = исходный балл, μ = среднее значение, σ = стандартное отклонение). Чтобы идентифицировать бины и области модельных геномов, которые чрезмерно представлены в 1RS, высокогомологических бинов (HHB) со стандартными баллами более 2.Было выбрано 58 × стандартное отклонение (σ) (предел 99%), и было проанализировано их распределение в модельных геномах.

Сравнительный анализ содержания генов 1HS и 1RS

Для сравнения содержания генов 1RS и 1HS доля общего содержания генов-гомологов (сходство) виртуальных ячеек размером 10 5 п.н. была рассчитана по следующей формуле: C 1RS&1HS : количество локусов риса, проявляющих гомологию к считываниям специфических последовательностей как 1RS, так и 1HS (общие локусы).H 1RS : число локусов риса, гомологичных прочтению специфической последовательности 1RS. H 1HS : количество локусов риса, гомологичных прочтению специфической последовательности 1HS.

При расчете доли гомолога, но не общих локусов, связанных с 1RS или 1HS, использовалась аналогичная формула, за исключением того, что числитель был изменен на H 1RS -C 1RS&1HS для 1RS или H 1HS — C 1RS&1HS за 1ХС.

Преобразование идентификаций локусов RAP-DB, опубликованных в Mayer et al.[42] в соответствующие локусы RGA проводили с использованием таблицы преобразования RGA-MSU (http://rapdb.dna.affrc.go.jp/download/index.html). Предполагаемое положение центромеры в 1H было определено в соответствии с набором карт UCR04162008 The Hordeum Toolbox (http://wheat.pw.usda.gov/tht/maps.php). На основании этого были идентифицированы 300 локусов гомологов RGA хромосомы 5 и 168 хромосомы 10, представляющих геном 1HS (таблица S6).

Оценка вероятности попадания отдельных генов в 1RS

Для оценки вероятности попадания в одиночный ген применялись как уравнения Ландера и Уотермана [49], так и элементарная теория вероятностей.Используя формулы Ландера и Уотермана, была рассчитана вероятность того, что ген средней длины (L g п.н.) не охвачен ни одним считыванием последовательности, содержащимся в текущем наборе данных, исходя из следующего предположения: вероятность для «океана» (разрыв между двумя обнаруженными последовательностями) длины kL задается как e −c(k+θ) , где L — длина средней прочитанной последовательности, k — коэффициент размера (L g / L), c = (N * L)/G — избыточность покрытия, θ = T/L.(N = количество прочтений последовательности, L = средняя длина прочитанной последовательности в п.н., G = длина исследуемого генома в п.н. и T = желаемая длина для обнаружения перекрытия в п.н.). Используя элементарную теорию вероятностей и применяя понятия биномиального распределения, вероятность того, что данная часть генома не будет поражена, определяется как (1-L/G) N , что приблизительно эквивалентно e -c для больших №

График покрытия локусов ω-секалина и 45S рДНК

МОЗАИК — http://биоинформатика.bc.edu/marthlab/Mosaik — ассемблер, управляемый ссылками, использовался для сопоставления всех прочтений последовательностей с эталонными последовательностями ржи 45S (JF489233) и ω-секалина (AF000227) с использованием размера хеша 10 и частоты ошибок 20. % в выравнивании. MosaikCoverage использовался для создания графического представления смещения репрезентативности на графике базового точного покрытия. Было разрешено множественное выравнивание, так что считывание последовательности, попадающее в различные области в эталоне, несколько раз отображалось в распределении покрытия.Повторяющиеся части эталонных последовательностей визуализировали с помощью программного обеспечения для создания точечных диаграмм Gepard [74].

Разные некодирующие элементы

После идентификации прочтений последовательностей, связанных с органеллами, повторами и генным пространством, оставшиеся прочтения, отмеченные ранее как предполагаемые повторы и впоследствии не идентифицированные иначе, были перемещены в категорию «Предполагаемые повторы». Остальные считывания последовательностей были проверены на предмет того, связаны ли они с каким-либо типом геномных элементов, присутствующих в Brachypodium distachyon 1k выше по течению и 1k ниже по течению, а также в базах данных Oryza 1k выше по течению и межгенных Oryza или NT Cereal с использованием BLASTn.

Идентификация новых повторяющихся элементов

Новые повторяющиеся элементы были идентифицированы в два этапа программным пакетом RepeatScout, анализирующим риды последовательностей, не помеченные на предыдущих этапах. На начальном этапе с использованием стандартных настроек программное обеспечение генерировало предполагаемые новые последовательности повторяющихся элементов с последующим удалением элементов низкой сложности и тандемных повторов. Полученные предполагаемые новые повторяющиеся элементы были проверены путем повторного выравнивания их с последовательностями, считанными с помощью RepeatMasker, установленного как минимум на 50% перекрытия и 85% сходства.Предполагаемые повторяющиеся элементы, на которые попало более 10 прочтений последовательности, были идентифицированы как новые повторяющиеся элементы. Анализ BLASTClust (перекрытие 60% и идентичность 90%) использовали для исключения предполагаемых новых повторов, представляющих одну и ту же последовательность повторов.

Все считывания последовательности Roche 454FLX, полученные в этом исследовании, были отправлены в архив коротких считываний NCBI GenBank под регистрационным номером SRA012605.

База данных (форматы MSExcel2007, MySQL 5.1 Dump, Unix Text и Windows Text), содержащая теги прочтений последовательностей, доступна для скачивания на сайте: http://www.picme.at/index.php/downloads.

Благодарности

Благодарим д-ра Павлу Суханкову, д-ра Ярмилу Чигаликову, Роману Новакову, доц. и г-же Зденьке Дубской за отличную помощь в сортировке хромосом и амплификации хромосомной ДНК. Авторы выражают благодарность д-ру Андреасу Хоубену (Институт генетики растений и исследований сельскохозяйственных культур им. Лейбница (IPK), Гатерслебен (Германия) за предоставленные компанией Roche 454 прочтения последовательности титана полного генома ржи.

Авторские взносы

Идея и дизайн экспериментов: SF KB ST JD TL.Выполнены опыты: ГС АП МК МБ СК. Проанализированы данные: СФ ДК СК КБ МП. Предоставленные реагенты/материалы/инструменты для анализа: TL. Написал статью: КБ ДК СФ.

Каталожные номера

  1. 1. Zeller FJ (1973) 1B/1R хромосомные замены и транслокации пшеницы и ржи. В: Sears S ER, Sears LMS, редакторы. стр. 209–221. Proc 4 th Int Wheat Genet Symp, Колумбия.
  2. 2. Shepherd KW (1973)Гомеология пшеницы и чужеродных хромосом, контролирующих фенотипы белков эндосперма.В: Sears ER, Sears LMS, редакторы. стр. 745–760. Proc 4 th Int Wheat Genet Symp, Колумбия.
  3. 3. Zeller FJ, Fuch E (1983) Cytologie und Krankheitsresistenz einer 1A/1R и mehrerer 1B/1R Weizen-Roggen Translokationssorten. Zeitschrift für Pflanzenzüchtung 90: 285–296.
  4. 4. Зеллер Ф.Дж., Хсам С.Л.К. (1984) Расширение генетической изменчивости культивируемой пшеницы за счет использования ржаного хроматина. В: Сакамото С., редактор. стр. 161–173. Proc 6 th Int Wheat Genet Symp, Киото.
  5. 5. Макинтош Р.А. (1988) Каталог генных символов пшеницы. В: Миллер Т.Э., Кебнер Р.М.Д., ред. стр. 1225–1320. Proc 7 th Int Wheat Genet Symp, Кембридж.
  6. 6. Коннер Р.Л., Томас Дж.Б., Уилан Э.Д.П. (1991)Сравнение устойчивости к клещам для борьбы с полосатой мозаикой пшеницы. Crop Sci 31: 315–318.
  7. 7. Грейбош Р.А. (2001) Непростые союзы: Качественные эффекты переноса хроматина ржи на пшеницу. J Зерновые науки 33: 3-16.
  8. 8.Маго Р., Спилмейер В., Лоуренс Г.Дж., Лагуда Э.С., Эллис Дж.Г. и др. (2002) Идентификация и картирование молекулярных маркеров, связанных с генами устойчивости к ржавчине, расположенными на хромосоме 1RS ржи, с использованием транслокационных линий пшеницы-ржи. Theor Appl Genet 104: 1317–1324.
  9. 9. Андерсон Г.Р., Папа Д., Пэн Дж., Тахир М., Лапитан НЛВ (2003) Генетическое картирование Dn7, гена ржи, придающего пшенице устойчивость к русской пшеничной тле. Theor Appl Genet 107: 1297–1303.
  10. 10.Вильярреал Р.Л., Бануэлос О., Муджиб-Кази А., Раджарам С. (1998)Агрономические характеристики хромосом 1B и T1BL.1RS, близких к изолиниям, у яровой мягкой пшеницы Seri M82. Евфитика 103: 195–202.
  11. 11. Карвер Б.Ф., Рэйберн А.Л. (1995) Сравнение родственных сортов пшеницы, обладающих хромосомами 1B или T1BL.1RS: качество зерна и муки. Crop Sci 35: 1316–1321.
  12. 12. Echdaie B, Whitkus RW, Waines JG (2003)Биомасса корней, эффективность использования воды и эффективность пшенично-ржаных транслокаций хромосом 1 и 2 у яровой мягкой пшеницы «Pavon».Crop Sci 43: 710–717.
  13. 13. Шарма С., Бхат П.Р., Эдайе Б., Клоуз Т.Дж., Лукашевски А.Дж. и др. (2009) Интегрированная генетическая карта и генетический анализ области, связанной с корневыми признаками на коротком плече хромосомы 1 ржи у мягкой пшеницы. Theor Appl Genet 119: 783–793.
  14. 14. Шарма С., Сюй С., Эдайе Б., Хупс А., Клоуз Т.Дж. и др. (2011) Анализ эффектов QTL для корневых признаков с использованием популяции картирования хромосомных плеч в мягкой пшенице. Theor Appl Genet 122: 759–769.
  15. 15. Рабинович С.В. (1998) Значение пшенично-ржаных транслокаций для селекции современных сортов Triticum aestivum L. Euphytica 100: 323–340.
  16. 16. Lelley T, Eder C, Grausgruber H (2004)Влияние транслокации хромосом пшеницы и ржи 1BL.1RS на генотип за счет взаимодействия с окружающей средой. J Cereal Sci 39: 313–320.
  17. 17. Долежел Дж., Грейлхубер Дж., Лукретти С., Мейстер А., Лысак М.А. и соавт. (1998) Оценка размера генома растений с помощью проточной цитометрии: межлабораторное сравнение.Энн Бот 82: Доп. А17–26.
  18. 18. Долежел Дж., Бартош Дж., Фогльмайр Х., Грейльхубер Дж. (2003) Содержание ядерной ДНК и размер генома форели и человека. Цитометрия 51: 127–128.
  19. 19. Шлегель Р., Мельц Г., Нестрович Р. (1987) Универсальный эталонный кариотип ржи, Secale зерновых L. Theor Appl Genet 74: 820–826.
  20. 20. Flavell RB, Bennett MD, Smith JB, Smith DB (1974) Размер генома и доля повторяющихся нуклеотидных последовательностей ДНК в растениях.Биохим Генет 12: 257–269.
  21. 21. Бартош Дж., По Э., Кофлер Р., Гавранкова М., Копецки Д. и др. (2008) Первое исследование состава генома ржи (Secale зерновых) с помощью ВАС-концевого секвенирования короткого плеча хромосомы 1R. BMC Plant Biology 8: 95.
  22. 22. Баум М., Аппельс Р. (1991) Цитогенетическая и молекулярная архитектура хромосомы 1R — одного из наиболее широко используемых источников чужеродного хроматина у сортов пшеницы. Хромосома 101: 1–10.
  23. 23.Сингх Н.К., Шеперд К.В., Макинтош Р.А. (1990) Картирование сцепления генов устойчивости к листовой, стеблевой и полосатой ржавчине и ω-секалину на коротком плече ржаной хромосомы 1R. Theor Appl Genet 80: 609–616.
  24. 24. Alonso-Blanco C, Goicoechea PG, Roca A, Alvarez E, Giraldez R (1994)Генетическое картирование цитологических и изоферментных маркеров на хромосомах 1R, 3R, 4R и 6R ржи. Theor Appl Genet 88: 208–214.
  25. 25. Wanous MK, Gustafson JP (1995) Генетическая карта ржаной хромосомы 1R, объединяющая RFLP и цитогенетические локусы.Theor Appl Genet 91: 720–726.
  26. 26. Бёрнер А., Корзун В. (1998) Консенсусная карта сцепления ржи (Secale зерновых L.), включающая 374 RFLP, 24 изофермента и 15 генных локусов. Theor Appl Genet 97: 1279–1288.
  27. 27. Ma XF, Wanous MK, Houchins K, Rodriguez Milla MA, Goicoechea PG, et al. (2001) Картирование молекулярных связей у ржи ( Secale crosae L.). Theor Appl Genet 102: 517–523.
  28. 28. Корзун В., Малышев С., Войлоков А.В., Бёрнер А. (2001) Генетическая карта ржи ( Secale croseae L.), объединяющие RFLP, изоферментные, белковые, микросателлитные и генные локусы. Theor Appl Genet 102: 709–717.
  29. 29. Masojc P, Myskow B, Milczarski P (2001) Расширение генетической карты ржи на основе RFLP с использованием случайной амплифицированной полиморфной ДНК (RAPD) и изоферментных маркеров. Theor Appl Genet 102: 1273–1279.
  30. 30. Nagy ED, Eder Ch, Molnár-Láng M, Lelley T (2003)Генетическое картирование специфичных к последовательности маркеров на основе ПЦР на коротком плече пшенично-ржаной транслокации 1BL.1RS.Евфитика 132: 243–250.
  31. 31. Nagy ED, Lelley T (2003)Генетическое и физическое картирование последовательности-специфических амплифицированных полиморфных маркеров (SSAP) на плече хромосомы 1RS ржи на фоне пшеницы. Theor Appl Genet 107: 1271–1277.
  32. 32. Ван М.Л., Аткинсон М.Д., Чиной К.Н., Девос К.М., Харкорт Р.Л. и соавт. (1991) Theor Appl Genet 82: 174–178.
  33. 33. Сандху Д., Гилл К.С. (2002)Геносодержащие области геномов пшеницы и других трав.Завод Физиоло 128: 803–811.
  34. 34. Девос К.М., Гейл М.Д. (2000) Отношения генома: модель травы в текущих исследованиях. Растительная клетка 12: 637–646.
  35. 35. Тан Х., Бауэрс Дж. Ф., Ван Х., Мин Р., Алам М. и др. (2008) Синтения и коллинеарность в геномах растений. Наука 320: 486–488.
  36. 36. Патерсон А.Х., Бауэрс Дж.Е., Бруггманн Р., Дубчак И., Гримвуд Дж. и соавт. (2009) Геном Sorghum bicolor и разнообразие трав.Природа 15: 551–556.
  37. 37. Hackauf B, Rudd S, van der Voort JR, Miedaner T, Wehling P (2009)Сравнительное картирование последовательностей ДНК у ржи ( Secale oceane L.) по отношению к геному риса. Theor Appl Genet 118: 371–384.
  38. 38. Гейл М.Д., Девос К.М., Мур Г. (1995)Рис как ключевой геном в новую эру сравнительной генетики трав. Генетика риса III. В: Хуш Г.С., редактор. стр. 77–84. Материалы третьего Международного симпозиума по генетике риса.
  39. 39. Doležel J, Kubaláková M, Paux E, Bartoš J, Feuillet C (2007)Хромосомная геномика в злаках. Рез. хромосомы 15: 51–66.
  40. 40. Шимкова Х., Шафарж Дж., Суханкова П., Коваржова П., Бартош Дж. и др. (2008) Новый ресурс для геномики Triticeae: библиотека BAC, специфичная для короткого плеча ржи ( Secale злаковый L.) хромосомы 1R (1RS). BMC Genomics 9: 237.
  41. 41. Майер К.Ф.С., Таудиен С., Мартис М., Шимкова Х., Суханкова П. и др.(2009)Содержание генов и виртуальный порядок генов хромосомы 1H ячменя. Завод Физиол 151: 496–505.
  42. 42. Mayer KFX, Martis M, Hedley PE, Šimková H, Hui H, et al. (2011)Раскрытие генома ячменя с помощью хромосомной и сравнительной геномики. Растительная клетка. DOI 10.1105/tpc.110.082537.
  43. 43. Беркман П.Дж., Скаршевски А., Лоренц М.Т., Лай К., Дюран С. и соавт. (2011)Секвенирование и сборка низкокопийных и генных областей изолированного плеча хромосомы Triticum aestivum 7DS.Завод Биотех Дж.
  44. 44. Кубалакова М., Валарик М., Бартош , Варани Дж., Чигаликова Дж. и др. (2003)Анализ и сортировка хромосом ржи ( Secale злаковый L.) с использованием проточной цитометрии. Геном 46: 893–905.
  45. 45. Шимкова Х., Свенссон Дж. Т., Кондамин П., Хржибова Э., Суханкова П. и др. (2008b) Связывание амплифицированной ДНК из отсортированных потоком хромосом с картированием SNP высокой плотности в ячмене. BMC Genomics 9: 294.
  46. 46. Кофлер Р., Бартош Дж., Ли Г., Штифт Г., Суханкова П. и др.(2008) Разработка микросателлитных маркеров, специфичных для короткого плеча ржи ( Secale crosea L.) хромосомы 1. Theor Appl Genet 117: 915–926.
  47. 47. Грин Р.Е., Краузе Дж., Птак С.Е., Бриггс А.В., Ронан М.Т. и др. (2006) Анализ одного миллиона пар оснований ДНК неандертальца. Природа 444: 330–336. (Дополнительная информация).
  48. 48. Huang CY, Ayliffe MA, Timmis JN (2003)Прямое измерение скорости переноса хлоропластной ДНК в ядро.Природа 422: 72–76.
  49. 49. Noutsos C, Kleine T, Armbruster U, DalCorso G, Leister D (2007)Ядерные вставки органелларной ДНК могут создавать новые участки функциональных последовательностей экзонов. Тенденции Жене 23: 597–601.
  50. 50. Tomita M, Shinohara K, Morimoto M (2008) Revolver — это новый класс транспозоноподобных генов, составляющих геном Triticeae. ДНК Рез. 15: 49–62.
  51. 51. Francki GM (2001) Идентификация Bilby, дивергированного центромерного семейства ретротранспозонов Ty1-copia из злаковой ржи ( Secale crosae L.). Геном 44: 266–274.
  52. 52. Ландер Э.С., Уотерман М.С. (1988)Геномное картирование путем снятия отпечатков случайных клонов: математический анализ. Геномика 2: 231–239.
  53. 53. Clarke BC, Mukai Y, Appels R (1996)Локус Sec-1 на коротком плече хромосомы 1R ржи (Secale злаки). Хромосома 105: 269–275.
  54. 54. Густафсон Дж. П., Дера А. Р., Петрович С. (1988) Экспрессия модифицированных генов рибосомной РНК ржи в пшенице. Proc Nat Acad Sci 85: 3943–3945.
  55. 55. Прайс А.Л., Джонс Н.К., Певзнер П.А. (2005)Идентификация De novo повторяющихся семейств в больших геномах, Биоинформатика 21: i351–i358.
  56. 56. Викер Т., Шлагенхауф Э., Гранер А., Клоуз Т.Дж., Келлер Б. и др. (2006) 454 секвенирования, подвергнутых испытанию с использованием сложного генома ячменя. BMC Genomics 7: 275.
  57. 57. Уикер Т., Таудиен С., Хубен А., Келлер Б., Гранер А. и др. (2009) Моментальный снимок всего генома из 454 последовательностей раскрывает состав генома ячменя и предоставляет доказательства параллельной эволюции размера генома пшеницы и ячменя.Завод J 59: 712–722.
  58. 58. Хосоно С., Фаруки А.Ф., Дин Ф.Б., Ду И., Сан З. и др. (2003) Непредвзятая амплификация всего генома непосредственно из клинических образцов. Геном Рез. 13: 954–964.
  59. 59. Дин Ф.Б., Хосоно С., Фанг Л., Ву С., Фаруки А.Ф. и др. (2002) Комплексная амплификация генома человека с использованием амплификации множественного смещения. Proc Nat Acad Sci 99: 5261–5266.
  60. 60. Девос К.М., Коста де Оливейра А., Сюй Х., Эстилл Дж.С., Эстеп М. и др.Аппельс Р., Иствуд Р., Лагуда Э., Лэнгридж П., Маккей М., Макинтайр Л., Шарп П., редакторы. (2008) Структура и организация генома пшеницы – количество генов в геноме гексаплоидной пшеницы. Материалы 11-го Международного симпозиума по генетике пшеницы, издательство Сиднейского университета, Сидней. Доступно: http://ses.library.usyd.edu.au/bitstream/2123/3389/1/O25.pdf. По состоянию на 4 января 2012 г.
  61. 61. Адамс К.Л., Дейли Д.О., Цю Ю.Л., Уилан Дж., Палмер Дж.Д. (2000)Повторяющиеся, недавние и разнообразные переносы митохондриального гена в ядро ​​цветковых растений.Природа 408: 354–357.
  62. 62. Бок Р., Тиммис Дж. Н. (2008) Реконструкция эволюции: перенос генов из пластид в ядро. BioEssays 30: 556–566.
  63. 63. Шеппард А.Е., Тиммис Дж.Н. (2009)Нестабильность пластидной ДНК в ядерном геноме. Генетика PLoS 5: e1000323.
  64. 64. Guo X, Ruan S, Hu W, Cai D, Fan L (2008) Вставки хлоропластной ДНК в ядерный геном риса: вовлеченные гены, места и возраст вставки. Funct Integr Genomics 8: 101–108.
  65. 65. Международный проект по секвенированию генома риса (2005 г.) Последовательность генома риса на основе карты. Природа 436: 793–800.
  66. 66. Международная инициатива Brachypodium (2010 г.) Секвенирование генома и анализ модельной травы Brachypodium distachyon . Природа 463: 763–768.
  67. 67. Цучида М., Фукусима Т., Насуда С., Масуди-Неджад А., Исикава Г. и др. (2008) Вскрытие ржи 1R в мягкой пшенице. Гены Genet Syst 83: 43–53.
  68. 68. Дрисколл С.Дж., Сирс Э.Р. (1971) Индивидуальное добавление хромосом «императорской» ржи к пшенице. Agronomy Abstracts 6 1971.
  69. 69. Мейер М., Бриггс А.В., Маричич Т., Хёбер Б., Хёффнер Б. и др. (2008) От микрограммов к пикограммам: количественная ПЦР снижает потребность в материалах для высокопроизводительного секвенирования. Нуклеиновые кислоты Рез. 36: e5.
  70. 70. де ла Бастид М., МакКомби В.Р. (2007) Сборка последовательностей геномной ДНК с помощью PHRAP. В текущих протоколах в биоинформатике, глава 11: Unit11.4.
  71. 71. Юинг Б., Хиллиер Л., Вендл М., Грин П. (1998) Базовый вызов трасс автоматического секвенсора с использованием phred. I. Оценка точности. Геном Рез. 8: 175–185.
  72. 72. Кофлер Р., Шлоттерер С., Лелли Т. (2007) SciRoKo: новый инструмент для поиска и исследования микросателлитов всего генома. Биоинформатика 23: 1683–1685.
  73. 73. Smit AFA, Hubley R, Green P RepeatMasker Open-3.0 . 1996–2010 гг. Доступно: http://www.repeatmasker.орг. По состоянию на 4 января 2012 г.
  74. 74. Крумсик Дж., Арнольд Р., Раттей Т. (2007) Гепард: быстрый и чувствительный инструмент для создания точечных диаграмм в масштабе генома. Биоинформатика 23: 1026–1028.

секвенций — Академия теории музыки

Что такое секвенции в музыке?

Последовательность — это повторение музыкального отрывка с более высоким или более низким уровнем тона.
Повтор может быть точной транспозицией – реальная последовательность или интервалы могут быть изменены – тональная последовательность .
Оксфордский музыкальный словарь определяет последовательность как «более или менее точное повторение отрывка с более высоким или более низким уровнем тона» . (Кеннеди, М.).

Я буду объяснять последовательности в музыке, показывая/проигрывая различные примеры.
Посмотрите/послушайте следующий пример последовательности:

Пример последовательности воспроизведения
Это наглядный пример последовательности.
Вы можете увидеть, как короткая мелодическая фраза воспроизводится, а затем повторяется на более высоком уровне тона .
Затем тот же паттерн повторяется снова, но с более высоким тоном и т. д.

Типы секвенций

В музыке можно встретить 2 основных типа секвенций: мелодия (как в приведенном выше примере)

  • Гармоническая последовательность – Это повторение серии аккордов (объясню позже)
  • используется, как правило, подразумевается, что

    используется как мелодический, так и гармонический материал .

    Мелодические последовательности

    Тональная последовательность

    В тональной последовательности интервалы между нотами изменены до некоторой степени.
    Размер интервала обычно остается прежним (т.е. 4-й, 5-й и т. д.) .
    Однако качество интервала изменяется (например, малый интервал может стать большим интервалом) Это изменение качества неизбежно, если композитор хочет, чтобы тональность оставалась неизменной.

    В нашем примере последовательности вы можете видеть, что размеры интервалов остаются одинаковыми для 2-х мелодий (3-я, 3-я, 2-я, 2-я в 1-й мелодии остаются как 3-я, 3-я, 2-я, 2-я в повторяющейся мелодии):

    Однако качества интервала изменение ( мажорная 3-я, минорная 3-я, мажорная 2-я, минорная 2-я в первой мелодии становятся минорная 3-я, мажорная 3-я, мажорная 2-я, мажорная 2-я в повторяющейся мелодии):

    Эти изменения качества продолжаются на протяжении всех 4 тактов последовательности, и поэтому наш пример последовательности представляет собой тональную последовательность .

    Реальная последовательность

    В реальной последовательности нет изменений ни в размере, ни в качестве интервалов (обычно это означает, что композитор должен менять тональность по мере развития последовательности).

    Если мы преобразуем наш пример последовательности в реальную последовательность, она будет выглядеть следующим образом:

    Вы можете видеть, как мы преобразовали 2 ноты «фа» в ноты «фа-диез», чтобы интервальные качества остались прежними. .
    Полная последовательность будет выглядеть и звучать так:

    Пример воспроизведения реальной последовательности
    Вы слышите, как музыка звучит так, как будто она меняя тональность (модулируя) по мере развития последовательности?
    Mixed Sequence

    Последовательность, которая имеет несколько повторений, некоторые из которых тональные и некоторые из которых настоящие , называется Mixed Sequence .

    Пример смешанной последовательности
    В приведенном выше примере вы можете видеть, что последовательность между первыми двумя тактами является настоящей последовательностью , а оставшиеся такта являются тональными последовательностями .

    Гармонические последовательности

    Убывающие гармонические последовательности
    Последовательность нисходящей квинты

    Эта последовательность получила свое название из-за того, что каждый последующий аккорд имеет основную ноту , которая на на квинту ниже, чем у предыдущего аккорда.

    Нисходящий круг гармонической последовательности 5-й гармоники
    Последовательность нисходящей терции

    В последовательности нисходящей терции аккорды смещаются на терцию при каждом повторении, отсюда и название.

    Гармоническая последовательность нисходящих терций
    Восходящая гармоническая последовательность
    Восходящая последовательность квинт

    Гармоническая последовательность восходящей квинты

    Сочинение с использованием последовательностей

    Последовательности — отличный инструмент для сочинения музыки. Я использую их во многих произведениях, которые пишу.

    Посмотрите/послушайте эту фортепианную пьесу, которую я написал под названием «Время скорбеть» .
    В пьесе показаны четкие примера мелодических и гармонических последовательностей (я прокомментировал ноты, чтобы показать последовательности).

    A Time To Mourn by Ben Dunnett

    Вы найдете множество примеров последовательностей в музыке, которую слушаете.
    Известный пример нисходящей мелодической последовательности можно найти в хорошо известной рождественской песне «Динь Дон весело на высоте» .
    Посмотрите/послушайте этот пример ниже:

    Ding Dong Merryly on High

    Я надеюсь, что этот урок о последовательностях был вам полезен.
    Мой совет: попробуйте сочинить/импровизировать несколько коротких мелодий , а затем поэкспериментировать с повторением их в разных транспозициях.
    Я уверен, что вы будете приятно удивлены тем, что вы обнаружите!

    Как всегда, если у вас есть какие-либо вопросы, пожалуйста, свяжитесь со мной.

    Поделиться этой публикацией: в Твиттере в Facebook в Google+

    Кластеризация метагеномных последовательностей на основе композиции | by Vijini Mallawaarachchi

    Кластеризация метагеномных последовательностей на основе состава олигонуклеотидов

    Кластеризация — это задача группировки точек данных таким образом, чтобы сходные точки группировались близко друг к другу, а разные — дальше друг от друга.Кластеризация применяется в анализе последовательностей, особенно в области метагеномики (подробнее о метагеномике можно прочитать из моей предыдущей статьи здесь). Метагеномные образцы могут содержать последовательности тысяч видов, и мы должны сгруппировать эти последовательности, представляющие разные таксономические уровни, для поддержки последующего анализа. Этот процесс группировки называется метагеномным объединением . В этой статье я объясню, как мы можем группировать метагеномные последовательности на основе их олигонуклеотидного состава.

    Олигонуклеотид считается непрерывной последовательностью небольшого числа нуклеотидов. С точки зрения вычислений мы определяем олигонуклеотиды как k-меров (слова размером k ). Состав олигонуклеотидов считается консервативным у микробных видов и варьируется между видами [1][2]. Обычно это справедливо для олигонуклеотидов размером от 2 ( динуклеотидов/2-меры ) до 8 ( октануклеотидов/8-меры ) [2].Частота олигонуклеотидов определенного размера в последовательности дает нам геномную сигнатуру этой конкретной последовательности. Эти сигнатуры генома могут варьироваться от вида к виду из-за влияния таких факторов, как

    1. структура ДНК
    2. процессы репликации и репарации
    3. эволюционное давление

    (также известные как тримеры или тринуклеотиды ) и их состав ( тринуклеотидная композиция ).Когда мы объединяем обратные комплименты, получается 32 (4³/2) различных троек . Мы получаем нормированные частоты каждого отдельного тринуклеотида, подсчитывая количество вхождений этого тринуклеотида и разделив его на общее количество тринуклеотидов. Обычно мы используем нормализованную частоту олигонуклеотидов в анализе, чтобы избежать какой-либо неравномерности, вызванной разной длиной последовательностей.

     Нормализованная частота kᵢ 
    = Количество вхождений kᵢ / общее количество k-меров
    (где kᵢ — iᵗʰ k-мер)

    Вы можете узнать больше о том, как получить эти k-меров векторов частот для последовательности из статьи под названием «Векторизация последовательностей ДНК».

    Эталонные геномы, которые я использовал в следующих примерах, были получены из Nanopore GridION и PromethION Mock Microbial Community Data Community Edition стандарта ZymoBIOMICS Microbial Community Data Community Standards .

    Геномные сигнатуры двух геномов

    Рассмотрим простой пример, где у нас есть два генома Pseudomonas aeruginosa и Staphylococcus aureus . Мы можем получить нормализованные векторы частот тринуклеотидов для каждого генома.Я использовал метод, представленный в статье Векторизация последовательностей ДНК. Вы также можете посмотреть и даже попробовать разные значения k . В этой статье я использовал k=3 .

    Если мы нанесем нормализованные частоты тринуклеотидов для этих двух геномов, это будет выглядеть так, как показано на рисунке 1.

    Рис. 1. Нормализованные частоты тринуклеотидов Pseudomonas aeruginosa и Staphylococcus aureus

    Мы видим четкое разделение между профилями тринуклеотидного состава двух геномов.Мы можем использовать эту функцию для разделения последовательностей.

    Кластеризация смеси последовательностей из двух геномов

    Давайте рассмотрим образец набора данных, который я смоделировал, используя 100 прочтений длиной 10 000 п.н. для каждого из видов Pseudomonas aeruginosa и Staphylococcus aureus . Я использовал инструмент под названием SimLoRD для имитации чтения. Ниже приведен пример команды, которую я использовал.

     simlord --read-reference  --fixed-readlength 10000 --num-reads 100  

    Получив нормализованные векторы частот тринуклеотидов для всех прочтений, мы можем получить график PCA (рис. 2) и график TSNE (рис. 3) следующим образом.

    Рис. 2. PCA-график векторов нормализованной частоты тринуклеотидов 100 прочтений длиной 10 000 п.н. от каждого вида Pseudomonas aeruginosa и Staphylococcus aureus Рис. каждый из видов Pseudomonas aeruginosa и Staphylococcus aureus

    Мы видим четкое разделение между последовательностями двух видов.

    Другим простым примером, который мы можем рассмотреть, является наличие трех геномов: Pseudomonas aeruginosa , Staphylococcus aureus и Escherichia Coil .Эти три генома также имеют различные геномные подписи. Если мы построим нормализованные векторы тринуклеотидных частот прочтений, смоделированных из этих трех геномов, графики будут выглядеть следующим образом.

    Рис. 4. PCA-график нормализованных векторов частот тринуклеотидов для 100 прочтений длиной 10 000 п.н. для каждого вида Pseudomonas aeruginosa, Staphylococcus aureus и Escherichia Coil от каждого из видов Pseudomonas aeruginosa, Staphylococcus aureus и Escherichia Coil

    Как и на предыдущих рисунках, здесь также видно четкое разделение последовательностей трех видов.Следовательно, мы можем применить множество методов кластеризации и машинного обучения, чтобы разделить эти последовательности.

    • MaxBin использует частоты тетрануклеотидов вместе с алгоритмом максимизации ожидания и вероятностным подходом к контигам бинов.
    • MrGBP использует олигонуклеотидную композицию (может иметь немного другое представление) с DBSCAN для группировки контигов.
    • LikelyBin использует пентануклеотидные частоты с подходом Монте-Карло цепи Маркова.

    Могут быть случаи, когда даже если у нас есть два разных вида, они могут иметь одинаковые образцы состава олигонуклеотидов. Например, рассмотрим два генома Enterococcus faecalis и Listeria monocytogenes . Если мы нанесем нормализованные частоты тринуклеотидов для этих двух геномов, это будет выглядеть так, как показано на рисунке 6.

    Рис. из этих двух геномов графики будут выглядеть следующим образом.

    Рис. 7. PCA-график нормализованных векторов частот тринуклеотидов 100 прочтений длиной 10 000 п.н. от каждого вида Enterococcus faecalis и Listeria monocytogenes Рис. каждый из видов Enterococcus faecalis и Listeria monocytogenes

    Из этих графиков видно, что трудно найти четкое разделение между двумя видами.Следовательно, мы должны использовать дополнительную информацию, такую ​​как численность видов, для кластеризации последовательностей в таких сценариях.

    Надеюсь, вы получили общее представление о том, как мы можем кластеризовать метагеномные последовательности, используя методы биннинга на основе состава. Я надеюсь, что это поможет вам в учебе и не стесняйтесь использовать информацию и методы в своих исследовательских проектах. Я приложил блокнот с кодом, чтобы вы могли поиграть с другими геномами.

    Вы также можете прочитать больше о метагеномике и связанных с ней анализах, которые я провел, из моих предыдущих статей, перечисленных ниже.

    Спасибо за прочтение!

    Ура!

    [1] Карлин, С. и др. . Композиционные предубеждения бактериальных геномов и эволюционные последствия. Journal of Bacteriology , 179(12), 3899–3913 (1997).

    [2] Dick, G. J. et al. Анализ сигнатур последовательностей микробного генома в масштабах всего сообщества. Биология генома , 10(8), R85 (2009).

    (PDF) Сложность последовательности и состав

    Конопка А.К.Сложность последовательности и композиция. В: Купер Д.Н., изд. Природная энциклопедия генома человека. Том. 5. Лондон:

    Справочник издательской группы Nature, 2003: 217-224.

    © Copyright Nature Publishing Group 09.03.2004 Стр. 7 из 13

    Конопка А.К. Сложность последовательности и композиция. В: Купер Д.Н., изд. Природная энциклопедия генома человека. Том. 5. Лондон:

    Справочник издательской группы Nature, 2003: 217-224.

    Сложность = 0,7783 NB OF 7-GRAMS: 2520 2520/16384 или P0 = 0.1538

    Сложность = 0,7244 NB 7 грамм: 1680 1680/16384 или P0 = 0.1025

    Сложность = 0.6894 NB ​​7 грамм: 2520 2520/16384 или P0 = 0.1538

    Сложность = 0,5744 нб 7 граммов: 504 504/16384 или P0 = 0,0308

    или P0 = 0,0308

    Сложность = 0,4926 нб 7 граммов: 420 420/16384 или P0 = 0,0256

    Сложность = 0,4316 нб 7 гр.: 252 252/16384 или P0 = 0,0154

    Сложность = 0,2958 NB OF 7-GRAMS: 84 84/16384 или P0 = 0,0051

    Сложность = 0.0000 NB 7 граммов: 4 4/16384 или P0 = 0,0002

    октануклеотидов #of Classes = 15

    CMPLX = 1,0000 NB из 8 граммов: 2520 2520/65536 или P0 = 0,0385

    CMPLX = 0,9528 NB от 8 -Грамс: 20160 20160/65536 или P0 = 0.3076

    CMPLX = 0,9056 NB 8 грамм: 6720 6720/65536 или p0 = 0.1025

    смplx = 0,8750 нб 8 граммов: 10080 10080/65536 или P0 = 0.1538

    CMPLX = 0,7806 NB OF 8-GRAMS: 6720 6720/65536 или P0 = 0.1025

    CMPLX = 0,7744 NB 8 граммов: 1344 1344/65536 или P0 = 0,0205

    смплкс = 0,7500 нб 8 грн: 5040 5040/65536 или p0 = 0,0769

    смplx = 0,7028 нб 8 граммов: 6720 6720/65536 или P0 = 0.102536 или P0 = 0.1025

    CMPLX = 0.6494 NB ​​8 граммов: 4032 4032/65536 или P0 = 0,0615

    смплкс = 0,5306 нб 8 граммов: 672 672/65536 или P0 = 0,0103

    смplx = 0,5000 NB 8-ГРАММ: 420 420/65536 или P0 = 0,0064

    CMPLX = 0.4772 NB OF 8-GRAMS: 672 672/65536 или P0 = 0,0103

    CMPLX = 0,4056 NB OF 8-GRAMS: 336 336/65536 или P0 = 0,0051

    CMPLX = 0,2756/6-GRAMS NB OF 8 8 P0 = 0,0015

    CMPLX = 0,0000 NB OF 8-GRAMS: 4 4/65536 или P0 = 0,0001

    ТАБЛИЦА 3 №

    Классы сложности для коротких олигонуклеотидов в двухбуквенных алфавитах {K, M}, {R, Y} и

    {S, W}.

    ____________________________________________________________________________

    КЛАСС СЛОЖНОСТИ Nb.

    _______________________________________________________________________

    MONONUCLEOTIDES #of classs = 1

    CMPLX = 0.0000 NB OF 1-GRAMS: 2 2/ 4 or P0 = 1.0000

    DINUCLEOTIDES #of 1,0000 NB 2-ГРАММ: 2 2/4 или P0 = 0,5000

    CMPLX = 0,0000 NB 2-ГРАММ: 2 2/4 или P0 = 0,5000

    ТРИНУКЛЕОТИДЫ # классов = 2

    CMPLX = 0 CMPLX = 0.9183 NB 3-ГРАММ: 6 6/8 или P0 = 0,7500

    CMPLX = 0,0000 NB 3-ГРАММ: 2 2/8 или P0 = 0,2500 -ГРАММЫ: 6 6/16 или P0 = 0,3750

    CMPLX = 0,8113 NB ИЗ 4-ГРАММ: 8 8/16 или P0 = 0,5000

    CMPLX = 0,0000 NB 4-ГРАММ: 2 2/16 или P0 = 0,0250

    ПЕНТАНУКЛЕОТИДЫ # классов = 3

    CMPLX = 0.9710 Кол-во из 5-грамм: 20 20/32 или P0 = 0,6250

    CMPLX = 0,7219 Кол-во из 5-грамм: 10 10/32 или P0 = 0,3125 P0 = 0,0625

    гексануклеотиды #of classes = 4

    смplx = 1,0000 нб 6 граммов: 20 20/64 или p0 = 0,3125

    смplx = 0,9183 Nb 6 граммов: 30 30/64 или P0 = 0,4688

    CMPLX = 0,6500 NB OF 6-GRAMS: 12 12/64 или P0 = 0.

    admin

    Добавить комментарий

    Ваш адрес email не будет опубликован. Обязательные поля помечены *