정보

시퀀싱을 위한 전체 일배체형은 어떻게 분리됩니까?

시퀀싱을 위한 전체 일배체형은 어떻게 분리됩니까?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

개별 정자 및/또는 난자(어류)에서 DNA를 안정적으로 분리하고 증폭할 수 있습니까? 적은 양의 DNA가 PCR을 약간 엉뚱하게 만들 것이라고 상상합니다. 정자를 조사하고, 여성생식을 통해 반수체 여성을 만드는 것도 고려했지만, 배우자를 직접 활용할 수 있는 더 빠르고 쉬운 방법이 있는지 궁금합니다.


목표가 두 가지 일배체형(염색체)을 분리하는 것이라면 유세포 분석을 시도해야 합니다. 적어도 식물 염색체에 대해서는 이 분야의 리더인 Dolezel의 http://www.ncbi.nlm.nih.gov/pubmed/21181533을 읽을 수 있습니다. 나는 이 방법의 적용 가능성이 가지고 있는 염색체의 물리적 특성(특히 크기 분포)에 달려 있다고 확신합니다.


전체 게놈 시퀀싱은 Mycobacterium tuberculosis 분리주의 게놈 이질성과 항생제 정제를 나타냅니다

배경: 전체 게놈 시퀀싱은 마이코박테리아 게놈의 조사에 혁명을 일으켰습니다. 최근 연구에서는 약물 내성이 진화하는 동안 Mycobacterium tuberculosis의 게놈 안정성에 대해 상반된 결과를 보고했습니다. 전체 게놈 시퀀싱이 박테리아 게놈의 구조를 정의하는 데 점점 더 많이 의존하는 시대에 인구의 소수에 존재하는 클론 변이체를 식별하기 위해 차세대 시퀀싱의 신뢰성을 조사하는 것이 중요합니다. 이 연구는 저주파 염기서열 변이체의 식별을 위한 신뢰할 수 있는 컷오프를 정의하고 후속적으로 M. tuberculosis에서 유전적 이질성과 약물 내성의 진화를 조사하는 것을 목표로 했습니다.

행동 양식: 게놈 DNA는 14개의 리팜피신 단일 내성 M. tuberculosis 분리주의 단일 콜로니와 이 환자 중 2명의 1차 배양 및 후속 MDR 배양에서 분리되었습니다. M. tuberculosis 분리주의 전체 게놈은 Illumina MiSeq 또는 Illumina HiSeq 플랫폼을 사용하여 시퀀싱되었습니다. 시퀀스는 사내 파이프라인으로 분석되었습니다.

결과: Sanger 시퀀싱 및 통계 분석과 함께 차세대 시퀀싱을 사용하여 낮은 빈도의 결핵균 변이체를 높은 신뢰도로 식별하기 위해 읽기 빈도 컷오프를 30%로 정의했습니다. 이 컷오프를 사용하여 우리는 한 집단에서 분리된 단일 콜로니 사이의 높은 유전적 다양성을 보여주었으며, 현재 시퀀싱 기술을 사용하여 단일 콜로니가 전체 집단 내의 유전적 다양성을 제대로 반영하지 못하고 그 반대의 경우도 마찬가지임을 보여줍니다. 우리는 또한 개별 환자 내에서 isoniazid 내성이 진화하는 동안 수많은 이질적인 변이체가 나타났다가 사라지는 것을 보여주었습니다. 우리의 연구 결과를 통해 감염 과정에서 발생하는 선택적 병목 현상에 대한 모델을 공식화하여 게놈 정제 이벤트로 작용할 수 있었습니다.

결론: 우리의 연구는 결핵균 개체군 내에서 유전적 다양성의 진정한 수준을 보여주었고, 감염 과정에서 결핵균 개체군에 약물 노출과 같은 선택적 압력이 가해질 때 유전적 다양성이 재정의될 수 있음을 보여주었습니다. 이는 결핵균의 게놈이 기존에 생각했던 것보다 더 역동적임을 시사하며, 이는 변화하는 환경에 대응할 준비가 되어 있음을 시사한다.


소개

기술 발전으로 인간 게놈의 일상적인 재배열이 가능해졌습니다. 이러한 게놈에는 지난 100세대에 걸쳐 기하급수적으로 증가한 인간 인구의 결과인 고주파수[1],[2]의 희귀 변이체가 포함됩니다[3]. 이러한 변이체는 치환, 삽입, 결실 또는 사본 수의 변화에 ​​의해 단일 뉴클레오티드 또는 더 큰 게놈 범위에 영향을 미칠 수 있습니다. 변형 조합이 다음 위치에 있습니다. 시스 동일한 물리적 분자 또는 트랜스 상동 염색체에. 이 세트 시스 그리고 트랜스 변이의 단계로 알려진 변이 간의 관계는 질병 표현형을 포함하여 유전자형과 표현형 간의 관계에 대한 해석과 의미에 영향을 미칩니다[4]-[6]. 논의를 단순화하기 위해 일배체형을 일반적으로 DNA 분자에 포함된 정보의 연속적인 부분 집합으로 정의합니다(Box 1).. 분자 관찰에 기초한 이 정의에 의한 일배체형의 예는 한 부모로부터 상속되고 특정 관심 게놈 영역에 있는 하나 이상의 유전자에 걸쳐 있는 실제 서열입니다. 이 정의의 결론은 가능한 가장 긴 일배체형인 '염색체 일배체형'은 한 개인이 한 부모로부터 물려받은 염색체의 전체 서열이라는 것입니다. 일배체형에는 상자 2에 나열된 여러 가지 중요한 역할과 응용 프로그램이 있습니다.

일배체형 분석은 일반적으로 1) 게놈의 '일배체형 블록 구조를 밝히기', 2) 일배체형을 유전적 마커로 사용하기, 3) 일배체형을 기능적 단위로 이해하기의 세 가지 범주로 나뉩니다[7]. 관찰 가능한 유전 변이의 수가 증가함에 따라 관찰 가능한 일배체형의 수도 증가합니다. 관찰된 변이체의 이러한 증가는 주로 전체 게놈 시퀀싱(WGS)에 의해 분석된 희귀 변이체의 결과입니다. 그 결과, 인구 기반 추론 방법을 사용하여 추정하기에 너무 작은 빈도를 가진 많은 관찰된 일배체형이 있습니다. 최근의 기술 발전으로 인해 분자 데이터와 유전 정보를 직접 관찰하고 인구 기반 통계 추정에 대한 의존도를 낮추어 일배체형을 결정할 수 있게 되었습니다.

역사적으로, 각 부모로부터 유전된 상염색체의 상동 일배체형을 구별하는 것은 어려웠습니다. 이러한 이유로, 각 쌍의 상염색체로부터의 대립유전자 정보는 일반적으로 하나의 정보 서열, 즉 비단계적 유전자형 서열로 합쳐집니다. 단계(또는 일배체형)는 유전자형 데이터에서 일배체형을 결정하는 프로세스를 설명합니다. 최근까지 비용, 데이터 부족 및 계산의 난해성으로 인해 단계적 전체 게놈 일배체형의 가용성이 제한되었습니다[4].

단계화에는 분자, 유전 및 인구 분석의 세 가지 기본 방법이 있습니다. 분자 일배체형 분석은 단일 분자 분석에 뿌리를 두고 있습니다(그림 1 및 2, 표 1). 일배체형 분자가 염색체보다 짧은 경우 분자 일배체형은 일배체형 조립이 뒤따를 수 있습니다. 더 긴 일배체형을 구축하기 위해 많은 단일 분자의 측정 데이터를 결합하여 처리량이 많은 병렬화를 활용하기 위해 점점 더 영리한 방법이 배포되고 있습니다. 유전적 일배체형은 가계도가 필요하며 염색체 길이의 일배체형을 산출할 수 있습니다[8]. 모집단 일배체형은 일배체형의 모집단 구조 모델이 필요하며 공통 변이만 단계적으로 수행할 수 있습니다. 이 세 가지 접근 방식을 결합하여 하이브리드 전략을 만들 수도 있습니다. 일반적으로 이러한 방법은 단일 뉴클레오티드 변이체(집단에서 충분히 빈번할 때 일반적으로 단일 뉴클레오티드 다형성(SNP)라고 하는 SNV), 삽입 및 결실(인델), 복제 수 변이체( CNV). SNV 및 짧은 삽입결실은 개별 시퀀스 읽기 내에서 관찰될 수 있기 때문에 일반적으로 단계화하기 쉽습니다. CNV와 같은 더 큰 변이체는 일반적으로 유전형 배열을 사용하여 평가됩니다[9],[10].

전체 게놈 시퀀스 데이터를 단계화하는 세 가지 방법의 개요. 단계화는 (1) 분자 방법, (2) 유전 분석 또는 (3) 인구 추론에 의해 달성됩니다. 분자 방법은 개별 샘플에 초점을 맞추고 (a) 시퀀싱 전에 게놈 DNA를 처리하거나 (b) 각 물리적 판독의 단일 분자 특성을 활용합니다. 유전 분석 및 집단 추론은 각각 가계 및 집단 코호트에서 게놈을 시퀀싱합니다.

단계적 방법의 속성. 단계적 신뢰 수준과 단계적 시퀀스 길이의 달성 가능한 범위는 모두 사용된 방법에 따라 다릅니다. 분자 방법은 단일 분자에서 직접 관찰을 제공하므로 결과에 대한 신뢰도가 높습니다. 이러한 방법으로 달성할 수 있는 단계적 시퀀스 길이는 사용되는 방법에 따라 넓은 범위를 갖습니다. 분자 관찰은 일배체형(점선 화살표)으로 조합되어 단계적 시퀀스 길이 범위에 적당히 추가되고 잠재적으로 추론 오류가 발생할 수 있습니다. 유전 분석은 멘델 분리의 특성을 활용하여 단계를 유추하고 전체 염색체의 단계를 수행할 수 있습니다. 모집단 추론 방법은 확률적이며 단거리 일배체형 블록의 생성으로 제한됩니다.

이 리뷰에서는 단계적 변형과 조합 전략으로의 통합을 위한 세 가지 주요 방법론을 자세히 설명하고 품질 메트릭을 제공합니다(Box 3). 마지막으로 게놈 의학에서 전체 게놈 일배체형의 응용에 대한 개요를 제공합니다.


격리된 집단의 전체 게놈 시퀀싱 및 전가는 의학적으로 관련된 복잡한 특성과의 유전적 연관성을 식별합니다.

차세대 연관 연구는 시퀀스 기반 전가와 설립자 집단 연구를 통해 강화될 수 있습니다. 여기에서 우리는 Cretan-격리 집단의 전체 게놈 시퀀싱(WGS)에서 ~950만 변이를 보고하고 예측된 기능적 결과와 함께 희귀 및 저주파 변이의 농축을 보여줍니다. 우리는 10,422개의 참조 일배체형을 활용하는 WGS 기반 대치 접근 방식을 사용하여 게놈 전체의 연관성 분석을 수행하고 8개의 새로운 저주파 변이 신호에서 연관성에 대한 복제 증거를 포함하여 17개의 게놈 전체의 중요하고 독립적인 신호를 관찰합니다. 2개의 새로운 심혈관 대사 연관성은 설립자 집단 서열에 고유한 리드 변이체에 있습니다: chr16:70790626(고밀도 지단백질 수준 베타 -1.71(SE 0.25), P=1.57 × 10 -11, 효과 대립 유전자 빈도(EAF) 0.006) 및 rs14555 (트리글리세리드 수준 베타 -1.13(SE 0.17), P=2.53 × 10 -11, EAF 0.013). 우리의 연구 결과는 복잡한 형질에서 저주파 변이의 기여에 대한 경험적 지원을 추가하고, 전가 패널에 집단 특정 서열을 포함하는 이점을 보여주고, 집단 분리에 의해 제공되는 전력 이득을 예시합니다.

이해 상충 진술

저자는 경쟁 재정적 이해관계가 없다고 선언합니다.

피규어

그림 1. 연구 설계의 순서도.

그림 1. 연구 설계의 순서도.

HELIC 코호트는 사전 단계를 거쳐 개별적으로 전가되고 분석되었습니다…

그림 2. 변형 공유 및 기능 주석.

그림 2. 변형 공유 및 기능 주석.

( NS ) kbp당 SNP 밀도 및…

그림 3. private 변종의 기능 강화…

그림 3. 변이체와 비교할 때 MANOLIS 시퀀스 전용 변이체의 기능 강화…

그림 4. 위양성률과 메타분석력…

그림 4. METACARPA를 사용한 샘플 중복 존재 시 위양성 비율 및 메타 분석 능력.

그림 5. chr16:70790626 및…

그림 5. chr16:70790626 및 rs145556679 및 지질 수준에 대한 연관성 결과.


이전에 희귀하고 일반적인 변이 7에 대한 대치 파이프라인의 정확성을 검증했기 때문에 검증 노력을 DNM 세트에 집중했습니다.

가족관계 확인

계보 데이터베이스에 기록된 14,688명의 시퀀싱된 아이슬란드인(평균 범위의 20배 이상) 중 3,056명의 어머니와 2,473명의 아버지-자녀 연결이 보고되었으며, 일배체형 공유를 기반으로 각각 2,981 및 2,386을 확인했습니다. 그 결과 품질관리를 통과한 프로밴드로 분석을 제한한 결과 트리오 1,548개, 3세대 225가구가 나왔다.

3세대 세트

우리는 3세대 가족에서 일관된 대립 유전자 분리를 통해 DNM 호출의 컷오프를 보정했습니다. 우리는 GAM(generalized additive model)에서 종속 변수로 일관된 전송을 사용했습니다. 피팅된 GAM 모델을 사용하여 모든 DNM 후보에 대한 예측을 도출했습니다. 모든 DNM 후보에 대한 예측의 히스토그램이 그림 2에 나와 있습니다. 우리가 다음 세대로 전달될 것으로 예측한 변이와 3세대 일배체형 공유와 일치하지 않는 변이 사이에는 명확한 구분이 있습니다.

일란성 쌍둥이 간의 일치

DNM 호출 보정에는 91개의 일란성 쌍정 프로밴드 중 8개만 사용되었습니다. 따라서 일란성 쌍둥이 간의 DNM 일치는 DNM 호출의 독립적인 검증 메트릭 역할을 합니다. 우리는 각 일란성 쌍생아 프로밴드와 그 일란성 쌍생아 사이의 DNM 불일치를 계산했습니다. 우리는 깊이가 10 미만인 경우 일란성 쌍둥이의 모든 유전형 호출을 누락된 것으로 처리하고 이형 호출이 다음 요구 사항을 충족하지 않는 경우 누락된 것으로 처리했습니다. 우리는 6,034개의 DNM 중 6,000개에 대해 proband의 쌍둥이에서 유전자형의 유무를 확인할 수 있었고 고품질 DNM 호출에 대해 낮은 불일치(2.9%)를 발견했습니다(그림 3). 이것은 우리의 DNM 데이터 세트가 단일 접합 프로밴드 요구 사항을 넘어 검증을 위해 선택된 DNM의 확인이 없기 때문에 전체 게놈의 고품질임을 보여줍니다.

불일치 계산을 위해 91개의 일란성 쌍둥이 쌍이 사용되었습니다. 불일치 비율은 MZ 쌍에서 발견되지 않는 프로밴드의 고품질 DNM 비율로 계산되었습니다.

위상 비교

우리는 3세대 proband의 부모와 자손 간의 일배체형 공유, 읽기 쌍 추적을 통해 단계적 변이체와 DNM 후보를 물리적으로 연결하는 DNM에 부모의 기원을 할당하기 위해 두 가지 보완적인 접근 방식을 사용했습니다. 우리는 페이징 방법 간의 일치와 불일치를 비교했습니다. 우리는 단계적 접근 방식 간에 1.16%의 낮은 불일치를 발견했습니다(표 6).


결과

인간 정자 데이터 세트를 분석하여 단계화 방법의 비교

HuRef 이배체 게놈 서열(Kirkness et al. 2013) 기증자의 11개의 독립적인 정자 세포로 구성된 인간 정자 시퀀싱 데이터 세트를 사용하여 두 배우자 기반 단계화 방법의 단계화 성능을 비교했습니다.하피 그리고 PHMM) 및 두 가지 읽기 기반 페이징 방법(WhatsHap 그리고 햅컷2). 이 기증자의 진정한 염색체 일배체형은 알려지지 않았지만 1.5–3.7X 범위에서 시퀀싱된 이 11개의 정자 세포와 Illumina HumanOmni를 사용하여 유전형이 지정된 16개의 추가 정자에 대한 공동 분석을 기반으로 182만 hetSNP로 구성된 "단계적" 게놈이 제안되었습니다. -Quad v1.0 BeadChip(어레이 데이터는 공개되지 않음)(Kirkness et al. 2013)은 여기에서 4가지 경쟁 방법의 위상 성능을 평가하기 위해 "지상 사실"로 채택되었습니다. 변종 호출은 166만 개의 고품질 hetSNP(총 182만 SNP 중)를 생성하기 위해 시퀀싱 판독으로 수행되었으며, 각각은 적어도 하나의 정자에 존재했습니다. 22개의 상염색체에 대한 hetSNP의 수는 15,340(Chr22)에서 141,669(Chr2) 사이였으며 유전자형 데이터가 누락된 비율은 70.95%에서 86.49% 사이였습니다(보충 표 S1, 온라인 보충 자료). 11개의 정자 세포는 hetSNP 데이터의 결손율을 기준으로 내림차순, 즉 첫 번째 정자 세포가 SNP 데이터가 가장 많이 결손된 순서 등으로 분류하였다.

완전성(COM), 최대 일배체형 세그먼트(LHS), 스위치 오류율(SER, 잘못 추론된 위상 연결의 비율) 및 해밍 오류율(HER, 위상이 잘못된 hetSNP의 비율)을 포함한 4가지 품질 메트릭이 사용되었습니다. 다양한 페이징 방법에 대한 페이징 성능을 평가합니다(자세한 내용은 재료 및 방법 참조).

분류된 정자 목록에서 3부터 11까지 다양한 수의 배우자를 각각 4가지 다른 방법으로 일배체형 분석에 연속적으로 사용하여 전체 게놈 규모에서 위상 완성도와 정확도를 비교했습니다( 그림 2 보충 표 S2 , 온라인 보충 자료) . 두 배우자 기반 방법의 단계적 완전성은 두 가지 읽기 기반 방법보다 꾸준히 그리고 분명히 더 컸습니다(그림 2). 22개의 상염색체에 대한 염색체 길이 일배체형은 배우자 기반 방법을 사용하여 LHS에서 단계적으로 진행되는 hetSNP의 99.947%로 성공적으로 추론할 수 있습니다. 11개의 정자를 사용한 경우에도 읽기 기반 방법에 의한 LHS(보충 표 S2, 온라인 보충 자료). 이러한 결과는 후자의 두 가지 방법이 일배체형 분절만을 추론한 반면 전자의 두 가지 방법은 전체 염색체의 위상을 결정하는 데 적합함을 나타냅니다. 하피 전체 게놈 규모에서 지속적으로 SER 및 HER이 PHMM 다른 수의 배우자가 분석되었을 때( 그림 2). SER 및 HER을 계산하는 방법은 읽기 기반 방법으로 편향되었지만(자세한 내용은 재료 및 방법 참조), 하피 여전히 우월했다 WhatsHap 그리고 햅컷2 정확도 측면에서. 3개 또는 11개의 정자를 사용하여 22개의 상염색체를 단계화하는 각 방법의 실행 시간은 보충 표 S3, 온라인 보충 자료에 요약되어 있습니다.

두 배우자 기반 단계 방법의 비교(하피 그리고 PHMM) 및 두 가지 읽기 기반 방법(WhatsHap 그리고 햅컷2) 인간 정자 세포 시퀀싱 데이터 세트를 사용하여 게놈 규모에서 COM, SER 및 HER 측면에서. 정렬된 정자 목록에서 3부터 11까지 다양한 수의 배우자(hetSNP의 누락 데이터를 내림차순으로 기준, 즉 첫 번째 정자 세포가 SNP 데이터가 가장 많이 누락된 비율을 기준으로 함)를 다음과 같은 방법으로 일배체형 분석에 연속적으로 사용했습니다. 각각 다른 네 가지 방법.

두 배우자 기반 단계 방법의 비교(하피 그리고 PHMM) 및 두 가지 읽기 기반 방법(WhatsHap 그리고 햅컷2) 인간 정자 세포 시퀀싱 데이터 세트를 사용하여 게놈 규모에서 COM, SER 및 HER 측면에서. 정렬된 정자 목록에서 3부터 11까지 다양한 수의 배우자(hetSNP의 누락 데이터를 내림차순으로 기준, 즉 첫 번째 정자 세포가 SNP 데이터가 가장 많이 누락된 비율을 기준으로 함)를 다음과 같은 방법으로 일배체형 분석에 연속적으로 사용했습니다. 각각 다른 네 가지 방법.

이 네 가지 방법의 위상 성능을 염색체 규모에서 추가로 비교했습니다. 처음 세 개의 정자만 사용했을 때의 완전성 수준은 하피 그리고 PHMM 에 대한 것보다 훨씬 높았다. WhatsHap 그리고 햅컷2 22개의 상염색체(그림 2에 표시된 전체 게놈 규모의 비교 결과와 일치)에 걸쳐 있으며 두 가지 읽기 기반 단계화 방법은 작은 일배체형 세그먼트만 생성할 수 있었습니다(그림 3, 내부 원). 따라서 위상 정확도의 후속 분석에서 우리는 주로 두 배우자 기반 위상 조정 방법 간의 비교에 중점을 두었습니다. 원본 기사(Kirkness et al. 2013)에서 제안한 염색체 일배체형은 오류가 발생할 수 있으므로 염색체의 단계적 마커의 95% 이상이 제안된 일배체형과 일치하는 것으로 염색체의 성공적인 단계화를 정의했습니다. 결과는 하피 3개의 정자 세포로 22개의 상염색체 모두를 정확하게 단계화할 수 있는 반면, PHMM 동일한 수준의 정확도를 달성하려면 적어도 7개의 정자 세포가 필요했습니다. 7개 이하의 정자 세포를 사용한 경우, 하피 지속적으로 좋은 성과를 거두었지만 PHMM 크게 변동함을 나타내는 하피 작은 샘플로 더 안정적인 위상 결과를 제공했습니다. 재미있게, PHMM 6-10개의 배우자로 Chr1의 일배체형을 정확하게 추론할 수 있지만 11개의 정자가 모두 사용되었을 때 실패했습니다. 총 198개 시나리오(염색체 22개 × 배우자 수 9개) 중 하피, 164개 시나리오(82%)가 99% 이상의 위상 정확도를 달성했습니다. 95%에서 99% 사이의 위상 정확도를 갖는 대부분의 시나리오는 Chr15, Chr16 및 Chr21의 분석을 위한 것으로, PHMM, 이 세 염색체에 대한 게놈 데이터의 복잡성을 암시합니다. 전반적으로 166만 hetSNP 중에서 하피 11개의 정자를 모두 사용하여 그 중 99.73%(1,658,197/1,662,611)가 원본 논문에서 제안된 염색체 일배체형과 일치했습니다(Kirkness et al. 2013). 일치하지 않는 hetSNP를 조사한 결과, 이들 중 49.1%는 하나의 정자 세포에 의해 지지되고, 33.4%는 2개 이상의 지지하는 정자 세포에 불일치가 있는 것으로 나타났습니다. 논쟁의 여지가있는 단계적 hetSNP는 중심체 주위 또는 염색체의 양쪽 끝에 클러스터되는 경향이 있습니다(보충 그림 S1, 온라인 보충 자료). 사이에 일치하지 않는 hetSNP 하피 그리고 Chr15의 제안된 일배체형은 염색체를 따라 고르게 분포되어 있는데, 이는 원본 기사에서 언급한 바와 같이 다른 용해된 세포의 DNA에 의해 오염된 정자 Y47 데이터의 복잡성 때문일 수 있습니다(Kirkness et al. 2013).

4개의 위상 방법, 즉 H(하피), NS (PHMM), 여(WhatsHap) 및 C(햅컷2) 인간 정자 세포 시퀀싱 데이터 세트에서 22개의 상염색체를 단계화하기 위한 것입니다. 4개의 내부 원은 3개의 정자가 사용되었을 때의 단계적 결과를 나타내며 파란색/주황색은 올바르게/잘못된 단계의 hetSNP를 나타냅니다. 단계적 hetSNP만 표시되고 hetSNP의 밀도는 네 가지 단계적 방법 각각에 대한 단계적 완성도를 나타냅니다. 2개의 바깥쪽 원은 3~11개의 정자가 haplotyping에 사용될 때 2개의 배우자 기반 방법에 대한 HER에 기반한 위상 정확도를 보여줍니다.

네 가지 위상 방법, 즉 H(하피), NS (PHMM), 여(WhatsHap) 및 C(햅컷2) 인간 정자 세포 시퀀싱 데이터 세트에서 22개의 상염색체를 단계화하기 위한 것입니다. 4개의 내부 원은 3개의 정자가 사용되었을 때의 단계적 결과를 나타내며 파란색/주황색은 올바르게/잘못된 단계의 hetSNP를 나타냅니다. 단계적 hetSNP만 표시되고 hetSNP의 밀도는 네 가지 단계적 방법 각각에 대한 단계적 완성도를 나타냅니다. 2개의 바깥쪽 원은 3~11개의 정자가 haplotyping에 사용될 때 2개의 배우자 기반 방법에 대한 HER에 기반한 위상 정확도를 보여줍니다.

옥수수 미세포자 데이터 세트의 단계적 방법 비교

F1 잡종 개체의 옥수수 미세포자 시퀀싱 데이터 세트는 두 근친 교배 계통(Li et al. 2015)의 성능을 추가로 평가하는 데 사용되었습니다. 하피 ~ 대 PHMM. 부모 일배체형이 알려져 있기 때문에 이것은 이상적인 검증 데이터 세트입니다. 동일한 감수분열 이벤트에서 마이크로포자를 사용하는 것을 피하기 위해 24개의 테트라드 각각에서 하나의 마이크로포자를 무작위로 선택하여 24-배우자 풀을 형성했습니다. 옥수수 염색체에 있는 hetSNP의 수는 42,691(Chr10)에서 82,689(Chr1) 범위였습니다. 24개의 선택된 배우자에 걸쳐 10개의 염색체에 대한 유전자형 데이터 누락의 평균 비율은 약 50%였으며 최대 누락 비율은 72.46%였습니다(보충 표 S4, 온라인 보충 자료). 10개의 옥수수 염색체 각각에 대해 24개의 선택된 배우자를 인간 정자 데이터와 유사한 방식으로 분류했습니다. 정렬된 목록에서 다양한 수(3-15)의 배우자가 다음과 같이 순차적으로 분석되었습니다. 하피 그리고 PHMM, 해당 염색체에 대한 완전한 일배체형을 추론합니다. 이 과정을 반복하여 10개의 염색체를 모두 위상화하여 총 260개의 시나리오(배우자 수 13개 × 염색체 10개 × 2개 방법)를 생성했습니다. 각 시나리오에서 위상 염색체를 알려진 부모 일배체형과 비교하여 위상 정확도를 계산했습니다.

전체 게놈 규모에서 두 방법의 완전성은 동일했지만 하피 일반적으로 우수한 PHMM 정확도 측면에서, 특히 소수의 배우자가 단계 분석에 사용된 경우(그림 4A 보충 표 S5, 온라인 보충 자료). 사이의 페이징 결과 비교 하피 그리고 PHMM 염색체 척도에서 하피 지속적으로 HER이 다음보다 낮았습니다. PHMM. 에 의해 추론된 일배체형 하피 3명의 배우자가 분석되었을 때 Chr2를 제외하고 거의 모든 시나리오에서 HER이 1% 미만이었습니다(그림 4B). 이 3개의 배우자의 Chr2를 자세히 살펴보면 염색체의 한쪽 끝 근처의 작은 영역(사이에 39개의 hetSNP)에 있는 2개의 배우자 염색체에 대한 2개의 교차가 나타났습니다. 기본 설정에서 하피, 초안 일배체형에서 두 개의 교차로 구분된 모든 작은 블록(<100 hetSNP)은 MPR을 구현하기 전에 신뢰할 수 있는 초안 일배체형을 구성하기 위해 절단되므로 경우에 따라 두 개의 병합 프레임워크 마커의 위상이 잘못 추론될 수 있습니다. 이 블록의 제거로 인해 중간에 링크 유형을 잘못 해석합니다. 결과는 Chr2가 PHMM. 또한 최소한 7개의 배우자가 필요했습니다. PHMM 10개 염색체 모두에서 동일한 위상 정확도(특히 HER의 경우)를 달성합니다. 적은 수의 샘플(<7 배우자)을 분석했을 때, PHMM 배우자 수가 증가함에 따라 변동하고 단조롭게 증가하지 않았음을 시사합니다. PHMM 작은 샘플을 처리하는 데 적합하지 않습니다.

두 배우자 기반 단계 방법의 비교(H: 하피 및 P: PHMM) 옥수수 미세 포자 시퀀싱 데이터 세트에서. (NS) 비교 하피 그리고 PHMM 게놈 규모의 COM, SER 및 HER 측면에서. (NS) 일배체형 단계에 대한 각 개별 염색체의 HER 하피 그리고 PHMM 3-15개의 마이크로포자를 사용한 경우의 방법.

두 배우자 기반 단계 방법의 비교(H: 하피 및 P: PHMM) 옥수수 미세 포자 시퀀싱 데이터 세트에서. (NS) 비교 하피 그리고 PHMM 게놈 규모의 COM, SER 및 HER 측면에서. (NS) 일배체형 단계에 대한 각 개별 염색체의 HER 하피 그리고 PHMM 3-15개의 마이크로포자를 사용한 경우의 방법.

시뮬레이션된 데이터 세트의 위상 방법 비교

우리는 추가 벤치마킹을 위해 포괄적인 시뮬레이션 연구를 수행했습니다. 하피 일배체형 페이징 알고리즘. 각 시나리오에서 위상 정확도와 완전성에 영향을 줄 수 있는 세 가지 요인, 즉 1) 염색체의 hetSNP 수, 2) 배우자 수, 3) 유전자형 데이터 누락률이 고려되었습니다. 한 염색체의 단계화는 다른 염색체의 단계화와 독립적이므로 우리는 이배체 기증자로부터 100개의 반수체 배우자 풀이 생성된 모의 연구에서 단일 염색체만 고려했습니다. 염색체에 있는 hetSNP의 수는 5,000(또는 5K)에서 100,000(또는 100K) 범위였습니다. 염색체에 각각 1~3개의 교차가 생성된 3~15개의 배우자를 100개의 반수체 배우자로부터 교체 없이 임의로 선택했습니다. 대부분의 교차는 무작위로 배치되었지만 일부 시나리오에서는 일반적으로 위상을 지정하기 어려운 영역인 염색체 끝에 접근하는 일부 교차를 의도적으로 배치했습니다. 우리는 또한 몇 가지 모방 비교차(NCO) 유전자 전환(GC)을 생성했으며, 각 GC는 복잡성을 증가시키기 위해 배우자 염색체의 매우 작은 영역에서 겉보기에 두 개의 명백한 "교차"를 소유했습니다. 누락된 hetSNP 데이터(즉, 없음) 10%에서 70% 범위의 각 시뮬레이션된 배우자 염색체에 무작위로 도입되었습니다. 또한 1% 유전형 오류가 시뮬레이션된 배우자 염색체에 무작위로 배치되었습니다. 15개의 배우자를 인간 정자 데이터 및 옥수수 미세포자 데이터 분석에 사용된 것과 동일한 방법을 사용하여 분류했습니다. 우리는 미리 결정된 배우자 수, hetSNP 수 및 유전자형 누락률을 사용하여 서로 다른 시나리오에서 두 배우자 기반 방법을 비교했습니다. 각 시나리오는 100번 반복되었습니다. hetSNP의 99% 이상이 올바르게 단계화되면 시나리오에서 고품질 추론이 정의되었습니다.

결과는 평균 성능(각 시나리오의 100회 반복을 기반으로 함)의 하피 그리고 PHMM 9개 이상의 배우자가 분석에 포함될 때도 유사했지만, 하피 이기다 PHMM 더 적은 배우자가 사용되었을 때 SER 및 HER 측면에서 유의하게(그림 5).

두 배우자 기반 단계 방법의 성능을 비교하는 포괄적인 시뮬레이션 연구 하피 그리고 PHMM COM, SER 및 HER 측면에서. hetSNP의 수가 5,000(5K)에서 100,000(100K) 사이이고 유전자형 데이터가 누락된 비율이 10%에서 70%인 100개의 반수체 배우자 풀이 시뮬레이션되었습니다. 시뮬레이션된 각 배우자의 염색체에 대해 1~3개의 교차 및 1% 유전자형 오류가 도입되었습니다. 각 비교에서 3-15개의 시뮬레이션된 배우자가 haplotyping을 위해 배우자 풀에서 무작위로 선택되었으며 COM, SER 및 HER의 평균을 계산하기 위해 프로세스가 100번 반복되었습니다.

두 배우자 기반 단계화 방법의 성능을 비교하는 포괄적인 시뮬레이션 연구 하피 그리고 PHMM COM, SER 및 HER 측면에서. hetSNP의 수가 5,000(5K)에서 100,000(100K) 사이이고 유전자형 데이터가 누락된 비율이 10%에서 70%인 100개의 반수체 배우자 풀이 시뮬레이션되었습니다. 시뮬레이션된 각 배우자의 염색체에 대해 1~3개의 교차 및 1% 유전자형 오류가 도입되었습니다. 각 비교에서 3-15개의 시뮬레이션된 배우자가 haplotyping을 위해 배우자 풀에서 무작위로 선택되었으며 COM, SER 및 HER의 평균을 계산하기 위해 프로세스가 100번 반복되었습니다.

히트맵을 사용하여 각 시나리오에 대한 100회 반복을 기반으로 하는 두 가지 방법의 위상 반복성 또는 신뢰성을 묘사했습니다(그림 6). 결과는 하피 1) hetSNP의 수가 증가하거나, 2) 결손된 유전자형 비율이 감소하거나, 3) 더 많은 배우자가 분석에 사용될 때 꾸준히 증가했습니다. 이에 반해 반복성은 PHMM hetSNP의 수나 유전자형 비율이 없어도 변하지 않았습니다. 하지만 PHMM 더 많은 배우자가 단계화에 사용될 때 더 반복 가능하게 되었고, 궤적은 단조롭게 증가하기보다는 변동했습니다. 점근적으로, 하피 hetSNP가 충분히 조밀하고 누락된 유전자형 비율이 너무 높지 않은 경우 3개의 배우자를 사용하여 염색체 일배체형을 올바르게 추론할 수 있습니다. PHMM.

두 배우자 기반 단계화 방법의 신뢰성과 반복성을 시각화하는 히트맵(하피 그리고 PHMM) 다른 수의 hetSNP(5K–100K), 다른 누락된 유전자형 비율(10–70%) 및 다른 수의 배우자(3–15)가 있는 시나리오에서. 각 셀의 숫자는 각 시나리오에서 100개 복제 중 저품질 단계(HER > 1%)의 수를 나타냅니다.

두 배우자 기반 단계화 방법의 신뢰성과 반복성을 시각화하는 히트맵(하피 그리고 PHMM) 다른 수의 hetSNP(5K–100K), 다른 누락된 유전자형 비율(10–70%) 및 다른 수의 배우자(3–15)가 있는 시나리오에서. 각 셀의 숫자는 각 시나리오에서 100개 복제 중 저품질 단계(HER > 1%)의 수를 나타냅니다.

그런 다음 동일한 시뮬레이션 데이터 세트를 사용하여 체계적으로 벤치마킹했습니다. 하피 참 양성률(TPR, 정확하게 식별된 실제 교차의 비율) 및 거짓 발견 비율(거짓 교차의 비율)을 기반으로 한 교차 탐지용. 앞서 언급했듯이 우리는 염색체 끝에 일부 교차를 포함하도록 시뮬레이션을 의도적으로 설계했으며 염색체에 몇 가지 모방 NCO GC를 도입했습니다. 의 성능을 보는 것은 놀라운 일이 아닙니다. 하피 그리고 PHMM 교차 식별이 추론된 일배체형에 의존하기 때문에 교차 검출에 대한 것은 위상 염색체에 대한 것과 일치했습니다(그림 7). Thus, imprecise haplotype phasing may lead to inaccurately identified crossovers. For both Hapi 그리고 PHMM, the TPR increased when the number of hetSNPs or the number of gametes rose, whereas TPR decreased if missing genotype rate declined. Over 99.5% of the crossovers can be accurately identified by Hapi when four gametes with 5,000 hetSNPs and <50% of missing data were used. With more than 50,000 hetSNPs, all the crossovers can be identified under almost all of the scenarios. The capping strategy designed in the Hapi phasing module ensured the accuracy of phasing of hetSNPs at either end of a chromosome and, therefore, led to a successful detection of crossovers in those challenging regions. The HMM adopted in Hapi recognized NCO GCs and did not erroneously call them as crossovers. 하지만 PHMM also had a satisfactory level of TPR, many false crossovers were identified. The performance of PHMM was even worse when more hetSNPs were used. This was likely owing to the fact that a direct inference of crossover positions in the core strategy of PHMM is rather sensitive to regions with ambiguous data (i.e., genotyping errors, or complications caused by multiple crossovers in more than one gamete) and dense hetSNPs data would add to the intricacy. Such a problem may be resolved by increasing the number of gametes (i.e., nine or more) in the phasing analysis, which was also the case in the simulation study.

Comprehensive simulation study comparing the performance of Hapi 그리고 PHMM for crossover detection in terms of TPR and false discovery rate (FDR). The same simulation data set for haplotype phasing analysis was used that is, a pool of 100 haploid gametes were simulated where the number of hetSNPs ranged from 5,000 (5K) to 100,000 (100K) and the rate of missing genotype data ranged from 10% to 70%. For the chromosome in each simulated gamete, one to three crossovers and 1% genotyping errors were introduced. In each comparison, 3–15 simulated gametes were randomly selected from the gamete pool for haplotyping and the process was repeated for 100 times to compute the TPR and FDR for crossover detection.

Comprehensive simulation study comparing the performance of Hapi 그리고 PHMM for crossover detection in terms of TPR and false discovery rate (FDR). The same simulation data set for haplotype phasing analysis was used that is, a pool of 100 haploid gametes were simulated where the number of hetSNPs ranged from 5,000 (5K) to 100,000 (100K) and the rate of missing genotype data ranged from 10% to 70%. For the chromosome in each simulated gamete, one to three crossovers and 1% genotyping errors were introduced. In each comparison, 3–15 simulated gametes were randomly selected from the gamete pool for haplotyping and the process was repeated for 100 times to compute the TPR and FDR for crossover detection.

Recombination Analysis in the Human Sperm Data Set

With the phased chromosome-length haplotypes, an HMM was used to infer crossover positions in the sperm genomes by successively contrasting hetSNPs in each sperm with the inferred chromosomal haplotypes ( supplementary fig. S2 , Supplementary Material online). A total of 254 crossovers along the 22 autosomes were identified in the 11 sperms with an average of 1.05 per chromosome. Compared with the 260 crossovers identified in the original article ( Kirkness et al. 2013), 251 were also identified by the Hapi method ( supplementary table S6 , Supplementary Material online). The 12 inconsistent crossovers were all located at the ends of chromosomes, and such inconsistency may be ascribed to either of the two following reasons: 1) The method in the original article did not accurately infer haplotypes at the chromosome ends, yielding incorrect crossovers in those regions, or 2) the observed double crossovers in a very small region were considered to be either caused by a GC event or consecutive genotyping errors and thus were filtered out by Hapi. The number of crossovers was counted in each bin (5 Mb in length) along 22 autosomes and distributions of the 254 crossovers are depicted in figure 8A. The resolution of crossover locations ranged from 79 bp to 788 kb with a median of 89.3 kb, which was roughly the same as the 82.5-kb resolution reported in the original article ( Kirkness et al. 2013). Over 75% of the 254 crossovers were located within an interval of < 200 kb ( fig. 8B). Distribution of distances between any two chromosomally adjacent crossovers was provided ( fig. 8C), which can be used for recombination-relevant research such as interference in the formation of chromosomal crossovers during meiosis. Functions for downstream analysis and visualization were included in the “crossover analysis” module of the Hapi 패키지.

Crossover analysis in the human sperm sequencing data set. (NS) The distribution of 254 identified crossovers on the 22 autosomes. (B) The distribution of the crossover resolutions (distance between two adjacent markers that involve a crossover). () The distribution of distances between two neighboring crossovers.

Crossover analysis in the human sperm sequencing data set. (NS) The distribution of 254 identified crossovers on the 22 autosomes. (B) The distribution of the crossover resolutions (distance between two adjacent markers that involve a crossover). () The distribution of distances between two neighboring crossovers.


Access options

Get full journal access for 1 year

All prices are NET prices.
VAT will be added later in the checkout.
Tax calculation will be finalised during checkout.

Get time limited or full article access on ReadCube.

All prices are NET prices.


NyuWa Genome Resource: Deep Whole Genome Sequencing Based Chinese Population Variation Profile and Reference Panel

The lack of Chinese population specific haplotype reference panel and whole genome sequencing resources has greatly hindered the genetics studies in the world’s largest population. Here we presented the NyuWa genome resource of 71.1M SNPs and 8.2M indels based on deep (26.2X) sequencing of 2,999 Chinese individuals, and constructed NyuWa reference panel of 5,804 haplotypes and 19.3M variants, which is the first publicly available Chinese population specific reference panel with thousands of samples. There were 25.0M novel variants in NyuWa genome resource, and 3.2M specific variants in NyuWa reference panel. Compared with other panels, NyuWa reference panel reduces the Han Chinese imputation error rate by the range of 30% to 51%. Population structure and imputation simulation tests supported the applicability of one integrated reference panel for both northern and southern Chinese. In addition, a total of 22,504 loss-of-function variants in coding and noncoding genes were identified, including 11,493 novel variants. These results highlight the value of NyuWa genome resource to facilitate genetics research in Chinese and Asian populations.


소개

Recombination is an essential process during meiosis. Chromosome segregation often occurs through crossing-over, which involves reciprocal exchange among homologous chromosomes and plays an essential role in meiotic chromosome segregation in sexually reproducing organisms. By shuffling parental alleles to produce novel haplotypes it is also a key source of genetic diversity that has considerable implications for the genomic landscape of variation and the evolutionary process.

In most diploid organisms, recombination is functionally constrained by the necessity for at least one recombination event per homologous chromosome pair (this ensures proper segregation during Meiosis I) 1 . Defective, excessive, or deficient recombination can cause inviable gametes and developmental abnormalities 2,3 . For these reasons the number of crossovers and their genomic locations are thought to be tightly regulated and highly constrained 4 .

Despite this core functional constraint, recent studies have revealed remarkable variation in recombination at multiple different scales (between and along chromosomes, among individuals, sexes, populations, and species/taxa) 5,6,7,8,9,10,11,12 . Crossovers are not uniformly distributed across the genome and the frequency (recombination rate), can vary by orders of magnitude and involve genomic hotspots and coldspots. For example, a well-studied recombination hotspot (Hlx1) on mouse chromosome 1 has a remarkably high recombination rate of 2.63 cM within a narrow 2.8 kb interval in F1 hybrid male mouse (C57BL/6J x CAST/EiJ), yet is relatively colder in females of the same background and among other strains 8 . This among strain variation is partly attributable to the strain genotype at the trans-acting recombination modifier protein PRDM9. Conversely recombination coldspots with a lack of crossovers in genomic regions as large as 41 Mb have also been reported 13,14 .

Part of the extensive variation in recombination among organisms may stem from the impact of recombination on individual fitness and rates of adaptation in natural populations—in addition to its fundamental role in meiosis, recombination impacts the inheritance of linked alleles, and its modifiers may be subject to different selection pressures in different populations and taxa. Depending on the evolutionary context, recombination may be beneficial if it breaks down linkage between deleterious and beneficial alleles (known as the Hill–Robertson effect 15,16 ), or deleterious if it breaks linkage between two adaptive alleles 17 .

With the knowledge that number and genomic location of recombination can influence the segregation of traits, fitness of an organism, and adaptation in natural populations, there is increasing interest in the fields of medicine, agriculture, and evolutionary genomics in the empirical quantification of fine-scale variation in recombination among individuals, populations, and species. Despite diverse approaches (linkage-maps, high density genotyping of pedigrees, and individual sperm typing/sequencing), empirically quantifying recombination variation within and among individuals remains a challenge due to the expense and data intensity required to build numerous individualized genome-wide maps of recombination rate 8,12,18,19,20,21,22,23,24,25 . Other less data intensive approaches, such as comparisons of recombination among taxa using statistical estimates of recombination from population genetic (polymorphism) data, provide population and sex-averaged historical estimates of recombination rate and can be confounded by differences in the demographic history of the taxa and differences in the effective population size of the local genomic regions being compared. Further, these averaged estimates make genetic dissection of molecular mechanisms underlying recombination variation difficult. In this study, we address these challenges by introducing a new and powerful low-cost method that quantifies empirical recombination events across the genome of a single individual using linked-read sequencing of gametes.

Linked-read libraries are generated from long (high molecular weight (HMW)) DNA molecules using a 10X Genomics Chromium controller. Numerous short reads are produced from DNA molecules encapsulated inside nanoliter-sized droplets. Using their droplet-specific barcode these short reads can be computationally reconstructed into single molecules after Illumina sequencing. This low-cost long-range information can be used to solve the problem of haplotype determination. Our pipeline called ReMIX mines the long-range information in linked-read data to identify recombination crossovers across the genome. ReMIX makes use of some parts of the 10X Genomics pipeline, Long Ranger 26 , but deviates from it in a number of important ways. Long Ranger aligns reads to a reference sequence, calls and haplotype phases SNPs, reconstructs molecules, and identifies indels and large-scale structural variants. It makes use of molecules that have a high probability of assignment to only one haplotype phase. Molecules that contain reads of mixed haplotype assignment (some reads assigned to one haplotype while others are assigned to the alternate haplotype), are considered to be errors and are discarded. However, when sequencing linked-read libraries from gamete DNA these haplotype switching molecules can also represent a valuable fraction of molecules spanning meiotic recombination crossovers. ReMIX identifies these valuable molecules and is the first method to enable reconstruction of individualized genomic recombination landscapes using linked-reads.

The linked-read information is exploited by ReMIX during three steps: identification of high-quality heterozygous variants, reconstruction of molecules, and the haplotype phasing of each molecule. The molecules identified as recombinant are then used to build an individualized genomic map of recombination crossovers, enabling us to quantify recombination variation across the genome.

We demonstrate our method using gametic tissue from a hybrid mouse (Mus musculus domesticus × Mus musculus castaneus) and a stickleback fish (가스테로스테우스 아쿨레아투스). Genetic maps, available for both organisms, allow us to evaluate the accuracy of ReMIX. To validate the precision of our pipeline, we also use samples from the somatic tissue of the tested individuals as a negative control, as well as simulated data to determine the sensitivity and specificity of our method in genomes with different levels of polymorphisms. Using data from only a single individual and without prior knowledge of polymorphic sites, ReMIX obtained results that follow the same pattern of the previously described recombination maps, but with considerably higher resolution of the detected crossovers and lower costs compared to previous methods.


A.P.F.P. and D.E.R. 연구를 구상했다. A.P.F.P. compiled the papers, analysed the data and wrote the first draft of the manuscript with input from D.E.R.

We thank Leif Andersson, Sangeet Lamichhaney, Nima Rafati and Alvaro Martínez-Barrio (Uppsala University) for training on Pool-seq. Thanks to Martin Fischer, Simone Fior, Erik Garrison and Anders Albrechtsen for helpful discussions on Pool-seq and lcWGR during the 2017 Workshop on Bioinformatics for Adaptation Genomics (ETH-Zurich). Thanks to three anonymous reviewers that helped improve this manuscript. APFP thanks to the Vanier Canada Graduate Scholarship, the President's Award of Dalhousie University and the Nova Scotia Graduate Scholarship for funding. APFP and DER thank the Killam Trust. The study was funded by NSERC Discovery and Strategic grants to DER.


비디오 보기: Sanger 시퀀싱 (팔월 2022).