정보

배경 선택 및 히치하이킹 효과

배경 선택 및 히치하이킹 효과



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

내가 읽을 때 인구에서 대립 유전자의 유지 또는 제거는 연결 그룹의 대립 유전자에 따라 다릅니다. 따라서 집단에서 유리한 돌연변이가 발생하면 해당 돌연변이 대립유전자와 연결된 주변 대립유전자의 변이가 감소하여 집단 내 돌연변이 대립유전자를 고정(유지)(유지)합니다(히치하이킹 효과). 이것은 유해한 돌연변이 및 배경 선택에 해당됩니다. 그러나 배경 선택이 개체군에서 해로운 돌연변이를 제거할 수 있는 방법을 이해할 수 없습니까? 그것에 대해 친절하게 설명해 주시겠습니까?

감사 해요


귀하의 질문에 있는 문구가 약간 명확하지 않아 귀하에게 명확하지 않은 것이 무엇인지 정확히 알기 어렵습니다. 하지만 도움이 되기를 바라며 시도해 보겠습니다.

배경 선택(BGS)은 유해한 돌연변이가 인근 유전자좌에서 유전적 다양성을 감소시키는 과정입니다. 네가 말할 때

배경 선택이 개체군에서 해로운 돌연변이를 제거하는 방법을 이해할 수 없습니다.

나는 BGS가 말당 해로운 돌연변이를 제거하지 않는다는 점을 강조하고 싶습니다. BGS는 유해한 돌연변이로 인해 발생하며 결과적으로 이 다양성이 적합성을 위한 변이를 나타내는지 여부에 관계없이 유전적 다양성을 감소시킵니다.

이 효과에 대한 직관을 얻는 쉬운 방법은 효과적인 인구 규모를 생각하는 것입니다. 모든 개체의 번식 확률이 동일한 Wright-Fisher 개체군에서 유효 개체군 크기는 개체군 크기와 같습니다. 이제 인구의 절반이 그들을 완전히 불임으로 만드는 돌연변이를 가지고 있다고 상상해보십시오. 이 경우 유효 인구 크기는 인구 크기의 절반으로 줄어듭니다. 유효 인구가 적으면 유전적 다양성도 작아집니다. 따라서 유해한 돌연변이(및 일반적으로 적합도 편차)는 유효 모집단(실제 모집단 크기와 비교하여)을 감소시킵니다.

이제 다음 세대에 사라지는 하나의 해로운 돌연변이가 전체 게놈에 동등하게 영향을 미칠 것입니다. 그러나 몇 세대 동안 유지되는 특정 유전자좌(보존 영역)에서 반복적으로 유해한 돌연변이가 발생하면 다른 영역보다 이 영역의 유효 개체군 크기에 더 큰 영향을 미칩니다. 예, 인구에 대한 유효 인구 크기는 게놈에 따라 다를 수 있습니다.

예상되는 이형 접합, $D_{XY}$ 또는 $F_{ST}$와 같은 다양한 통계에 영향을 미치는 BGS의 강도는 히치하이킹(선택적 스윕)과 BGS가 매우 유사한 유전 서명을 남기기 때문에 추정하기 어렵습니다. 예를 들어 Matthey-Doret 및 Whitlock(2018; bioRxiv)(뻔뻔한 자기 인용)을 참조하십시오.


유전적 히치하이킹과 유전자 흐름으로 종분화하는 동안 게놈 발산의 동적 축적

진화 생물학의 주요 문제는 개체군 게놈 데이터에서 관찰된 분화 패턴을 설명하는 것입니다. 발산은 유전자좌에서의 직접 선택과 유전적 히치하이킹 모두에 기인할 수 있기 때문입니다. "Divergence hitchhiking"(DH) 이론은 유전자좌에 대한 분기 선택이 물리적으로 연결된 사이트에서 유전자 흐름을 감소시켜 밀접하게 연결된 분기된 유전자좌의 국소 클러스터 형성을 촉진한다고 가정합니다. "게놈 히치하이킹"(GH) 이론은 분기 선택의 게놈 전체 효과를 강조합니다. DH와 GH에 대한 과거의 이론적 조사는 다이버전스의 정적 스냅샷에 초점을 맞췄습니다. 여기에서 우리는 선택, 이동 속도, 인구 크기 및 돌연변이 비율의 다양한 강점을 평가하는 시뮬레이션을 사용하여 시간이 지남에 따라 종 분화가 진행됨에 따라 게놈 분기의 동적 구축을 촉진하는 데 있어 직접 선택, GH 및 DH의 상대적 중요성을 조사했습니다. 다양하게 선택된 돌연변이가 제한적일 때 GH는 분기를 촉진했지만 DH는 측정 가능한 효과가 거의 없었습니다. 개체군이 작고 다양하게 선택된 돌연변이가 흔한 경우 DH는 약하게 선택된 돌연변이의 축적을 증가시켰지만 이것은 생식적 격리에 거의 기여하지 못했습니다. 일반적으로 GH는 직접 선택만으로 인한 것보다 낮은 유효 이동 속도를 줄임으로써 생식 분리를 촉진했으며, 종 분화가 진행됨에 따라 유전자좌에 걸친 분화(F(ST))의 게놈 전체 "응고" 또는 "커플링"에 중요했습니다.

키워드: 드 노보 종 분화 분기 선택 효과적인 마이그레이션 진화 이론 게놈 아키텍처 개별 ​​기반 모델 1차 접촉.

© 2013 저자(들). 진화 © 2013 진화 연구 학회.


배경

미생물 다양성에 대한 생태학적 및 게놈 조사에서 축적된 증거는 자연의 고세균과 박테리아(집합적으로 원핵생물)가 뚜렷한 생태학적 특성과 대체로 일치하는 유전형 클러스터로 구성되어 있음을 나타냅니다[1]. 미생물 다양성의 그러한 패턴이 어떻게 형성되고 유지되는지는 미생물 생태학에서 열린 질문입니다. 재조합의 제한과 유전형 클러스터 간의 균형 선택은 여러 개의 개별 클러스터가 안정적이고 sympatric 공존하는 데 필요하다는 데 일반적으로 동의합니다[1-4]. 더 논쟁의 여지가 있는 것은 그러한 클러스터의 형성에서 선택과 재조합이 수행하는 역할입니다[5,6].

생태형 모델(ecotype model)로 알려진 두드러진 개념은 클러스터 형성을 위한 양성 선택 및 제한된 재조합의 중심 역할을 합니다[2]. 이 모델에 따르면 양성 선택으로 인해 개체군 내 게놈의 한 유전자좌에 유익한 유전자(대립유전자)가 고정되면 다른 모든 유전자좌에도 고정이 수반됩니다. 게놈(그림 1a). 이 현상은 게놈 전체의 선택적 스윕[7] 또는 유전적 히치하이킹[8]으로 알려져 있습니다. 게놈 전체의 선택적 스윕은 새로운 환경에 적응하는 개체군에서 반복적으로 발생할 수 있으며, 매번 개체군 내 유전적 다양성을 제거하는 주기적인 선택으로 알려진 현상입니다[9]. 주기적인 선택은 집단을 유전적으로 응집력 있게 만들고 다른 집단과 구별하여 군집을 형성합니다[5].

다양한 시나리오에서 선택적 스윕 모드를 보여주는 개략도. 세포 내의 닫힌 곡선은 원핵생물 게놈을 나타냅니다. 게놈의 다른 선 스타일은 중립적 다양성의 존재를 나타냅니다. 녹색 삼각형은 인구를 통해 확산되는 생태학적으로 유리한 대립 유전자를 나타냅니다. 흰색 삼각형은 동일한 유전자좌에 있는 야생형 대립유전자를 나타냅니다. 게놈의 다른 기호는 바이러스에 대한 감수성을 결정하는 유전자를 나타냅니다. (NS) (자주) 재조합이 없는 NFDS가 없는 경우 게놈 전체의 선택적 스윕이 발생합니다. 유익한 대립 유전자의 고정 후에 중립적 다양성이 상실됩니다. (NS) 유전자 특이적 선택적 스윕은 생태학적으로 유익한 대립유전자가 나타나는 유전자좌에서만 재조합과 함께 NFDS의 존재하에서 발생합니다. 유익한 대립유전자의 고정 후에도 중립적 다양성이 유지됩니다. (씨) 게놈 전체의 선택적 스윕은 바이러스에 대한 감수성을 결정하는 유전자좌에서만 재조합이 있는 NFDS의 존재하에서 발생합니다. 중립적 다양성이 상실됩니다. NFDS, 음의 주파수 종속 선택.

최근에 Shapiro et al. 해양 미생물의 자연 개체군을 통한 적응 유전자의 확산을 탐구한 [10], 비브리오 사이클리트로피쿠스. 이 연구는 적응 유전자가 선택적 스윕 이전에 존재했던 전체 게놈 다양성을 제거하지 않고 수평적 유전자 전달(즉, 재조합)을 통해 미생물 개체군을 통해 확산된다는 것을 보여주었습니다. 따라서 이러한 진화 방식은 유전자 특이적 선택적 스윕으로 표시됩니다. 이러한 진화적 체제 하에서 생태학적으로 분화된 개체는 대다수의 다형성 유전자좌에서 유전적으로 분화되지 않는다. 따라서 클러스터 형성은 유성생식 진핵생물과 유사한 상황인 생태학적으로 분화된 개체군 사이의 재조합 장벽의 설정에 달려 있습니다[10,11](예: [12-14]). 유전자 특이적 선택적 스윕은 원핵생물의 생태와 진화에 추가적인 영향을 미칩니다. 특히, 이 시나리오에서 집단 내의 유전적 다양성은 1차 생산성과 같은 집단의 생태학적 특성에 잠재적으로 큰 영향을 미칠 수 있는 게놈 전체의 선택적 스윕으로부터 보호됩니다[15]. 더욱이, 유전자 특이적 스윕 모델에서는 생태형 모델의 의미와 달리 개체군의 진화 역사를 공통 조상의 한 줄 계승으로 설명할 수 없습니다[16].

원핵생물의 유전자 특이적 선택적 스윕은 원핵생물 진화에 대한 일반적인 견해에 도전할 뿐만 아니라 기본 메커니즘과 관련하여 당혹스럽습니다. 액면 그대로, 유전자 특이적 선택적 스윕은 재조합이 너무 빈번하여 나머지 게놈에서 생태학적으로 유익한 대립 유전자가 높은 빈도로 상승하기 전에 연결을 끊는다는 것을 의미합니다[17,18]. 이것은 명백히 많은 원핵생물[17,19-22]에서 사용 가능한 데이터에서 현재 추론된 것보다 훨씬 더 높은 재조합 비율을 요구할 것입니다('토론' 참조). 현재의 방법이 재조합 비율을 몇 배나 과소 평가할 가능성을 완전히 배제할 수는 없지만 다음 고려 사항에서 제안하는 대체 설명을 찾는 것이 좋습니다. 생태형 모델의 기반이 되는 주기적 선택의 개념은 원래 고립된 환경에서 순수 박테리아 배양의 실험적 진화에서 파생되었습니다[9]. 야생에 있는 대부분의 미생물은 이러한 통제된 조건에서 진화하지 않습니다. 오히려 그들은 진화하는 다른 미생물, 숙주, 포식자, 바이러스 및 플라스미드를 포함하는 매우 이질적이고 역동적인 생태 공동체 속에서 생존을 위해 고군분투합니다. 이러한 다양한 생물학적 개체와의 생태학적 상호작용은 실험적 공진화에 대한 최근 작업에서 알 수 있듯이 미생물 진화 과정에 실질적으로 영향을 미칩니다[23].

이러한 영향을 미칠 수 있는 일반적인 메커니즘은 NFDS(negative frequency-dependent selection)이며, 이는 모집단에서 희귀 표현형을 선호하는 선택 유형입니다[24]. NFDS는 기생충의 회피(죽음의 역학이라고도 함) 및 경쟁자에 대한 공격(예: 항생제 생산)과 같은 다양한 생태학적 상호작용뿐만 아니라 공공재 제공(예: 사이드로포어)과 같은 사회적 상호작용으로 인해 발생할 수 있습니다. 및 독성 인자) [24-28]. NFDS는 개체군 내에서 유전적 다양성을 생성하고 유지할 수 있으며 [29], 모든 개인에 적응하는 유전자가 재조합을 통해 개체군 전체에 퍼질 것이라는 의미와 함께 유전자 특이적 선택적 스윕(그림 1b)(NFDS가 잠재적 원인으로 제안되었습니다. Shapiro et al.[10]에 의한 유전자 스윕의 관련 아이디어는 Maynard Smith[30]에 의해 탐구되었으며 Majewski와 Cohan[31]은 토론 참조). 이 시나리오에 따르면, 유전자 특이적 선택적 스윕은 일반적인 현상이 될 것입니다. 대부분은 아닐지라도 많은 자유생활 원핵생물이 특히 유비쿼터스 바이러스에 의해 유발된 NFDS 하에서 진화할 가능성이 있기 때문입니다[32].

그러나 NFDS 시나리오의 잠재적인 문제는 이러한 상호작용에 관련된 유전자좌가 종종 상당히 높은 재조합 비율을 경험하는 것으로 보이는 게놈 섬에 위치한다는 것입니다[24,27,33-35]. 예를 들어, 그람음성균의 표면에서 돌출된 지질다당류의 가장 바깥 부분인 O-항원은 대표적인 바이러스 수용체이다[27]. O-항원을 암호화하는 유전자는 밀접하게 관련된 박테리아 사이의 높은 가변성으로 입증된 바와 같이 NFDS 하에서 진화할 가능성이 있습니다[27]. 이러한 유전자는 일반적으로 빈번한 수평 유전자 전달을 겪는 게놈 섬에 클러스터링되어 있습니다[36]. 에서 비브리오 스플렌디두스 게놈에서 O-항원 인코딩 영역은 JUMP 부위로 알려진 보존된 신호 서열을 포함하며, 이 영역에서만 독점적으로 발견되며 자연 변형에 관여하는 것으로 생각됩니다[37]. 다른 예로는 다음의 게놈 섬이 있습니다. 프로클로로코커스 다양한 대사산물 운반체(바이러스 인식의 잠재적 표적)에 대한 유전자와 많은 tRNA 유전자, 반복 요소 및 통합효소를 포함하는 시아노박테리아는 이들 섬에서 재조합 속도를 향상시킬 수 있습니다[38]. 또한, 제한 변형 시스템과 같은 다양한 항바이러스 방어 메커니즘을 인코딩하는 유전자도 방어 섬으로 알려진 클러스터를 형성하며, 이는 트랜스포존 및 프로파지 구성 요소를 인코딩하는 유전자와 상당히 공동으로 국소화되어 있습니다[35]. 마지막으로, 공공재로 작용할 수 있는 2차 대사산물 합성효소를 암호화하는 유전자가 원핵생물 게놈의 이동성 영역에 나타나는 것으로 나타났다. 예를 들어, 해양 비브리오에서 독소 코딩 유전자는 게놈 섬에서 발견되었습니다[39]. 또한, 분비된 독성 인자 유전자는 일반적으로 많은 원핵생물 게놈의 초재조합 영역에 위치한다[40]. 증가된 재조합 비율의 결과로, NFDS의 영향을 받는 유전자좌는 나머지 게놈과 연결 해제될 수 있으며, 따라서 NFDS는 다른 적응 대립유전자에 의해 구동되는 게놈 전체의 선택적 스윕을 방지할 수 없습니다(그림 1c)[24]. 따라서 유익한 대립유전자의 고정에 대한 NFDS의 잠재적 효과를 평가하려면 이러한 편향된 재조합 비율을 고려해야 합니다.

여기에서 우리는 NFDS가 NFDS에 의해 영향을 받는 유전자좌에서 상승된 재조합 비율이 있을 때 NFDS가 유전자 특이적 선택적 스윕을 유발할 수 있는지 여부와 조건을 조사합니다. 수학적 모델링을 사용하여, 우리는 NFDS가 실제로 대규모 원핵생물 집단에서 유전자 특이적 선택적 스윕을 일으킬 수 있음을 보여주지만, 기초 재조합 비율이 충분히 낮을 때만, 유전자 특이적 선택적 스윕에 높은 재조합 비율이 필요하다는 직관과 명백히 모순됩니다.


결과

다중 사이트 컨텍스트에서 BGS의 예측 효과는 수량으로 설명할 수 있습니다. NS = exp(–이자형), 어디 NS 는 BGS가 없을 때의 값에 대한 BGS 하에서 초점 중립 사이트에서 예상되는 중립 다양성의 비율입니다(이는 평균 유착 시간의 해당 비율과 동일함). 이자형 선택한 각 사이트의 효과의 합입니다(Hudson and Kaplan 1995 Nordborg et al. 1996 산티아고와 카바예로 1998). Charlesworth(2012b)의 모델 3에서와 같이 일정한 밀도로 연속적으로 분포된 선택된 부위와 함께 많은 유전자를 포함하는 게놈 영역을 가정합니다. NS 사이트와 UTR을 구분합니다. 물론 이것은 우리의 유전자 모델이 중립적으로 진화하는 인트론 및 유전자간 서열을 포함한다는 점을 고려할 때 다소 조잡한 근사치입니다. 단순성을 위해 상염색체 상속의 경우를 설명하지만 선택, 돌연변이 및 재조합 매개변수의 적절한 변경과 함께 X-연관 유전자좌에 대해 평행 결과가 유지됩니다.

우리는 교차 및 비 교차 관련 유전자 변환을 통한 상호 교환을 모두 모델링합니다. 우리는 유전자 전환의 주요 기여가 유전자 전환이 고정된 속도로 그들 사이에서 재조합을 일으킬 만큼 충분히 멀리 떨어진 부위에서 나온다고 가정합니다. NS = NSNSNSNS (NSNS 는 여성에서 유전자 전환 사건의 시작 속도이고 NSNS 는 평균 트랙 길이)입니다. 이는 염기쌍, NS[1 – 경험치(– /NSNS)] (랭리 et al. 2000 프리세 et al. 2001), 남성 감수 분열에서 유전자 전환의 부족을 수정한 후.

SLiM은 교차 간섭이 없다고 가정하기 때문에 시뮬레이션에서 교차 빈도와 지도 거리 사이의 관계는 Haldane 매핑 함수(Haldane 1919)를 따릅니다. 염기쌍은 다음과 같이 주어진다: (1) 여기서 NS 는 염기쌍당 교차율입니다.

사이트 간의 순 재조합 빈도는 다음과 같습니다. NS() = NS + (). 의 예측 값 이자형 주어진 선택 계수에 대해, NS = , 유해한 돌연변이의 이형 접합체에 대해, 이자형NS, 파일 S1의 섹션 S1에서 방정식 S1–S5에 의해 제공됩니다. 의 최종 값을 얻으려면 이자형, 이 방정식은 의 확률 분포에 대해 수치적으로 통합됩니다. NS 총 유해 돌연변이 비율과 함께 NS 및 UTR 사이트에 대한 개별 값 N 그리고 NS 및 UTR 사이트에 대해 각각 값 제공 이자형N 그리고 이자형 해당 BGS 효과에 대해.

시뮬레이션 결과를 모방하기 위해 형상 매개변수가 0.3인 γ 분포를 가정합니다. 이전 연구에서와 같이 스케일된 선택 계수 γ로 모든 유해한 돌연변이를 무시합니다. = 2N이자형NS 임계값 이하 γ, 매우 약하게 선택된 돌연변이가 표류하기 쉽고 BGS 효과에 거의 기여하지 않는다는 문제를 다루기 위해(Nordborg et al. 1996). Nordborg를 따라 et al. (1996) 및 캄포스 et al. (2017), 우리는 γ를 설정 = 5이고 NS 및 UTR 돌연변이 모두에 대한 γ 분포는 그에 따라 잘렸습니다. γ에서 γ 분포의 커널 적분에 대한 수치 결과 γ를 초과하는 돌연변이의 비율을 무한대로 허용 계산하려면 다음과 같이 표시됩니다. NSN 그리고 NS NS 및 UTR 사이트에 대해 각각. 상염색체 시뮬레이션에 사용된 매개변수를 사용하면 다음을 제공합니다. NSN = 0.871 및 NS = 0.694. 에 대한 최종 값 이자형 ~이다 NSN이자형N + NS이자형, 어떤에서 NS exp(- 이자형).

무작위 짝짓기 개체군에서 부분적으로 연결된 중립 사이트의 다양성 통계에 대한 단일 SSW의 대략적인 효과와 분리 사이트에서 중립 사이트 주파수 스펙트럼의 관련 왜곡을 예측하기 위해 다양한 방법이 사용되었습니다(Maynard Smith 및 Haigh 1974 카플란 et al. 1989년 스테판 et al. 1992 Barton 1998, 2000 Gillespie 2000, 2001 Durrett 및 Schweinsberg 2004 Kim 2006 Pfaffelhuber et al. 2006년 Coop 및 Ralph 2012년 Bossert 및 Pfaffelhuber 2013년). 여기에서 우리는 합체 과정과 확산 방정식 접근 방식의 조합을 기반으로 한 쌍별 중성 뉴클레오티드 사이트 다양성 π에 대한 스윕 효과의 간단한 발견적 유도를 제시합니다. 이전 접근 방식에 따라 우리는 스윕이 끝날 때 유리한 대립 유전자와 관련된 중립 혈통이 선택된 유전자좌에서 야생형 대립 유전자가 아니라 스윕 시작 시에도 관련되었을 확률을 얻습니다.

우리는 스위프 연구의 역사 초기에 확인된 유리한 돌연변이 확산의 결정론적 및 확률론적 단계를 별도로 고려합니다(Maynard Smith and Haigh 1974 Kaplan et al. 1989년 스테판 et al. 1992 바튼 1998). 유리한 대립 유전자 A의 초기 확산2 1/(2)의 주파수에서N)는 큰 확률론적 영향을 받습니다. 준우세의 경우 A가2 이 효과적으로 중립적인 기간을 살아남는 것은 대략 NS = N이자형s/n 대규모 모집단에서(Kimura 1964), 척도화된 선택 계수, γ = 2N이자형NS, 는 1보다 훨씬 큽니다(NS 유리한 돌연변이에 대한 동형 접합체에 대한 선택적 이점입니다. Maynard Smith(1976)가 지적한 바와 같이 A의 전체 기대 빈도는2 이 준중립 단계 동안(손실 포함)은 약 1/(2N) 이후에는 결정론적으로 행동하기 시작합니다. A의 예상 빈도2 준중립 단계가 끝날 때 확률로 생존하는 조건 NS, 따라서 1/(2NQ) = γ -1 . 더 엄격하게 말하면 Martin과 Lambert(2015)는 분기 과정 이론을 사용하여 A의 빈도가2 첫 번째 확률 단계의 끝에서 평균 γ -1 과 분산 γ -2 로 지수 분포를 따릅니다.

BGS가 있는 경우 Kim과 Stephan(2000)을 따르고 다음을 가정합니다. N이자형 고정 확률 공식에서 상수를 곱하면, NS (위 참조). 아래에서 볼 수 있듯이, 이 상수는 중립적 변동성 수준과 같은 순수 중립적 프로세스에 대한 BGS의 영향과 유리한 돌연변이의 고정에 대한 BGS의 영향에 대해 다소 다릅니다. 중립 변종보다 BGS(Johnson and Barton 2002). 이 두 상수를 다음과 같이 표시합니다. NS1 그리고 NS2, 각각, 비율에 대해 λ를 씁니다. NS1/NS2. A가 발생하는 임계 주파수2 결정론적으로 행동하는 것으로 취급될 수 있습니다.NS2γ) −1 , 이전 단락의 인수를 사용합니다. 때 A2 1에 가까운 주파수에 도달하면 아래에 설명된 것처럼 고정으로 상당히 빠르게 드리프트하는 두 번째 확률적 단계가 있습니다. BGS의 다른 모든 효과는 중립적 변동성에 대한 효과와 유사하다고 가정합니다. NS1 증가시키는 요인으로 N이자형.

결정적 단계에서 소요되는 시간의 기대치는 다음과 같이 찾을 수 있습니다. Ewens(2004, page 169)에 의해 기술된 바와 같이, 준우성 우호 대립유전자는 대립유전자 빈도의 작은 간격에서 예상되는 시간이 소요된다는 특성을 가지고 있습니다. NS 에게 NS + 디NS 간격 1에서 보낸 시간과 동일합니다. NS 1 - NS - NSNS. 이것은 A가 예상되는 시간을 의미합니다.2 1/(2) 사이에서 지출N) 그리고 (NS2γ) −1은 1 – (NS2γ) -1 및 1 - 1/(2N), 하도록하다 NS 결정론적 단계에서는 편리하게 (NS2γ) -1 및 1 -(NS2γ) -1 . 결정론적 선택 방정식 d의 솔루션 사용NS/NSNS = 1/2 spq 반우성 대립유전자(Haldane 1924)의 경우 이 간격에 소요되는 예상 시간(합체 시간 단위로 표시, 2N이자형 세대) ≈ 2γ −1 ln(NS2 2 γ 2 ) = 4γ -1 ln(NS2γ).

두 개의 확률적 단계에서 소요된 예상 시간은 다음과 같이 찾을 수 있습니다. Kimura and Ohta(1973)의 수학식 16을 이용하여 N이자형 곱해진다 NS1 BGS를 고려하기 위해 초기 빈도 1/(2에서 중성 대립유전자의 예상 첫 번째 통과 시간N) 주파수 NS 이다: (2) NS << 1, 이 시간은 대략 다음과 같습니다. NS1NS, 따라서 첫 번째 확률론적 단계에서 소요되는 추가 예상 시간은 대략 λγ -1 입니다. 위의 대칭 인수에 의해 1 – (NS2γ) -1 및 1-1/(2N). A 고정까지의 총 예상 시간2 γ >> 1일 때: (3) 이 식은 NS1 = NS2 = 1, 유한한 인구에서 유리한 돌연변이의 평균 체류 시간에 대한 확산 방정식에서 직접 파생되었습니다.

중립적 다양성에 대한 대체 효과에 관한 한, 우리는 A와 관련된 중립 혈통이2 시간에 NS A의 배경에 재결합1 ~이다 NS(NS)ρ, 여기서 NS(NS)는 시간에 야생형 대립 유전자의 빈도입니다. NS 및 ρ = 2N이자형NS 는 조정된 재조합 비율입니다. 여기, NS = 유리한 대립유전자의 고정시 0 및 티 = 티NS 그것이 인구에서 발생했을 때. 선택 방정식의 대칭에서 A의 평균 주파수1 결정론적 단계에서 는 0.5이므로 프로세스의 이 부분에서 ρ를 1/2로 할인해야 합니다. Matthew Hartfield 저서 그러한 경쟁을 포함하는 보다 엄격한 대우는 다른 곳에서 제시될 것입니다).

A가 있는 샘플 경로의 경우2 임계 주파수에 도달(NS2γ) −1 , 첫 번째 확률적 단계의 예상 지속 시간은 이 주파수에 대한 첫 번째 통과 시간의 예상 값 λγ −1 이고 분산은 λ 2 γ −2 /3입니다(파일 S1, 섹션 S2). . 이 기간 동안 단일 혈통이 A와 재결합합니다.1 A 이후 ρ에 가까운 비율로 일배체형1 인구를 지배하므로 2ρ(λγ −1 + δNSNS1) 평균 재조합 이벤트 수, 여기서 δNSNS1 첫 번째 확률론적 단계의 기간이 예상에서 벗어나는 것입니다. 최종 확률론적 단계는 선호하는 대립유전자가 널리 퍼져 있기 때문에 재조합에 기여할 가능성이 사실상 제로이며 이 목적을 위해 무시할 수 있습니다.

우리는 A의 주파수가2 첫 번째 확률론적 단계가 끝날 때 A의 초기 빈도 변동으로 인한 고정 시간의 분산을 보여주기 위해 지수적으로 분포됩니다(Martin and Lambert 2015).2 결정적 단계가 시작될 때 16(γ) -2의 추가 분산 항이 생성됩니다(파일 S1, 섹션 S2). 이 위상은 A의 평균 주파수를 갖기 때문에2 0.5의 관련 제품, 재조합 속도와 결정적 스위프 시간 변동(δNSNS2)는 ρ δNSNS2 2ρ δ보다NSNS2.

확률 NSCS 두 개의 샘플링된 일배체형이 스윕의 결과로 합쳐진다는 것은 한 쌍의 일배체형 중 어느 것도 시간에 샘플링되지 않을 확률과 동일합니다. NS = 0이 A로 재결합됨1 단, 스위프 기간이 너무 짧아서 스위프 동안 비재조합 일배체형 사이에서 유착이 발생할 수 없다는 전제 하에(Wiehe and Stephan 1993). 이 확률은 포아송 분포의 첫 번째 항에 의해 주어지며, 평균은 대체 기간 동안 예상되는 재조합 이벤트 수와 같습니다. 따라서 우리는: (4) 용어 (NS2γ) -4 NS / NS 방정식 4의 세 번째 줄은 스윕 효과에 대한 결정론적 위상 기여도입니다. Barton(2000, 1998)은 NS1 = NS2 = 1, 보다 엄격한 접근 방식을 사용합니다. 그것은 여러 후속 연구에서 사용되었습니다(Weissman and Barton 2012 Elyashiv et al. 2016 캄포스 et al. 2017). 마지막 항은 2차 항이다. NS/NS 스위프는 변동성에 상당한 영향을 미치기 때문에 r/s << 1. 두 번째 항이 다소 더 큰 영향을 미칩니다. 예를 들어, BGS 없음, γ = 100, r/s = 0.1, 감소 NSCS 0.158에서 0.130으로. 이러한 결과에 대한 확장은 파일 S1(방정식 S20)의 섹션 S3에 설명되어 있으며, 이를 통해 A에 다시 결합된 계보를 가져오는 다중 재조합 이벤트를 허용합니다.2 배경.

여러 사이트에서 스윕:

이제 여러 사이트에서 반복되는 스윕의 영향을 고려합니다. 우리는 유리한 대립유전자의 치환이 주어진 부위에 미치는 영향이 상호 배타적인 사건으로 취급될 수 있을 만큼 충분히 드물다는 표준 가정을 사용합니다(Kaplan et al. 1989 Wiehe and Stephan 1993 Kim and Stephan 2000 Kim 2006). 우리는 선택 계수가 일반적으로 여기에서와 같이 다른 유전자의 부위 간의 재조합 속도보다 작은 유리한 돌연변이에 대해 합리적인 단일 유전자만을 고려합니다. 이러한 절차는 매우 낮은 재조합 비율의 경우를 제외하고 시뮬레이션 결과에 의해 지원됩니다.

우리는 주어진 중립 사이트에서 경험한 유착 현상의 순 비율에 대한 대략적인 표현을 얻기 위해 위에서 파생된 스윕 유발 유착 확률에 대한 표현식(식 4)을 사용합니다(2 단위N이자형 세대), NS 및 UTR 사이트에서 반복적인 SSW로 인해: (5) 여기서 νNS 그리고 ν NS 및 UTR 부위에서 유리한 돌연변이의 치환이 각각 발생하는 비율(유착 시간 단위) NSCS Ni 그리고 NSCS UjNSth NS 사이트 및 제이th UTR 사이트는 각각 수학식 4와 수학식 S20에서 구할 수 있습니다. 합계는 선택 중인 유전자의 모든 부위에 적용됩니다. 표기법 NS -1은 스윕으로 인한 병합 예상 시간의 역수를 나타내는 데 사용되며, NS, 여기서 첨자 NS 그리고 NS 및 UTR 돌연변이를 각각 나타냅니다.

BGS가 있을 때 유리한 돌연변이의 고정 확률이 다음 요인으로 할인된다고 가정하면 NS2 표준 값(위 참조)과 비교하면 다음이 있습니다. (6a) (6b) 여기서 는 뉴클레오타이드 부위당 돌연변이율이며, NSNS 그리고 NS 는 선택적으로 선호되는 모든 새로운 NS 및 UTR 돌연변이의 비율입니다.

우리는 단일 유전자에 국한되어 있기 때문에 선형 유전 지도를 가정할 수 있습니다. 에 대한 교차 기여 NSNS 다음으로 주어진다 NSNS, 어디 NS 는 중립 사이트와 선택된 사이트 사이의 물리적 거리이며, NS 는 염기쌍당 교차율입니다. BGS 모델링에 대한 섹션에 설명된 대로 유전자 전환의 기여도 있습니다. 스윕 계산에 사용된 합산 공식은 엑손의 모든 세 번째 염기쌍이 중성 부위이고 나머지 두 개는 선택 대상이라고 가정합니다(Campos et al. 2017). 이것은 선택 상태를 exonic 사이트에 무작위로 할당하는 SLiM 절차와 다릅니다. NSNS 선발 중(NSNS = 여기에 사용된 시뮬레이션에서 0.7). 이를 보정하기 위해 수학식 5의 전체 NS 치환율에 0.7 × 1.5를 곱하여 조정하였다.

카플란 따라하기 et al. (1989), Wiehe and Stephan (1993), Kim and Stephan (2000), SSWs로 인한 유착 현상과 중성 표류로 인한 유착 현상은 속도와 경쟁하는 지수 과정으로 간주될 수 있습니다. NS -1 및 NS1 −1 , 각각 2의 병합 시간 척도에서N이자형 세대. 무한 부위 모델(Kimura 1971)에서 연결된 부위에서 선택이 없을 때의 값에 비해 중성 뉴클레오티드 부위에서 예상되는 다양성(θ = 4N이자형)는 시간이 2 단위로 측정될 때 예상되는 결합 시간으로 쓸 수 있습니다.N이자형 세대: (7) 동의어 사이트 뉴클레오티드 사이트 다양성에 대한 시뮬레이션 결과는 시뮬레이션된 영역의 모든 유전자에 대한 평균 값으로 표시되었습니다. 우리는 단일 유전자만을 모델링하기 때문에 시뮬레이션 결과와 비교하기 위해 유전자의 모든 동의어 부위에 대한 수학식 7의 π/θ의 평균을 사용해야 합니다. 실제로, 의 평균값을 대입하여 얻은 값 NS −1을 수학식 7에 대입하면 거의 동일한 결과를 얻을 수 있으며, 이는 아래에서 설명하는 결과에 사용됩니다.

평균 유착 시간에 대한 스위프 지속 시간의 영향:

방정식 7은 스위프 지속 시간이 연속 스위프 사이의 시간과 평균 중립 유착 시간에 비해 무시할 수 있다고 가정합니다.N이자형, 스윕을 포인트 이벤트로 처리할 수 있습니다. 그러나 선택이 충분히 약한 경우 이 가정을 위반합니다. 예를 들어, γ = 250일 때 등식 3에 의해 주어진 적응적 치환 기간의 결정적 구성요소는 합체 시간의 ~10%입니다. 스윕으로 인한 유착 이벤트 사이의 전체 시간이 중립 유착 이벤트에 사용할 수 있다고 가정하면 스윕이 충분히 빈번할 때 스윕의 효과를 과소평가할 수 있습니다.

여기에서 우리는 반복적인 스윕에서 예상되는 다양성의 추정치로 연속적인 대체 간의 평균 다양성을 사용하는 대체 접근 방식을 개발합니다. 이는 무작위로 샘플링된 시점의 평균과 비교하여 스윕의 효과를 과대평가할 가능성이 높지만 아래에 설명된 시뮬레이션 결과는 결과 표현식(방정식 12)이 잘 맞는다는 것을 보여줍니다. 적응적 치환은 유전자의 NS 및 UTR 부위에 대한 부위당 비율에 대한 합으로 주어진 유합 시간 단위당 일정한 비율 ω로 유전자에서 발생한다고 가정합니다. 이 양은 ν를 곱하여 식 6에서 찾을 수 있습니다.NS 유전자의 NS 부위 수의 70% 및 ν UTR 사이트의 수로. 그런 다음 시간을 거슬러 올라가 이전 대체 이후 기간 동안 평형 값에서 π/θ의 발산 시간 평균을 평가합니다.

이를 위해 π로 치환한 직후 중립 사이트에서 예상되는 중립 다양성을 나타냅니다.0, 그리고 π에 의한 새로운 치환이 시작될 때 예상되는 중립적 다양성1. 우리는: (8) 어디에 NS is the probability that each member of a pair of lineages carrying the favorable mutation has failed to recombine during the substitution, conditioned on the completion of a substitution. Because the expected reduction in neutral diversity due to recurrent sweeps is NS −1 , we have NS = (ωNS) −1 , thereby establishing the relationship between π0 and π1 (the assumption that the coalescence time for the pair of swept lineages is zero is relaxed below).

Under the infinite sites model (with θ << 1), the equilibrium diversity in the absence of sweeps is NS1θ. In this case, the standard formula for the rate of approach of neutral diversity to its equilibrium value (Malécot 1969, p.40 Wiehe and Stephan 1993, Equation 6a) gives the following expression for the diversity at a time NS after a substitution: (9) (the factor of NS1 −1 in the exponent reflects the reduction in N이자형 caused by BGS, resulting in a corresponding acceleration in the rate of approach to equilibrium).

The expected diversity over the relevant period, π, is thus given by: (10) Formulae for NS(ω, NS1) are derived in File S1, section 5.

In the absence of any recovery of diversity during the sweep itself, Equations 8–11 yield the final expression: (12a) In the limit as ω approaches zero, ωNS 그리고 NS both tend to 0, and 기원 후 경향이 NS1NS −1 . The value of π/θ for small ω is thus approximately 1/(NS1 + NS −1 ), corresponding to Equation 7.

To allow for a nonzero mean time NSCS to coalescence during the sweep, the postsweep diversity π0 is modified by adding DTCSθ to Equation 8, where NSCS is given by Equation S11 (this is an underestimation, since it ignores recombination during the sweep). This adds a small additional component to Equation 12a, giving: (12b) Equations 12a and 12b assume that the sample is taken in an interval between two successful sweeps. A correction can be applied to take into account the possibility that a sample is taken during a sweep this effect is expected to be small unless sweep-induced coalescents are very frequent and the time occupied by a sweep is relatively large compared with the neutral coalescent time (File S1, section S6).

Continuum approximation for effects of recurrent sweeps:

A useful approximation can be obtained by treating a gene as a continuum, following Wiehe and Stephan (1993), Coop and Ralph (2012), and Weissman and Barton (2012). We correct for the effect of introns simply by reducing the density of NS sites in the coding sequence. This is done by multiplying the density within exons by the fraction of the sites that are exons among the total length of exons, introns, and UTRs. In addition, we approximate the effect of gene conversion by writing the net recombination rate between sites separated by base pairs as (NS + NS) 언제 z ≤ dNS, and as NS + NS (어디 NS = NSNSNS) when z > dNS (Andolfatto and Nordborg 1998). The resulting expressions for sweep effects are derived in File S1, section S7. These do not include any corrections for multiple recombination events, or for the variances in the first stochastic phase and deterministic phase durations, since these make the integrations analytically intractable.

Simulation results

Effects of BGS alone:

Figure 2 shows the simulation and theoretical results for NS1, the ratio of the mean synonymous site nucleotide diversity (π) to its value without selection (θ) in the absence of SSWs, using the gene model in Figure 1. Chromosomal regions containing 70 and 210 genes, with and without gene conversion at the standard rate, were modeled. The mean value of θ from simulations of neutral mutations in the absence of selection at linked sites was 0.0228, with 95% C.I. (0.0227, 0.0229), which is slightly lower than the theoretical value on the infinite sites model (0.0239), presumably due to the slight deviations from the infinite sites assumption in SLiM. The ratios of the mean simulated synonymous site diversities to 0.02283 were used for the estimates of NS1. Table S1 of File S1 shows more detailed results for the autosomal case, as well as for the model of X-linked loci described in Table 1.

The effect of background selection on neutral diversity at autosomal loci. The bars show values of NS1 = π/θ, where π is the mean diversity at synonymous sites and θ is the value in the absence of selection, in relation to the rate of crossing over relative to the standard value given in Table 1 (NS-axes). Results with and without gene conversion under the standard parameters are displayed. Both the simulation results (red and green bars), with error bars indicating 95% C.I.s, and the theoretical predictions (blue and white bars) are shown.

Overall, there is a fairly good fit between the theoretical predictions and the simulation results, although the theoretical values of NS1 are mostly slightly smaller than the simulation values, probably because intergenic sequences have been ignored. However, if the additional term in 이자형 contributed from neutral mutations that arise in repulsion from a linked deleterious mutation (Equations S1b, S5d and S5e) is ignored, the fits are much less good, especially with the larger numbers of genes. For example, with 210 genes and gene conversion, the predicted NS1 values are 0.583, 0.696, 0.739, 0.762, and 0.776 for crossover rate factors of 0.5, 1, 1.5, 2, and 2.5, respectively the last value is 18% larger than when the additional term is included.

Similarly, use of a linear relationship between physical distance and map distance, which has been assumed in most theoretical models of BGS, generally gives a poorer fit to the results for the higher rates of crossing over (Table S2 of File S1), except when the number of genes and the map length of the region are both small, reflecting the effect of double crossing over in reducing the net rate of recombination between distant sites. Nonetheless, the fit is surprisingly good overall indeed, the linear map predictions often provide a better fit to the simulation results for the cases with 20 and 70 genes. The implications of these effects of the inclusion of the repulsion mutations, and the differences between the linear and Haldane maps, are considered in the 논의.

Effects of BGS on the rate of fixation of favorable mutations:

The main goal of our work is to analyze the joint effects on neutral diversity of BGS and SSWs, and the extent to which these can be predicted by the relatively simple Equations 7 and 12. A core assumption behind these equations is that the fixation probability of a new favorable mutation is affected by BGS as though N이자형 is multiplied by a factor that is close to the value that applies to neutral diversity (Kim and Stephan 2000).

We have tested this assumption by comparing the mean numbers of fixations of favorable mutations observed over the last 20,000 (8N) generations of the simulations, both without BGS and with BGS. The ratio of these means provides a measure of NS (NS2) that can be compared to the value of NS estimated from neutral diversity (NS1). There are two reasons why we would not expect perfect agreement. First, a sufficiently strongly selected favorable variant could resist elimination due to its association with deleterious mutations, and instead might drag one or more of them to high frequencies or fixation (Johnson and Barton 2002 Hartfield and Otto 2011). Second, the incursion of selectively favorable mutations may perturb linked deleterious mutations away from their equilibrium, even if they do not cause their fixation.

Such Hill–Robertson interference effects (Hill and Robertson 1966 Felsenstein 1974) reduce the N이자형 experienced by deleterious mutations and hence their nucleotide site diversity, which is correlated with the mean number of segregating deleterious mutations. This reduction in the number of segregating deleterious mutations reduces the effects of BGS on incoming favorable mutations. For both these reasons, NS1 is likely to be smaller than NS2. Table S3 of File S1 provides evidence that the mean number of segregating deleterious mutations is indeed reduced by SSWs, except for the cases with no crossing over, where the rate of sweeps is greatly reduced compared with cases with crossing over.

The results for autosomal loci in Figure 3 show that BGS has a substantial effect on the rate of adaptive substitutions (Table S4 of File S1 presents more detailed results for autosomal and X-linked loci). The most extreme case is when there is no crossing over, a regime in which the efficacy of BGS is undermined by Hill–Robertson interference among the deleterious mutations, so that the assumptions underlying the BGS equations tested in the previous section are violated (McVean and Charlesworth 2000 Comeron and Kreitman 2002 Kaiser and Charlesworth 2009 Seger et al. 2010 Good et al. 2014 Hough et al. 2017). 예를 들어, NS1 for 70 genes with gene conversion is 0.086, close to the value found by Kaiser and Charlesworth (2009) for a similar sized region, whereas the standard BGS prediction is 0.0004. 이에 반해, NS2 values for favorable NS and UTR mutations are 0.26 and 0.28, respectively, around three times greater. This still represents a massive reduction in the efficacy of selection on favorable mutations, consistent with the evidence that their rates of substitution in noncrossover regions of the 초파리 genome are much lower than elsewhere (Charlesworth and Campos 2014).

The effect of background selection (BGS) on the numbers of fixations of favorable nonsynonymous (NS) and UTR mutations at autosomal loci, in relation to the relative rate of crossing over (NS-axes). The blue and red bars shows the numbers of fixations over the last 20,000 generations of the simulations (with 95% C.I.s), expressed as ratios of fixations to the number of genes simulated. Blue and red bars show the results for simulations with and without BGS, respectively. The corresponding ratios of numbers of fixations (NS2) with and without BGS (green bars), and ratios of neutral diversities with and without BGS (white bars), obtained from the simulations (NS1) are also shown. The standard gene conversion parameters are used.

For the other rates of crossing over, there is much closer agreement between the two estimations of NS, although we always have NS1 > NS2. The discrepancy is largest for crossover rates of one-half the standard value, and seems to level off after the standard rate. As might be expected, it is smaller in the presence of gene conversion.

Effects of interference among favorable mutations on their rates of substitution:

With no recombination, Hill–Robertson interference among adaptive substitutions is likely to be important, and makes analytical models of substitution rates much harder to develop. The effects of such interference can be predicted using the approximate Equation 4 of Neher (2013), which is based on Equation 39 of Desai and Fisher (2007). When this is adapted for the case of diploids with semidominance with NS >> NS, the rate of substitution of favorable mutations, ω, is equal to 0.5NS ln(Ns)/[ln(2NS/NS)] 2 , where NS is the homozygous selection coefficient for a favorable mutation and NS is the net mutation rate to favorable mutations for the region. Combining NS and UTR mutations (these have similar selection coefficients in our simulations), and putting NS = 0.05, NS = 0.00436, N = 2500, and ω = 0.00406, the ratio of ω to the baseline substitution rate in the absence of interference is 0.163.

The observed ratio of the rates of substitution for relative rates of crossing over of 0 and 2.5, with 70 genes, and no gene conversion and no BGS, was equal to 0.235, suggesting that the effect of interference is overpredicted by the approximation. Gene conversion increases the ratio to 0.570, so that it greatly reduces interference when crossing over is absent. BGS thus seems to play a more important role than SSWs in reducing the rate of substitution of favorable mutations when crossing over is absent, especially in the presence of gene conversion, as was suggested by Campos et al. (2014). The properties of genomic regions with very low rates of crossing over will be analyzed in more detail in a later publication.

In the absence of BGS, but with nonzero rates of crossing over, Figure 3 and Figure S4 show little effect of the crossing over rate on the rate of fixation of favorable mutations. At first sight, this suggests that there is little interference among selectively favorable mutations, with a rate of crossing over of one-half or more of the standard rate. However, there is indirect evidence for such interference effects, from estimates of the extent of underdispersion of the numbers of adaptive substitutions observed over the last 8N generations of the simulations compared with the expectation for a Poisson distribution, as described in File S1, section S8. Here, underdispersion is measured by the ratio of the variance to the mean of the number of substitutions over the period of observation (Sellers and Morris 2017).

This analysis shows that interference causes a small loss of substitutions, leading to a reduction in the extent of the reduction in diversity caused by SSWs for the cases with crossing over, with ∼5.5% of substitutions being lost due to interference. An approximate correction for interference can be made by multiplying the substitution rates for both NS and UTR mutations by the estimated proportion of substitutions that survive interference, although this ignores some of the complexities associated with the effects of interference on diversity (Kim and Stephan 2003 Chevin et al. 2008). In addition, it should be noted that the existence of underdispersion implies that the Poisson model of sweeps that is usually assumed is not exact, as pointed out by Gillespie (2001), introducing a further source of error into the predictions.

Effects of SSWs on neutral diversity:

This section is concerned with four main questions. First, to what extent does treating sweeps as point events affect the predictions of models of recurrent sweeps? Second, how well does the integral approximation for SSWs perform (Equations S24–S33) compared with the more exact summation formulae (Equations 5 and 6)? Third, how well do the competing coalescent process approximations for the joint effects of BGS and SSWs perform when the various corrections described above have been included? Finally, is less accuracy obtained by using the neutral BGS value (NS1) instead of NS2 in the formulae for the effect of BGS on the fixation probability of a favorable mutation?

Figure 4 presents the mean values of synonymous site diversities relative to the value in the absence of selection for simulations with 70 autosomal genes, together with the predictions for the integral and summation formulae, with and without the corrections described (the correction for interference was applied to all these cases). In the case of the corrected summation formulae, all the corrections described above were applied for the integral results, only the corrections for expected sweep duration and interference were used. More detailed results for autosomal and X-linked genes are shown in Table S6 of File S1.

The effects of selective sweeps on mean diversity at autosomal synonymous sites in relation to the relative rate of crossing over (NS-axes), with and without background selection (BGS), or gene conversion at the standard rate. The red bars shows the simulation values of mean synonymous diversities relative to the values without any selection (π/θ), with 95% C.I.s. The green and blue bars are the results for the integral approximations, with and without the corrections (corr.) described in the text, respectively. The gray and white bars are results for the summation formulae (sum.), with and without the corrections.

Concerning the first point, diversities are considerably overpredicted by the uncorrected values from Equation 5 (which included the correction for interference) by up to 20%, with the lowest rate of crossing over used in Figure 4 and Table S6. This shows that treating recurrent sweeps as point events can produce significant errors, especially when crossing over is infrequent and there is no gene conversion.

For the second point, the agreement between the integral and summation results is surprisingly good overall. The largest discrepancies occur when the rate of crossing over is low, and gene conversion and BGS are absent, when they are of the order of 7.6% of the lower value.

For the third point, the agreement between the simulation means and the predictions with the corrections is generally very good, although the integral results underpredict diversity by ∼20% for the autosomal case with the lowest rate of crossing over, no gene conversion, and no BGS. If the correction for interference is not applied, lower diversities are predicted, which sometimes give better agreement with the simulation results, but the effects are not major (Table S7). The main contribution to the improvements in fit from the other corrections comes from the sweep duration, as can be seen from results where one or both of the other factors (multiple recombination events and coalescence during a sweep), as well as interference, are omitted (Table S7). Omission of the correction for coalescence during sweeps usually has the next largest effect, mainly because it reduces the contribution to coalescent time from samples taken during sweeps (section S6 of File S1). Overall, omission of all the corrections except that for sweep duration produces remarkably good results.

With respect to the fourth point above, the fits with NS1 alone are good, except for the lowest rate of crossing over and no gene conversion (an error of 9% in Figure 4). Overall, it seems that relatively little is to be gained by using NS2.

The predictions of the effects of SSWs use a single gene model, which assumes that the effects of sweeps with the parameters assumed here are localized to single gene regions. The simulation results with sweeps alone in regions with crossing over (File S2) show that there is no noticeable effect of the numbers of genes on the mean synonymous site diversities, consistent with this assumption. This is not surprising, given that the expected reduction in diversity at a neutral site due to a single sweep at recombination distance NS is approximately γ – 4 NS / NS , where γ and NS are the scaled and absolute selection coefficients for the favorable allele, respectively. With the values of γ and NS for autosomal NS mutations assumed here (250 and 1 × 10 −4 for natural populations, respectively), an effective crossing over rate of 1 × 10 −8 , and a distance of 2000 bp between sites (the minimum for sites in separate genes), the expected reduction in diversity with no gene conversion is 250 (–0.8) = 0.01, which is essentially trivial.

This conclusion does not apply in the absence of recombination, which has been studied theoretically by Kim and Stephan (2003) and Weissman and Hallatschek (2014). In this case, the simulation results displayed in File S2 show that there is a large effect of the number of genes. With no crossing over, gene conversion or BGS, the mean autosomal diversities relative to neutral expectation were 0.0819, 0.0700, and 0.0675 for 70, 140, and 210 genes, respectively. These results can be compared to the predictions from the approximate Equation 5 of Weissman and Hallatschek (2014), modified for diploidy with semidominance, which gives the absolute neutral nucleotide diversity with recurrent sweeps as 8μ ln[2ln(γ)/NS]/NS. The resulting predicted values are 0.195, 0.183, and 0.176, respectively.

As was also found by Weissman and Hallatschek (2014), the theoretical results considerably overpredict diversity. Gene conversion greatly reduces the effects of sweeps, with relative diversities of 0.130, 0.090, and 0.0832 in the absence of BGS. BGS has a much greater effect on diversity than sweeps when crossing over is absent. With gene conversion, it gives relative diversity values of 0.0867, 0.0429, and 0.0293 for 70, 140, and 210 genes, respectively. Essentially the same values are seen with both BGS and SSWs, reflecting the fact that the rate of sweeps is greatly reduced in the presence of BGS (see Figure 3). The predicted relative diversity value for a 70-gene region with no crossing over is quite close that observed for the fourth chromosome of D. 멜라노가스터, which has a similar number of genes (Campos et al. 2014), suggesting that diversity in noncrossover regions of the genome is strongly influenced by BGS, as was also inferred by Hough et al. (2017) for the case of the newly evolved Y chromosome of Rumex.


Results and Discussion

Effects of SNP Numbers, Density, and Genome Size on Inference under Neutral Equilibrium

The accuracy and performance of demographic inference were evaluated using two popular methods, MSMC ( Schiffels and Durbin 2014) and fastsimcoal2 ( Excoffier et al. 2013). In order to assess performance, it was first necessary to determine how much genomic information is required to make accurate inference when the assumptions of neutrality are met. Chromosomal segments of varying sizes (1 Mb, 10 Mb, 50 Mb, 200 Mb, and 1 Gb) were simulated under neutrality and demographic equilibrium (i.e., a constant population size of 5,000 diploid individuals) with 100 independent replicates each. For each replicate, this amounted to the mean [SD] number of segregating sites for each diploid individual being 1,944 [283], 9,996 [418], 40,046 [957], and 200,245 [1,887] for 50 diploid individuals, these values were 10,354 [225], 51,863 [567], 207,118 [1,139], and 1,035,393 [2,476] for 10 Mb, 50 Mb, 200 Mb, and 1 Gb, respectively. Use of MSMC resulted in incorrect inferences for all segments smaller than 1 Gb ( supplementary figs. 1 and 2 , Supplementary Material online). Specifically, very strong recent growth was inferred instead of demographic equilibrium, although ancestral population sizes were correctly estimated. In addition, when two or four diploid genomes were used for inference, MSMC again inferred a recent many-fold growth for all segment sizes even when the true model was equilibrium, but performed well when using one diploid genome with large segments ( supplementary figs. 1 and 2 , Supplementary Material online). These results suggest caution when performing inference with MSMC on smaller regions or genomes, specifically when the number of SNPs is less than ∼200,000 per single diploid individual. Extra caution should be used when interpreting population size changes inferred by MSMC when using more than one diploid individual.

사용할 때 fastsimcoal2 to perform demographic inference, parameters were accurately estimated for all chromosomal segment sizes when the correct model (i.e., equilibrium) was specified ( supplementary table 1 , Supplementary Material online). However, when model selection was performed using a choice of four models (equilibrium, instantaneous size change, exponential size change, and instantaneous bottleneck), the correct model was chosen more often (∼30% of replicates) when the simulated chromosome sizes were small (1 and 10 Mb), whereas an alternative model of either instantaneous size change or instant bottleneck was increasingly preferred for larger regions ( supplementary tables 2 and 3 , Supplementary Material online), although the estimates of ancestral sizes were correct. This finding suggests that the nonindependence of SNPs may result in model mis-identification. Indeed, since the model choice procedure assumes that SNPs are independent, the true number of independent SNPs is overestimated, which results in an overestimation in the confidence of the model choice with an increasing amount of data. However, it is interesting to note that the parameter values underlying the non-constant size preferred model were often pointing towards a constant population size (see below). When model selection was performed using sparser SNP densities (i.e., 1 SNP per 5, 50, or 100 kb), the correct model was recovered for longer chromosomes up to 200 Mb ( supplementary tables 2 and 3 and figs. 3 and 4, Supplementary Material online), although model selection was slightly less accurate for smaller chromosomes due to the decrease in the total amount of data. As suspected, the biases introduced by the nonindependence of SNPs were found to be concordant with the level of linkage disequilibrium among SNPs used for the analysis (for ten SNP windows, in which SNPs were separated by 50 kb [100 kb], mean r 2 = 0.027 (0.020), compared with the all-SNP mean r 2 of 0.118, and to the completely unlinked SNPs mean r 2 of 0.010 supplementary table 4 , Supplementary Material online). Additionally, AIC performed on partially linked SNPs may impose an insufficient penalty on a larger number of parameters, resulting in an undesirable preference for parameter-rich models. We found that implementing a more severe penalty improved inference considerably, even for 1-Gb chromosome sizes ( supplementary tables 5 and 6 , Supplementary Material online). This model selection performance, the potential corrections related to increased penalties, as well as the total number of SNPs and SNP thinning, should be investigated on a case-by-case basis in empirical applications, owing to the contribution of multiple underlying parameters (e.g., chromosome length, recombination rates, and SNP densities).

In the light of this performance assessment, all further analyses were restricted to characterizing demographic inference on data that far exceeded 1 Gb and roughly matched the structure and size of the human genome—for every diploid individual, 22 chromosomes (autosomes) of size 150 Mb each were simulated, which amounted to roughly 3 Gb of total sequence. Ten independent replicates of each parameter combination were performed throughout, and inference utilized one and fifty diploid individuals for MSMC and fastsimcoal2, 각각.

Effect of the Strength of Purifying Selection on Demographic Inference

In order to test the accuracy of demographic inference in the presence of BGS, all 22 chromosomes were simulated with exons of size 350 bp each, with varying sizes of introns and intergenic regions (see Materials and Methods) in order to vary the fraction (5%, 10%, and 20%) of the genome under selection. Because the strength of selection acting on deleterious mutations affects the distance over which the effects of BGS extend, demographic inference was evaluated for various DFEs ( table 1). The DFE was modeled as a discrete distribution with four fixed classes: 0 ≤ 2 N anc s < 1 ⁠ , 1 ≤ 2 N anc s < 10 ⁠ , 10 ≤ 2 N anc s < 100 , and 100 ≤ 2 N anc s < 2 N anc ⁠ , where N anc is the ancestral effective population size and s is the reduction in the fitness of the homozygous mutant relative to wildtype. The fitness effects of mutations were uniformly distributed within each bin, and assumed to be semidominant, following a multiplicative fitness model for multiple loci the DFE shape was altered by varying the proportion of mutations belonging to each class, given by NS0, NS1, NS2, 그리고 NS3, respectively (see Materials and Methods). Three DFEs highly skewed towards a particular class were initially used to assess the impact of the strength of selection on demographic inference (with the remaining mutations equally distributed among the other three classes): DFE1: a DFE in which 70% of mutations have weakly deleterious fitness effects (i.e., NS1 = 0.7) DFE2: a DFE in which 70% of mutations have moderately deleterious fitness effects (i.e., NS2 = 0.7) and DFE3: a DFE in which 70% of mutations have strongly deleterious fitness effects (i.e., NS3 = 0.7). A DFE with equal proportions of all deleterious classes (i.e., DFE4: f 0 = f 1 = f 2 = f 3 = 0.25 ⁠ ) was also simulated to evaluate the combined effect of different selective strengths. In addition, two bimodal DFEs consisting of only the neutral and the strongly deleterious class of mutations were simulated to characterize the role of strongly deleterious mutations (DFE5: a DFE in which 50% of mutations have strongly deleterious effects (i.e., NS3 = 0.5) with the remaining being neutral and DFE6: a DFE in which 30% of mutations were strongly deleterious (i.e., NS3 = 0.3) with the remaining being neutral).

Proportion ( ⁠ f i ⁠ ) of Mutations in Each Class of the Discrete Distribution of Fitness Effects (DFE) Simulated in This Study.


Looking Back at Our Ancestors

About 10,000 years ago, our human ancestors learned the art of agriculture and subsequently started to domesticate animals. The domestication of cows in Europe allowed these people to use cow's milk for nutrition. Over time, those individuals who had the allele to make lactase possessed the favorable trait over those who could not digest the cow's milk.

A selective sweep occurred for the Europeans and the ability to get nutrition from milk and milk products was highly positively selected. Therefore, the majority of Europeans possessed the ability to make lactase. Other genes hitchhiked along with this selection. In fact, researchers estimate that about a million base pairs of DNA hitchhiked along with the sequence that coded for the lactase enzyme.


추상적 인

The neutral theory of molecular evolution predicts that the amount of neutral polymorphisms within a species will increase proportionally with the census population size (Nc). However, this prediction has not been borne out in practice: while the range of Nc spans many orders of magnitude, levels of genetic diversity within species fall in a comparatively narrow range. Although theoretical arguments have invoked the increased efficacy of natural selection in larger populations to explain this discrepancy, few direct empirical tests of this hypothesis have been conducted. In this work, we provide a direct test of this hypothesis using population genomic data from a wide range of taxonomically diverse species. To do this, we relied on the fact that the impact of natural selection on linked neutral diversity depends on the local recombinational environment. In regions of relatively low recombination, selected variants affect more neutral sites through linkage, and the resulting correlation between recombination and polymorphism allows a quantitative assessment of the magnitude of the impact of selection on linked neutral diversity. By comparing whole genome polymorphism data and genetic maps using a coalescent modeling framework, we estimate the degree to which natural selection reduces linked neutral diversity for 40 species of obligately sexual eukaryotes. We then show that the magnitude of the impact of natural selection is positively correlated with Nc, based on body size and species range as proxies for census population size. These results demonstrate that natural selection removes more variation at linked neutral sites in species with large Nc than those with small Nc and provides direct empirical evidence that natural selection constrains levels of neutral genetic diversity across many species. This implies that natural selection may provide an explanation for this longstanding paradox of population genetics.


논의

Overinterpretation of results and storytelling

Identifying genomic regions that have undergone recent and strong positive selection is an important challenge of modern evolutionary biology. Neutral evolutionary processes, such as random genetic drift enhanced by population size changes and/or gene flow, increase the rate of false positives and make it more challenging to detect genomic regions which have been targeted by positive selection. Frequently, additional validity of results is provided by the fact that loci identified by selective sweep scans ‘make sense’. Pavlidis et al. [87] showed that such an approach of perceiving an increased validity of results, simply because they make sense can be dramatically misleading. They designed a simple simulation experiment, in which a neutrally evolved X-chromosome of D. 멜라노가스터 is scanned for selective sweeps. Then, they performed a literature mining for the (by definition false positive) identified selective sweep targets. They showed that by means of gene ontology it would make perfect sense to identify such targets even though they are false positives. The study by Pavlidis et al. [87] showed that interpretation of the results should be treated very carefully and overinterpretation should be avoided.

Combining methods to decrease the false positive rate

To increase the validity of selective sweep scans, analyses typically consist of a multitude of neutrality tests. The rationale is that ‘the more tests agree on an outcome, e.g., selection, the more plausible this outcome is’. The problem with this, however, is that the outcome of different neutrality tests are usually correlated, since they depend profoundly on the underlying coalescent tree. Consider a neutrally evolved genomic region that is characterized by an exceptional ‘sweep-like’ collection of coalescent trees. Several neutrality tests will give a good signal for a selective sweep in this region. For instance, assume a set of unbalanced trees, such as those shown in Fig. 6, where all lineages except for one coalesce relatively fast on one side of the tree. Tajima’s D assumes extreme values because of the skewed SFS. The same is true for SweeD and SweepFinder. Furthermore, since the tree is unbalanced with long internal branches, LD is increased locally. The number of polymorphic sites might be reduced since the total tree length is reduced. Thus, independently applying several neutrality tests and then showing that several of them reject neutrality (or showing only those that reject neutrality) should be avoided. A better practice is to combine the tests in a unified framework and not independently. For example, [55, 88, 89] used supervised learning algorithms and several neutrality tests (variables) to classify genomic regions as either neutral or selected. Any correlation between the variables is incorporated implicitly in the learning algorithms and does not affect the accuracy of the classifier. Since, however, a large number of simulations is typically required for the execution of the learning algorithms, the running time of such approaches increases considerably.

An unbalanced genealogy with several short external branches can generate extreme values for a multitude of neutrality tests

The need for high performance

Driven by the advent of DNA sequencing, several projects have focused on sequencing whole genomes from various species in the past years. This has led to the discovery of thousands of new SNPs and the availability of a plethora of datasets that are suitable for population genetics analyses. As more genomes are being sequenced, contributing to the increasing dataset sizes, the computational demands for the respective analyses increase as well. This poses a challenge to existing and future software tools as High Performance Computing (HPC) techniques are becoming a prerequisite for conducting large-scale analyses.

Reducing execution times and enabling processing of large-scale datasets on limited hardware resources, such as off-the-shelf workstations, requires source codes to abide by several basic HPC principles. For instance, understanding how memory accesses affect performance, or which scheduling/communication strategy among multiple cores is the most efficient for a particular task, can substantially reduce execution times by allowing the software to utilize the hardware resources in current x 86 processors in the most effective way. With Moore’s law being continued in the form of an increasing number of cores per processor and an increasing width for vector registers Footnote 1 , not employing multithreading Footnote 2 and/or vector intrinsic instructions in newly developed tools can lead to significant underutilization of processors.

However, although optimization techniques such as kernel vectorization have the potential to accelerate processing, the nature of operations and the computational demands of the target task for performance improvement need to be carefully examined. For instance, a recent study [90] revealed that in order to achieve high-performance for large-scale LD computations that comprise thousands of sequences and SNPs, vector intrinsics must be avoided. This is due to the fact that the computational bottleneck in LD-based analyses for large sample sizes is the enumeration of ancestral and derived alleles in SNPs. This operation is efficiently implemented via the use of an intrinsic population count command, which however operates only on regular registers, i.e., 32- or 64-bit words. Deploying vector intrinsics for LD leads to poorer performance due to increased data preparation times (storing and retrieving words in vector registers).

In addition to software-level optimizations for faster completion of bioinformatics analyses, a variety of hardware-accelerated solutions have also been proposed in the previous years. Hardware platforms, such as Graphics Processing Units (GPUs) and Field Programmable Gate Arrays (FPGAs), have been widely targeted for the acceleration of large-scale analyses, and a variety of bioinformatics algorithms have been successfully ported on these architectures, from sequence alignment kernels [91] and phylogenetic tree scoring functions [92, 93] to large-scale LD computations [90] and epistasis detection in Genome Wide Association Studies [94].


Why do species get a thin slice of π? Revisiting Lewontin’s Paradox of Variation

Under neutral theory, the level of polymorphism in an equilibrium population is expected to increase with population size. However, observed levels of diversity across metazoans vary only two orders of magnitude, while census population sizes (N) are expected to vary over several. This unexpectedly narrow range of diversity is a longstanding enigma in evolutionary genetics known as Lewontin’s Paradox of Variation (1974). Since Lewontin’s observation, it has been argued that selection constrains diversity across species, yet tests of this hypothesis seem to fall short of explaining the orders-of-magnitude reduction in diversity observed in nature. In this work, I revisit Lewontin’s Paradox and assess whether current models of linked selection are likely to constrain diversity to this extent. To quantify the discrepancy between pairwise diversity and census population sizes across species, I combine genetic data from 172 metazoan taxa with estimates of census sizes from geographic occurrence data and population densities estimated from body mass. Next, I fit the relationship between previously-published estimates of genomic diversity and these approximate census sizes to quantify Lewontin’s Paradox. While previous across-taxa population genetic studies have avoided accounting for phylogenetic non-independence, I use phylogenetic comparative methods to investigate the diversity census size relationship, estimate phylogenetic signal, and explore how diversity changes along the phylogeny. I consider whether the reduction in diversity predicted by models of recurrent hitch-hiking and background selection could explain the observed pattern of diversity across species. Since the impact of linked selection is mediated by recombination map length, I also investigate how map lengths vary with census sizes. I find species with large census sizes have shorter map lengths, leading these species to experience greater reductions in diversity due to linked selection. Even after using high estimates of the strength of sweeps and background selection, I find linked selection likely cannot explain the shortfall between predicted and observed diversity levels across metazoan species. Furthermore, the predicted diversity under linked selection does not fit the observed diversity–census-size relationship, implying that processes other than background selection and recurrent hitchhiking must be limiting diversity.


감사의 말

Many of the ideas for this review were first formulated from discussions between co-authors during our symposium on ‘The genomic landscape of speciation’ at ESEB 2015, Lausanne, Switzerland. We were kindly sponsored by Floragenex, Oregon, USA, and also by Stab Vida, Portugal. We are grateful to Mike Ritchie, Jeffrey Feder and an anonymous reviewer for their comments on an earlier draft of this manuscript. Mark Ravinet was funded by a JSPS Postdoctoral Fellowship for Foreign Researchers and by the Norwegian Research Council. RF was funded by FCT under the Programa Operacional Potencial Humano – Quadro de Referência Estratégico Nacional from the European Social Fund and the Portuguese Ministério da Educação e Ciência (SFRH/BPD/89313/2012, PTDC/BIA-EVF/113805/2009 and FCOMP-01-0124-FEDER-014272) as well as by the European Union's Horizon 2020 research and innovation programme under the Marie Sklodowska-Curie grant agreement No 706376. JG was funded by a postdoctoral fellowship from Xunta de Galicia (Modalidade B). AMW and RKB are funded by NERC. BM and MRaf are supported by the Centre for Marine Evolutionary Biology, University of Gothenburg, Sweden. MRaf is additionally supported by the Adlerbert Research Foundation. NB is funded by ANR (HYSEA project, ANR-12-BSV7-0011).

Appendix S2 Parameter choices.

참고: 게시자는 저자가 제공한 지원 정보의 내용이나 기능에 대해 책임을 지지 않습니다. 모든 문의(누락된 콘텐츠 제외)는 해당 기사의 교신 작성자에게 문의해야 합니다.


비디오 보기: როგორ შევცვალოთ სახე - How to change face in Photoshop (팔월 2022).