정보

유전자형에서 표현형을 예측하기 위한 전산/수학적 모델

유전자형에서 표현형을 예측하기 위한 전산/수학적 모델



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Karr, Sanghvi, et al. (2012)는 유전자형에서 표현형을 예측하기 위한 전체 세포 계산 모델을 제안합니다. 마이코플라스마 생식기. 그들의 모델은 유기체의 수명 주기 동안 분자 수준에서 DNA 복제, RNA 전사 및 조절, 단백질 합성, 대사 및 세포 분열과 같은 무수한 세포 과정을 시뮬레이션합니다.

그들은 기존의 많은 수학적 및 계산 모델을 하나의 소프트웨어로 결합하여 이를 달성합니다. 이 기사는 이것이 분자 수준에서 처음으로 포괄적인 전체 세포 모델임을 자세히 설명합니다. 그들은 하위 모듈에 대해 이전의 분자 수준 모델을 인용하지만 더 거친 유전자형-표현형 모델에 대해서는 계속 논의하지 않습니다. 그들의 모델은 흥미롭지 만 단일 유기체의 수명주기를 추적하기 위해 최고급 컴퓨터 클러스터에서 10 시간 동안 시뮬레이션하는 것은 진화 과정을 연구하려는 사람에게 비합리적입니다.

이전에 합리적으로 정확한 계산(또는 더 나은 분석) 유전자형 대 표현형 모델이 있습니까? 있다면, 다음과 같이 일반적으로 연구되는 유기체에 대한 가장 좋은 거친 유전자형 대 표현형 모델은 무엇입니까? 대장균?


Karr et al. 논문은 게놈, 전사체, 단백질체 및 대사체의 기능을 결합하여 모델의 세부 정보 대부분을 캡처하려고 시도합니다. 이 작업은 Markus Covert가 훈련을 수행한 Bernhard Palsson의 작업에서 특히 요청한 거친 모델을 기반으로 합니다. 귀하의 질문에 대한 답변은 전적으로 귀하가 찾고 있는 질문 유형과 모델이 수행하기를 원하는 것에 달려 있습니다.

대부분의 경우 COBRA(CONstratin 기반 재구성 및 분석 도구 상자)를 사용하여 대부분의 질문에 답변할 수 있습니다. 표현형이 해당 유전자에 의해 영향을 받는 알려진 경로이고 시간적 및 동적 정보에 신경 쓰지 않는 한 어떤 유전자형이 녹아웃될 수 있는지 그리고 그것이 표현형에 어떻게 영향을 미치는지 알 수 있습니다.

E-Cell 프로젝트도 있습니다. 대장균. 나는 개인적으로 그것에 대해 많이 모르지만 그것은 몇 가지 기본 모델을 만들었습니다. 대장균 그리고 충분히 좋을 수 있습니다.

자신만의 모델을 만들고 싶다면 모든 대규모 재구성이 존재하는 BiGG를 확인해야 합니다. 코드의 상당 부분은 COBRA를 사용하고 자신의 가설을 생성할 수 있는 Palsson 연구소 웹사이트에 저장되어 있습니다.


생물학적 시스템 모델링

생물학적 시스템 모델링 시스템 생물학과 수학 생물학의 중요한 과제입니다. [NS] 전산시스템생물학 [b] [1]은 생물학적 시스템의 컴퓨터 모델링을 목표로 효율적인 알고리즘, 데이터 구조, 시각화 및 통신 도구를 개발하고 사용하는 것을 목표로 합니다. 여기에는 세포 하위 시스템(대사, 신호 전달 경로 및 유전자 조절 네트워크를 구성하는 대사 산물 및 효소 네트워크 등)을 포함한 생물학적 시스템의 컴퓨터 시뮬레이션을 사용하여 이러한 세포 과정의 복잡한 연결을 분석하고 시각화하는 것이 포함됩니다. [2]

복잡한 시스템의 예기치 않은 출현 속성은 더 단순하고 통합된 부분 간의 인과 관계의 결과일 수 있습니다(생물학적 조직 참조). 생물학적 시스템은 구성 요소의 복잡한 상호 작용에서 발생하는 속성의 많은 중요한 예를 나타냅니다. 생물학적 시스템에 대한 전통적인 연구에는 특정 자극에 대한 응답으로 시간이 지남에 따라 집중과 같이 범주별로 데이터의 양이 수집되는 환원적 방법이 필요합니다. 컴퓨터는 이러한 데이터의 분석 및 모델링에 중요합니다. 목표는 신호 전달 경로의 약점을 찾기 위한 암세포 모델 또는 심근 세포 및 심근 세포에 대한 영향을 확인하기 위한 이온 채널 돌연변이 모델링과 같은 환경 및 내부 자극에 대한 시스템의 반응에 대한 정확한 실시간 모델을 만드는 것입니다. 차례로, 뛰는 심장의 기능.


추상적 인

대사 및 거대분자 발현(ME-모델)의 게놈 규모 모델은 성장하는 세포의 최적 프로테옴 구성을 명시적으로 계산합니다. ME 모델은 잘 정립된 게놈 규모의 대사 모델(M 모델)을 확장하고 세포 성장에 대한 새로운 기본 이해를 가능하게 합니다. ME 모델은 생명 기계에 대한 생합성 비용을 포함하기 때문에 예측 기능과 정확도가 향상되었지만 모델 크기와 복잡성이 크게 증가했습니다. 이 문제로 인해 계산하기 어렵고 개념적으로 이해하기 어려운 모델이 생성됩니다. 결과적으로 ME 모델은 두 유기체에 대해서만 존재합니다(대장균 그리고 써모토가 마리티마) 상대적으로 소수의 연구자들이 사용하고 있습니다. 이러한 문제를 해결하기 위해 ME 모델을 구축하고 시뮬레이션하기 위한 COBRAme이라는 새로운 소프트웨어 프레임워크를 개발했습니다. Python으로 코딩되었으며 M 모델을 사용하는 인기 있는 플랫폼인 COBRApy를 기반으로 합니다. COBRAme은 ME 모델의 계산 및 분석을 간소화합니다. 새로운 유기체에 대한 ME 모델 재구성을 가능하게 하기 위해 ME 모델 구성 및 편집을 단순화하는 도구를 제공합니다. 우리는 COBRAme을 사용하여 압축된 이자형. 대장균 ME 모델이라고 NSJL1678b-ME. 이 재구성된 모델은 이전 모델과 기능적으로 동일한 솔루션을 제공합니다. 이자형. 대장균 ME-모델은 자유 변수 수의 1/6을 사용하고 10분 미만으로 해결하여 이전 ME-모델 공식의 6시간 해결 시간에 비해 현저히 개선되었습니다. 이전 ME 모델의 오류도 수정되어 다음에서 표현되어야 하는 52개의 추가 유전자로 이어졌습니다. NSJL1678b-ME는 최소 포도당에서 호기성으로 성장합니다. 인 실리코 미디어. 이 원고는 COBRAme의 아키텍처를 설명하고 새로운 소프트웨어 프레임워크를 사용하여 ME 모델을 가장 효율적으로 생성, 수정 및 공유할 수 있는 방법을 보여줍니다.

소환: Lloyd CJ, Ebrahim A, Yang L, King ZA, Catoiu E, O'Brien EJ, et al. (2018) COBRAme: 대사 및 유전자 발현의 게놈 규모 모델을 위한 계산 프레임워크. PLoS Comput Biol 14(7): e1006302. https://doi.org/10.1371/journal.pcbi.1006302

편집자: Aaron E. Darling, University of Technology Sydney, 호주

받았다: 2017년 12월 4일 수락됨: 2018년 6월 13일 게시됨: 2018년 7월 5일

저작권: © 2018 Lloyd 외. 이것은 크리에이티브 커먼즈 저작자 표시 라이선스의 조건에 따라 배포되는 오픈 액세스 기사로, 원본 저자와 출처가 명시되어 있는 경우 모든 매체에서 무제한 사용, 배포 및 복제를 허용합니다.

데이터 가용성: 모든 관련 데이터는 백서와 지원 정보 파일에 있습니다.

자금: 이 연구는 계약 번호 DE-AC02-05CH11231에 따라 미국 에너지부의 과학부가 지원하는 국립 에너지 연구 과학 컴퓨팅 센터의 자원을 사용했습니다. 이 작업을 위한 자금은 덴마크 공과 대학의 생물 지속 가능성 센터[NNF10CC1016517]와 국립 보건원의 국립 일반 의학 연구소를 통해 Novo Nordisk 재단에서 제공했습니다(수상 U01GM102098). CJL은 그랜트 번호에 따라 국립 과학 재단 대학원 연구 펠로우쉽에 의해 지원되었습니다. 당선-1144086. 기금 제공자는 연구 설계, 데이터 수집 및 분석, 출판 결정 또는 원고 준비에 아무런 역할도 하지 않았습니다.

경쟁 관심: 저자는 경쟁 이익이 존재하지 않는다고 선언했습니다.

이것은 PLOS 전산생물학 소프트웨어 페이퍼


결과 및 토론

우리는 위에서 설명한 지도 학습 방법(그림 1 및 2, 식 (1), (2), (3) 및 (4))을 사용하여 단백질로부터 경로 역학(즉, 시간의 함수로서의 대사 산물 농도)을 예측했습니다. 대사 공학 및 합성 생물학과 관련된 두 가지 경로에 대한 농도 데이터: 리모넨 생성 경로 및 이소펜테놀 생성 경로(그림 3). 각 경로에 대해 배지 생산 균주에 대한 역학을 예측하기 위해 낮은 및 높은 바이오 연료 생산 균주에서 얻은 실험적 시계열 데이터를 훈련 데이터 세트로 사용했습니다. 66 조밀한 멀티오믹스 시계열 데이터 세트의 부족으로 인해 시뮬레이션 데이터 세트(그림 4)를 사용하여 더 많은 훈련 데이터 세트(변종)가 추가됨에 따라 알고리즘의 성능을 연구했습니다.

Limonene 경로 운동 Michaelis-Menten 모델. 이 운동 모델은 Weaver et al.의 지침과 함께 BRENDA 데이터베이스의 소스에서 컴파일되었습니다. 93 이 시스템은 경로의 각 대사 산물의 농도를 설명하는 10개의 비선형 상미분 방정식으로 구성됩니다(자세한 내용은 보충 자료 참조). 이 모델의 역학은 기계 학습을 통해 예측해야 하는 중요한 과제를 제기할 만큼 풍부하고 복잡합니다. 이 모델은 이 작업에서 (1) 예측을 기계 학습 예측과 비교하고, (2) 기계 학습 알고리즘 교육에 사용되는 시계열의 양으로 확장 종속성을 확인하기 위해 시뮬레이션된 데이터 세트를 생성하는 데 사용됩니다. 이 논문에서 제시된 방법은 이러한 Michaelis-Menten 식을 기계 학습 알고리즘으로 대체하는 데 중점을 둡니다(보충 그림 S1 참조). 운동 상수는 그림 6에서 실험 데이터를 피팅할 때 자유 매개변수로 남겨두었습니다.

두 개의 시계열 관찰을 통해 리모넨 및 이소펜테놀 경로 역학의 정성적 예측을 얻을 수 있습니다.

놀랍게도, 대부분의 대사 산물에 대해 허용 가능한 예측을 생성하도록 알고리즘을 훈련하는 데 2개의 시계열(변종)만으로도 충분했습니다. proteomics 및 metabolomics의 파생물에 대한 예측은 매우 정확했지만(집계 Pearson NS 0.973의 값), Eqs에 의해 주어진 초기 값 문제를 풀 때 이러한 예측의 모든 작은 오류는 빠르게 합성됩니다. (3) 및 (4). 그 이유는 주어진 시점에 대한 예측이 모든 이전 시점의 정확도에 의존하기 때문입니다. 이러한 장애물에도 불구하고 이 방법은 이전에 본 적이 없는 균주에 대한 대사 산물 농도의 상당한 정성 및 정량적 예측을 생성했습니다(그림 5 및 6). 일부 대사 산물(33%)의 경우 예측은 측정된 프로파일에 정량적으로 가깝습니다. 이소펜테놀 생성 경로 Acetyl-CoA( 128.2% 오차, 그림 6a), HMG-CoA(83.9% 오차, 그림 6b) 및 리모넨(82.9% 오차, 그림 6f)은 리모넨 생산 경로에 대한 것입니다. 대부분의 대사 산물(42%)의 경우 예측은 척도 계수만큼 빗나갔지만 대사 산물 거동을 질적으로 재현할 수 있었습니다. 예를 들어, 이소펜테놀 생성 경로의 메발로네이트(그림 5c)와 리모넨 생성 경로의 메발로네이트(그림 6c)에 대한 예측은 대사 산물 농도의 초기 증가와 포화를 재현합니다. 이소펜테놀 경로의 IPP/DMAPP(그림 5e) 또는 메발로네이트 포스페이트(그림 5d)의 경우 예측은 농도 증가를 정성적으로 재현한 다음 피크와 감소를 재현합니다. 이러한 유형의 정성적 행동에 대한 예측만으로도 대사 엔지니어는 경로 역학을 직관적으로 이해하고 더 나은 버전을 설계하는 데 유용합니다. 여러 시나리오를 시뮬레이션하여 대사 엔지니어는 검증 가능한 가설로 이어질 수 있는 정성적 지식(예: 대사 산물 x가 독성이 있는 것으로 보거나 단백질 y가 대사 산물 x에 의해 조절되는 것으로 보임)을 추출할 수 있습니다. 마지막으로, 소수의 경우(25%)에서 예측이 양적 및 질적으로 모두 잘못되었습니다. 예: 이소펜테놀 생성 경로에 대한 HMG-CoA(그림 5b), 메발로네이트 포스페이트(그림 6d) 및 IPP/DMAPP(그림 6d) 6e) 리모넨 생산 경로의 경우. 흥미롭게도 최종 제품(리모넨 및 이소펜테놀)에 대한 예측은 정량적으로 정확한 예측 그룹에 속했습니다. 이는 대사 공학을 안내할 목적으로 관련성이 있는 최종 제품 예측이기 때문에 중요합니다.

기계 학습 방법은 이소펜테놀 생성에 대한 단백질체학 데이터에서 대사 산물 시계열의 허용 가능한 예측을 생성합니다. 대장균 부담. 최고 및 최저 생산 균주에 대해 측정된 대사체학 및 단백질체학 데이터(66)(훈련 세트 데이터, 빨간색 선)는 모델을 훈련하고 기본 역학을 학습하는 데 사용됩니다(그림 2). 그런 다음 모델이 본 적이 없는 균주(중간 생산 균주, 테스트 데이터는 녹색)에 대한 대사 산물 프로필(파란색 선)을 예측하여 모델을 테스트합니다. 완벽한 예측(파란색 선)은 테스트 데이터 세트(녹색 선)를 완벽하게 추적합니다. 흥미롭게도 훈련 데이터로 두 개의 시계열(변종)만 있어도 합리적인 정성적 일치가 달성됩니다. 순전히 정량적 관점에서 평균 오류는 높습니다. 변형 예측에 대한 총 RMSE는 40.34이며, 이는 149.2% 평균 오류로 변환될 수 있습니다. 그러나 몇 가지 대사 산물(녹색 밴드)의 경우 예측은 측정된 데이터를 정량적으로 재현합니다: Acetyl-CoA 및 isopentenol(최종 제품, 생명 공학 안내에 가장 관련됨). 일부 대사 산물(메발로네이트, 메발로네이트 인산염 및 IPP/DMAPP, 노란색 밴드)의 경우 모델은 스케일 팩터가 누락된 대사 산물 패턴을 정성적으로 재현합니다. HMG-CoA의 경우에만 모델이 시간 경과에 따른 대사 산물 농도를 정량적으로나 정성적으로 예측하지 못합니다(빨간색 밴드).

기계 학습 방법은 리모넨 생산을 위해 손으로 만든 운동 모델보다 성능이 뛰어납니다. 대장균 부담. 운동 모델(검은색 선)이 기계 학습 방법(파란색 선)보다 더 잘 맞는 유일한 대사 산물은 메발로네이트 인산염이지만 두 방법 모두 리모넨(최종 제품) 생산을 상당히 잘 추적하는 것으로 보입니다. 기계 학습 접근 방식은 Acetyl-CoA, HMG-CoA 및 limonene(녹색 밴드)에 대해 수용 가능한 양적 적합을 제공하며, mevalonate(노란색 밴드)에 대한 척도 인자가 누락된 대사 산물 행동의 정성적 설명, mevalonate phosphate 및 mevalonate 인산염에 대한 정량적 및 정성적 실패 IPP/DMAPP(빨간색 밴드). 그림 5에서와 같이 실험적으로 측정된 프로파일은 리모넨의 높음, 낮음 및 중간 생산자에 해당합니다. 훈련 세트는 낮고 높은 생산자(빨간색)이며 모델은 중간 생산 균주(녹색)의 농도를 예측하는 데 사용됩니다. 실험 데이터를 피팅할 때 그림 4의 손으로 만든 운동 모델에 대한 운동 상수는 자유 매개변수로 남겨졌습니다.

기계 학습 접근 방식은 리모넨 경로의 손으로 만든 운동 모델보다 성능이 뛰어납니다(그림 6). 이 경로의 실제적인 운동 모델이 구축되었고 데이터에 적합했으며 모든 운동 상수를 자유 매개변수로 남겨두었습니다(그림 3 및 4). 운동 모델은 특히 Acetyl-CoA, HMG-CoA, mevalonate 및 IPP/DMAPP에 대한 정성적 역학을 포착하지 못합니다(그림 6a-c, e). 더 정량적으로 기계 학습 모델은 평균 130% 오류(RMSE = 8.42)를 생성하지만 운동 모델의 경우 평균 144%(RMSE = 10.04)를 생성합니다. 따라서 두 가지 계통의 시계열 데이터를 기반으로 하는 기계 학습 모델조차도 도메인 전문 지식과 구축에 상당한 시간 투자가 필요한 손으로 만든 운동 모델을 능가할 수 있습니다. 그러나 기계 학습 접근 방식은 보다 쉽게 ​​일반화할 수 있으며 해당 데이터를 제공하여 새로운 경로, 호스트 또는 제품에 즉시 다시 적용할 수 있습니다. 리모넨 경로에 대한 예측이 이루어지면 시계열 데이터 입력을 변경하는 것만으로도 이소펜테놀 경로에 대한 결과를 쉽게 얻을 수 있습니다. 대조적으로, 이소펜테놀 경로에 대한 예측을 하려면 새로운 운동 모델을 만들어야 합니다. 반응 네트워크의 크기가 증가하고 관련 네트워크에 대한 지식이 감소함에 따라 운동 모델을 구성하기가 더 어려워집니다. 또한 모든 운동 관계는 알려지거나 추론되어야 하지만 알려지지 않은 관계는 머신 러닝 접근 방식을 사용하여 데이터에서 발견할 수 있습니다. 머신 러닝 접근 방식은 이러한 관계를 풀기에 충분한 양의 데이터만 필요합니다. 얼마나 많은 데이터가 "충분한 양"인지 결정하는 것이 다음 섹션의 목표입니다.

흥미롭게도 모델은 훈련 세트가 단백질 수준 이상으로 다른 경로에 해당하더라도 잘 수행할 수 있었습니다. 이는 모델이 경로 역학을 예측하기 위해 단백질 농도를 입력으로 사용하도록 설계되었기 때문에 중요합니다(나머지 경로 특성이 동일하게 유지된다고 가정). 이 사용 사례는 생성된 단백질 농도에 영향을 미치기 위해 프로모터 및 리보솜 결합 부위(RBS)가 수정되는 광범위한 대사 공학 요구를 다룹니다. 그러나 일반적으로 사용되는 다른 대사 공학 전략에는 더 빠르거나 더 느린 촉매 속도(즉, 케이고양이). 이 경우가 명시적으로 고려되지는 않았지만 모델은 좋은 예측을 제공할 수 있었습니다(즉, I3은 HMGR 아날로그 형식을 사용하고 있었습니다. 황색포도상구균 I2는 코돈 최적화된 HMGR을 사용합니다. 균주 설명 참조). 우리는 가정합니다 케이고양이 변화는 단백질 풍부도 변화로 재정규화될 수 있습니다. 이러한 유형의 공학 관행을 완전히 다루기 위해 이 방법은 효소 특성을 입력으로 포함하도록 확장될 수 있습니다(단백체학 데이터 제외). 케이고양이 그리고 케이미디엄 상수 또는 전체 운동 특성 곡선.

변형 수를 늘리면 동적 예측의 정확도가 향상됩니다.

시뮬레이션된 데이터를 사용하여 훈련에 더 많은 데이터 세트가 사용됨에 따라 예측이 크게 향상되었음을 보여주었습니다. 시뮬레이션된 데이터 세트는 스케일링 동작을 철저히 테스트하기 위해 무제한 샘플을 제공하고 실험적으로 접근 가능한 것보다 더 다양한 유형의 역학을 탐색할 수 있다는 이점이 있습니다. 더욱이, 훈련 데이터로 필요한 조밀한 멀티오믹스 시계열 데이터 세트는 생성하는 데 시간과 비용이 많이 들기 때문에 드물다. 기계 학습 예측은 일반적으로 학습에 더 많은 데이터가 사용됨에 따라 개선되기 때문에 학습을 위해 더 많은 시계열을 사용할 수 있게 되면 방법이 개선될 것으로 예상했습니다. 처음에는 각 제품 66에 사용할 수 있는 3개 중 2개(다른 하나는 테스트에 필요함) 중 2개의 시계열(변종)만 훈련에 사용되었기 때문에 이러한 개선이 중요할 것으로 예상했습니다. 따라서 우리는 (1) 더 많은 시계열 데이터 세트가 추가됨에 따라 예측이 얼마나 개선되는지 및 (2) 연구를 위해 리모넨 경로에 대해 개발된 운동 모델(그림 3 및 4)을 사용하여 얻은 시뮬레이션 데이터를 사용했습니다. 경로 설계를 효과적으로 안내하기 위해 얼마나 많은 시계열이 필요한지(다음 섹션). 동일한 운동 상수를 공유하는 서로 다른 단백질 프로필을 가진 10,000개의 시계열 데이터 풀이 생성되었습니다.알고리즘이 원래 시뮬레이션된 역학을 얼마나 빨리 복구할 수 있었는지 연구하기 위해 이 풀에서 무작위로 샘플링된 2, 10 및 100 시계열의 기계 학습 알고리즘 그룹을 제공했습니다. 훈련 그룹 크기(2, 10 또는 100)의 함수로 예측의 가변성(즉, 다른 훈련 세트가 사용됨에 따라 예측이 어떻게 변경되는지)을 측정하기 위해 각 훈련 그룹 크기에 대해 예측을 10번 반복했습니다.

예측 오차(RMSE, Eq. (6))는 비선형 방식으로 알고리즘을 학습하는 데 사용된 시계열(변형) 수의 함수로 단조롭게 감소했습니다(그림 7). 또한 데이터 세트의 훈련 횟수에 따라 예측의 표준 편차가 크게 감소했습니다(그림 8). 표준 편차는 최적화 알고리즘(예: 다른 종자)의 확률론적 효과와 감소된 초기 단백질 농도 세트에서 외삽 가능성의 부족으로 인한 경로 역학 예측의 가변성을 나타냅니다. 따라서 10개 또는 100개의 데이터 세트로 훈련된 예측 모델은 2개의 데이터 세트로 훈련된 모델보다 훨씬 더 강력한 예측을 생성합니다. 사실, 두 개의 데이터 세트에 대해서만 훈련된 모델에 대해 관찰된 높은 표준 편차는 확률론적 효과로 인해 이전 섹션에서 관찰된 예측 변동성을 설명합니다. 흥미롭게도 10에서 100까지의 변형에서 오류와 표준 편차의 제한된 감소가 있으며 2에서 10으로의 감소가 가장 큽니다(그림 7). 이것은 10개의 시계열 데이터 세트를 수집하는 10회의 엔지니어링을 수행하는 것이 100개의 시계열을 수집하는 단일 라운드보다 더 생산적임을 나타냅니다. 이러한 방식으로 10개의 시계열은 위상 공간의 단백질체학의 원하는 부분을 정확히 찾아낼 수 있을 만큼 충분히 정확한 예측을 생성합니다. , 새로운 변형은 원하는 위상 공간 주위에서 새로운 멀티오믹스 시계열을 얻을 수 있고 위상 공간의 해당 영역 주변에서 예측 정확도를 최적화할 수 있도록 해당 공간 주위에서 엔지니어링될 수 있습니다. 이것을 10번 수행하는 것은 궁극적으로 바람직한 proteomics 위상 공간에 가깝지 않을 수 있는 100개 시계열을 기반으로 한 단일 예측보다 더 정확합니다. 또한, 훈련에 사용할 수 있는 시계열이 8개만 더 있었다면 이전 섹션의 결과가 훨씬 더 신뢰할 수 있음을 나타냅니다.

예측 오류는 훈련 세트 크기가 증가함에 따라 현저하게 감소합니다. 학습에 사용할 수 있는 proteomics 및 metabolomics 시계열 데이터 세트(변종)의 수가 증가함에 따라 예측 오차(RMSE, Eq. (6))가 현저하게 감소합니다. 또한 예측 오차(세로 막대)의 표준 편차도 눈에 띄게 감소합니다. 2에서 10으로의 변화는 10에서 100으로의 변화보다 더 확연합니다. 이 사실은 100개의 시계열을 수집하는 단일 라운드보다 10개의 시계열 데이터 세트를 수집하는 10회의 대사 공학을 수행하는 것이 더 생산적임을 나타냅니다.

더 많은 훈련 데이터 세트로 예측이 향상됩니다. 머신 러닝 알고리즘은 다양한 크기의 훈련 세트(파란색, 빨간색 및 검은색의 가상 변형 2개, 10개 및 100개)에 대한 운동 모델을 예측하는 데 사용되었습니다. 10개의 고유한 훈련 세트가 각 훈련 세트 크기에 대한 예측 가변성(투명도)을 표시하기 위해 각 크기에 사용되었습니다. 모든 모델은 가장 근접하게 일치하는 100개의 변형 모델을 사용하여 실제 역학으로 수렴합니다. 표준 편차(투명도로 표시)도 훈련 세트의 크기가 증가함에 따라 현저하게 감소합니다.

모델 예측은 경로 설계를 안내하고 생물학적 통찰력을 생성하기에 충분히 정확합니다.

기계 학습 예측은 다양한 균주에 대한 상대적 생산 순위를 정확하게 예측하기 위해 정량적으로 100% 정확할 필요는 없습니다. 가능한 여러 경로 설계 중 어떤 것이 가장 많은 양의 제품을 생산할 것인지 안정적으로 예측할 수 있다는 것은 생물 공학 노력을 안내하고 역가, 속도 및 수율(TRY)을 개선하기 위해 가속화하는 데 매우 중요합니다. 이러한 프로세스 특성은 경제적 관련성을 결정하는 근본적인 요소입니다. 67

머신 러닝 알고리즘은 위에서 언급한 10,000개의 시계열 데이터 세트 풀에서 무작위로 선택된 3개의 균주(가용한 실험 데이터를 모방한 최고, 최저 및 중간 생산자) 그룹에 대한 상대적 생산 순위를 안정적으로 예측할 수 있었습니다(그림 1a). 9, 왼쪽 패널). 성공률은 훈련에 사용할 수 있는 데이터 세트의 수에 따라 크게 달라졌습니다. 2개의 변형에 대해서만 22%에서 시작하여 100개의 훈련 세트에 대해 최대 92%입니다. 10개의 균주에 대한 성공률은

80%, 이는 TRY를 개선하기 위한 대사 엔지니어의 노력을 실질적으로 안내하기에 충분히 신뢰할 수 있습니다. 100개의 시계열을 사용하여 훈련된 모델의 경우 예측 오류가 최소화되었습니다(그림 9, 오른쪽 패널).

생산 순위를 예측하는 성공률은 훈련 세트 크기에 따라 증가합니다. 왼쪽 패널은 10,000개의 균주 풀에서 무작위로 선택된 3개의 시계열(균주) 그룹에 대한 상대적 생산 순서(즉, 가장 많이 생산하는 균주, 가장 적게 생산하는 균주, 중간 생산자) 예측의 성공률을 보여줍니다. , 훈련 데이터 세트 크기(변종)의 함수입니다. 100개의 데이터 세트에 대해 최고 생산자를 예측하는 실패율은 <10%입니다. 10개의 데이터 세트에 대한 성공률은 다음과 같습니다.

80%, 이는 엔지니어링 노력을 안내하기에 충분히 신뢰할 수 있습니다. 수평선은 순서가 무작위로 선택된 경우 성공률(1/6)을 제공합니다. 오른쪽 패널은 100개의 시계열(변종)로 구성된 훈련 데이터 세트의 경우 리모넨 생산 예측이 매우 정확함을 보여줍니다. 이 데이터는 충분한 훈련 데이터를 사용할 수 있는 경우 기계 학습 모델 예측이 경로 설계를 안내할 만큼 정확하다는 것을 보여줍니다.

생물학적 통찰력은 기계 학습(ML) 모델을 사용하여 벤치 실험 대신 데이터를 생성하여 생성할 수 있습니다. 예를 들어, 단백질체학의 주성분 분석(PCAP 68)과 유사하게 ML 시뮬레이션을 사용하여 생산을 개선하기 위해 과발현/저발현할 단백질과 기본 균주를 결정할 수 있습니다(그림 10). 단백질 LS, AtoB, PMD 및 Idi는 리모넨의 경우 생산의 가장 중요한 동인입니다. 이들과 관련된 주성분을 따라 단백질 발현을 변경하면 리모넨 생성이 증가합니다(그림 10, 왼쪽 패널). 또한, 이 접근 방식은 경로의 모든 대사 산물에 대해 예상되는 동작을 제공하여 실험적으로 테스트할 수 있는 가설을 제공합니다(그림 10, 오른쪽 패널).

ML 접근 방식은 생물학적 통찰력을 생성하는 데 사용할 수 있습니다. 왼쪽 패널은 실측으로 사용된 Michaelis-Menten 운동 모델(그림 4)에서 학습하여 ML 알고리즘에 의해 생성된 50개 균주에 대한 단백질체학 위상 공간(PCAP 68 접근 방식과 유사)의 최종 위치를 보여줍니다. 최종 리모넨 생산은 원의 크기와 색상으로 표시됩니다. PLS 알고리즘은 증가하는 리모넨 생산(성분 1)과 가장 잘 일치하는 단백질체학 위상 공간의 방향을 찾습니다. 해당 방향(LS의 과발현 및 AtoB, PMD 및 Idi의 과소발현 포함, 표 S2 참조)을 따라 프로테오믹스 위상 공간에서 이동하면 리모넨 생산이 더 높은 균주가 생성됩니다. ML 접근 방식은 생산을 증가시키기 위한 생물학적 통찰력을 생성할 뿐만 아니라 리모넨 및 기타 모든 대사 산물에 대한 시간의 함수로 예상 농도를 예측하여 실험적으로 테스트할 수 있는 가설을 생성합니다(오른쪽 패널)

데이터 제약이 중요하지만 극복 가능

ML 접근 방식은 순전히 데이터 기반이므로 데이터 양과 품질 문제가 가장 중요합니다. 데이터 수량 문제에는 충분한 시계열의 가용성과 각 시계열에서 샘플링된 시점이 모두 포함됩니다.

여기에서 사용된 훈련 세트(66)는 단백질체학 및 대사체학을 통해 규칙적인 시간 간격으로 대사적으로 조작된 경로를 특성화하는 가장 큰 데이터 세트 중 하나입니다. 시계열, 여러 유형의 omics 데이터, 7개 이상의 시점 및 여러 변형을 포함하는 더 큰 데이터 세트는 없습니다. 예: 대장균 multiomics 데이터베이스(69)에는 여러 균주에 대한 proteomics 및 metabolomics 데이터가 있지만 시계열 Ma et al. 70은 proteomics 및 metabolomics 데이터를 보고하지만 더 적은 시점(7 대신 5)을 갖는 하나의 시계열만 Yang et al. 71은 단백체학 Doerfler et al.에 대해 단 하나의 시계열과 단 하나의 시점을 제공합니다. 72 및 Dyar et al. 73은 시계열 대사체학 데이터만 제공합니다. Patel et al. 74는 대사체학 및 단백질체학을 결합하지 않으며 DOE 테스트 시 데이터 다운로드가 비활성화되었습니다. kbase 75는 유전체학에 중점을 두고 공개적으로 사용할 수 있는 시계열 단백질체학 또는 대사체학이 없으며 Experiment Data Depot 76에는 이를 능가하는 연구가 없습니다 하나는 데이터 포인트와 변형률 측면에서 볼 수 있습니다.

ML 알고리즘(보충 그림 S1)을 훈련하기 위해 파생 상품과 단백질체학 및 대사체학 데이터의 충분한 쌍을 얻기 위해 데이터 증대(필터링 및 보간, 그림 2 및 보충 그림 S2)를 사용하여 초기 7개 시점을 확장했습니다. multiomics 데이터의 연속성을 가정하여 200까지 증가합니다(우리 경험에 따른 합리적인 가정). 이러한 데이터 증대 기술에 의존하지 않도록 더 많은 시점을 사용할 수 있는 것이 바람직할 것입니다. 그러나 더 많은 시점을 포함하는 데이터 세트는 물리적, 생물학적, 경제적 이유로 존재하지 않습니다. -omics 분석을 위해 샘플을 채취할 때마다 배양 플라스크의 부피가 줄어들고, 총 샘플 부피가 총 부피와 비슷할 경우 균주 생리학에 상당한 영향을 미칠 수 있습니다. 과도한 샘플을 채취하면 측정에 영향을 미칠 수 있고 이러한 결합 오믹스 분석은 비용이 많이 들고 전문적인 개인이 필요하기 때문에 우리가 본 최대 시간 포인트가 다음과 같다는 것은 놀라운 일이 아닙니다.

7. 일반적으로 더 많은 시점이 수집되지 않는 또 다른 이유는 멀티오믹스 데이터 수집 전문가가 이전 경험을 기반으로 균주의 생리를 완전히 포착하기 위해 이 샘플링 속도를 고려하기 때문입니다. 77,78 알고리즘이 이전에 본 적이 없는(테스트 변형) 세 번째 시계열에 대한 합리적인 예측을 생성할 수 있다는 사실과 멀티오믹스 데이터 연속성 가정이 이를 검증합니다.

미래 작업

기계 학습을 합성 생물학에 적용하면 연구의 새로운 길을 열 수 있을 뿐만 아니라 생명 공학 및 그 이상의 분야에서 모델링 채택을 가속화할 수 있습니다. 이 작업은 순수한 데이터 기반 접근 방식이 생물학적 역학을 효과적으로 예측할 수 있음을 보여주는 첫 번째 단계입니다. 개선할 수 있는 방법은 많이 있습니다.

명백한 첫 번째 단계는 예측을 개선하기 위해 다른 지도 학습 기술을 추가하는 것입니다. 현재 접근 방식은 TPOT(트리 기반 파이프라인 최적화 도구)를 사용하여 유전 알고리즘을 통해 11개의 서로 다른 기계 학습 회귀자와 18개의 서로 다른 전처리(특징 선택) 알고리즘을 결합합니다. 새로운 지도 학습 기법을 scikit-learn 라이브러리에 추가하여 이 접근 방식에 추가할 수 있습니다. 79 TPOT은 여기에서 사용된 기술보다 더 정확한 예측을 제공하는 경우 자동으로 테스트하고 사용합니다. ML을 위한 가장 인기 있는 알고리즘 중에는 신경망을 기반으로 하는 딥 러닝(DL) 기술이 있습니다. 그러나 이 연구에 사용 가능한 데이터 세트의 크기가 작기 때문에 기계 학습 기술의 사용이 고전적 방법으로 제한되었습니다. 최신 DL 기술은 일반적으로 이 연구에서 사용된 것보다 훨씬 더 많은 데이터를 필요로 합니다(

시작점으로 1000 균주). 이 양의 데이터는 현재 비용이 많이 들지만 DL로 이동하는 것은 가치 있는 목표입니다. 이러한 방법은 다양한 분야에서 초인적인 성능을 보여주었습니다. 여기에는 예를 들어 인간이 숙련도를 발전시킨 이미지 라벨링 작업이 포함됩니다. 여기에서 고려되는 역학 시스템 특성화와 같이 인간의 능력이 부족한 영역에서는 초인적 성능을 달성하기가 훨씬 더 쉬워야 합니다. 결과는 입력 데이터의 양에 비례하는 복잡한 생물학적 시스템의 예측 가능성을 만들어 엔지니어링 결과를 근본적으로 개선하는 것과 관련이 있습니다.

자주 제기되는 질문은 기계론적 통찰력이 ML 접근 방식에서 추론될 수 있는지 여부입니다. 이것은 사소하지 않지만 이 추론에는 몇 가지 가능성이 있습니다. (1) 좋은 적합성을 생성하는 특정 ML 모델의 경우 가장 관련성이 높은 기능(즉, 단백질 x가 y 분자 농도를 결정하는 데 가장 높은 가중치를 가짐)이 우선 순위를 제공합니다. 추가 조사가 가능한 기계적으로 연결된 추정 부품 목록입니다. (2) 기계론적 생물학적 통찰력을 도출하기 위해 ML 모델을 높은 처리량 실험의 대리로 사용할 수 있습니다(그림 10). 이 마지막 접근 방식의 또 다른 예는 세포 바이오매스(광학 밀도, OD를 통해)를 측정에 추가하여 독성을 연구하고 다양한 시나리오(단백질 입력)에 대해 OD와 모든 대사 산물 간의 상관 관계를 시뮬레이션하는 것입니다. 음의 상관 관계는 추정 독성을 나타낼 것입니다. 대사산물.

그러나 메커니즘을 찾기 위한 추진력을 잠시 멈추고 반성하는 것이 유익합니다. 메커니즘은 관찰된 현상을 생성하는 인과 관계가 있는 일련의 프로세스 및 부품을 제공합니다. 이러한 프로세스, 부분 및 인과 관계를 이해하면 동일한 메커니즘이 관련된 다른 시스템(경로, 변형, 제품 등)의 동작을 예측하기 위해 실제로 이전될 수 있는 지식이 생성됩니다. 그러나 생물학은 알려지고 테스트된 메커니즘에서 복잡한 시스템을 예측하는 데 특히 비효율적이었습니다. 우리의 최종 목표가 새로운 생물학적 시스템을 예측하는 것이라면 전이 학습과 같은 ML 기술을 살펴보는 것이 더 성공적일 수 있습니다. 80 이러한 기술은 메커니즘을 탐구할 필요 없이 관련 시스템에서 생성된 데이터를 기반으로 시스템을 예측하는 문제를 직접 해결합니다. 즉, 가장 바람직한 결과가 예측적이면서 기계론적인 모델이라는 데는 의심의 여지가 없지만, 이러한 특성 중 하나 없이 수행하려면 기계론적 지식이 현재 생명 공학에 가장 즉각적으로 유용하지 않을 수 있습니다.

ML 접근 방식에 사전 지식을 주입하는 것은 관련 가능한 미래 연구 방법입니다. 현재 우리의 방법은 생물학적 직관을 사용하여 학습된 벡터 필드를 제한하지 않습니다. 우리 방법의 성능을 향상시키는 데 사용할 수 있는 이러한 역학 시스템에 대해 알려진 생물학적 사실이 종종 있습니다. 특히, 게놈 규모의 화학량론적 제약은 결과 시스템 역학이 질량을 보존하고 유기체에 대한 사전 지식을 준수하도록 보장할 수 있습니다.

여기에 설명된 절차에는 사전 생물학적 지식이 거의 필요하지 않기 때문에 이 방법을 다른 데이터 입력 또는 다른 유형의 응용 프로그램과 함께 사용하도록 확장하는 것을 상상하는 것이 좋습니다. 명백한 확장은 전사체 데이터를 입력으로 사용하는 것입니다. 현재 시퀀싱 기능의 기하급수적인 증가를 감안할 때 전사체학 데이터는 단백질체학 및 대사체학 데이터보다 높은 처리량 생산에 더 적합합니다. 우리의 생물학적 직관은 전사체학 데이터가 단백질체학보다 덜 유익해야 한다고 말하지만, 더 많은 시계열(그리고 얼마나 많은)로 이를 반박할 수 있는지 탐구하는 것은 확실히 흥미로울 것입니다. ML 방법을 사용하여 대사체학 시계열 외에 단백질체학을 예측하는 것도 흥미로울 것입니다. 또 다른 논리적 제안은 게놈 규모의 멀티오믹스 데이터를 포함하도록 이 방법을 확장하는 것입니다. 우리는 Michaelis-Menten 접근 방식과 관련된 기계 학습의 추가 예측 기능이 부분적으로 프록시(예: 숙주 대사에 의해 간접적으로 영향을 받는 대사 산물 또는 단백질)를 통해 숙주 대사 효과를 간접적으로 설명하는 것으로부터 진행된다고 추측합니다. 따라서 보다 포괄적인 대사체학 및 단백질체학(전사체학) 데이터 세트가 방법 예측 정확도를 높일 것으로 기대합니다. 보다 흥미롭고 대담한 노력은 이 방법을 적용하여 메타프로테오믹스 및 대사 산물 농도 데이터를 입력으로 사용하여 미생물 군집 역학을 예측하는 것입니다. 이 접근 방식에는 세포 내 경로 예측 및 미생물군집 연구에 제약을 주는 것이 없으며 산업계는 예측력을 높일 필요가 있습니다. 81 마지막으로, 인간 신진대사를 위한 고밀도 다중체학 데이터 세트의 입수 가능성은 매혹적인 목표를 제공합니다. 82,83


소개

유전자형-표현형 지도는 진화를 이해하는 중요한 도구이다[1-13]. 지도에서 표현형의 분포와 연결성은 적응 진화 궤적의 접근성을 결정하고[5, 7, 9, 14–16], 진화 역학을 조정하고[6,17–19], 인구 구조를 변경합니다[20, 21]. 그러나 유전자형-표현형 맵을 특성화하는 것은 돌연변이 수가 증가함에 따라 맵의 크기가 기하급수적으로 확장되기 때문에 매우 어려울 수 있습니다. 예를 들어, 각각 두 상태 중 하나에 존재하는 4개의 돌연변이 부위가 있는 지도에는 16개의 유전자형(2 4 )이 포함됩니다. 대조적으로, 15개의 돌연변이 부위가 있는 맵은 32,768개의 유전자형(2 15 )으로 구성됩니다. 모든 유전자형을 특성화하는 시간과 비용을 감안할 때 연구자들은 일반적으로 유전자형-표현형 지도의 선택된 영역으로 노력을 제한합니다[11, 22-24]. 따라서 실험적으로 결정된 표현형의 작은 데이터 세트에서 완전한 유전형-표현형 지도를 추론하는 능력은 광범위한 생물학 연구자에게 매우 유용할 것입니다.

이 연구에서 우리는 2 8 = 256개의 유전자형을 포함하는 중간 크기의 지도에서 표현형을 추론하려고 했습니다. 이 체계는 약물이나 살충제 내성과 같은 형질의 진화가 종종 5-10개의 돌연변이(즉, 32-1,024개의 유전자형)를 포함한다는 점을 감안할 때 특히 관련이 있습니다[4, 24-28]. 이러한 특성의 진화에 대한 확고한 이해는 모든(또는 대부분의) 유전자형의 표현형에 대한 지식을 필요로 합니다. 완전한 조합 지도는 야생형과 돌연변이 동형 사이에 접근 가능한 진화 궤적이 많거나 적은지, 경로가 적응적이거나 중립적 단계가 필요한지 여부, 저항이 때때로 빠르게 진화하는 이유를 밝힐 수 있습니다[29-31]. 사례[24, 32].

수백 가지의 유전형을 포함하는 지도에서 표현형의 철저한 특성화는 종종 실행 불가능하며, 특히 높은 처리량 방법으로 특성화하기 어려운 표현형의 경우에는 더욱 그렇습니다. 그러나 이러한 지도는 종종 수천 또는 수만 번의 관찰이 필요한 정교한 데이터를 많이 사용하는 기계 학습 모델을 사용하여 쉽게 분석하기에는 너무 작습니다. 이 부족함을 해결하기 위해 불완전한 표현형-유전자형 지도에서 누락된 표현형을 유추하는 간단한 접근 방식을 개발했습니다. 우리의 목표는 지도의 ≈20%를 차지하는 조합 샘플을 사용하여 예측에서 잘 특성화된 불확실성과 함께 나머지 표현형 값을 추론하는 것이었습니다. 그러한 지식은 유추된 유전자형-표현형 지도를 통해 진화 궤적의 강력하고 통계적으로 정보에 입각한 분석을 허용할 것입니다.

모델 데이터 세트로 말라리아 기생충의 '클로로퀸 내성 수송체'(PfCRT)에 의한 클로로퀸(CQ) 수송 활성 획득에 대한 지도를 연구했습니다[24, 33]. CQ는 기생충의 소화액포(pH 5.0–5.5)로 확산되는 이양자성 약염기이며, 여기서 양성자가 되어 높은 수준으로 축적됩니다[34]. 여기에서 CQ는 숙주 헤모글로빈의 기생충 소화에서 생성된 헴의 해독을 방지함으로써 항말라리아 효과를 발휘합니다[35-37]. PfCRT는 소화액포막에 위치합니다[38]. PfCRT의 특정 돌연변이 동형은 액포 밖으로 CQ를 운반하여 항말라리아 표적에서 멀어짐으로써 CQ 내성을 부여합니다[24, 33, 39-41]. 야생형 단백질(PfCRT 3D7)은 상당한 CQ 수송 활성이 부족한 반면, PfCRT의 'Dd2' 동형(PfCRT Dd2)은 CQ 내성을 부여하는 PfCRT 동형 중 가장 일반적으로 연구됩니다[42]. PfCRT 3D7과 PfCRT Dd2는 8개의 아미노산 잔기가 다릅니다(그림 1A). PfCRT 3D7이 00000000이고 PfCRT Dd2가 11111111인 이진 문자열로 각 유전자형을 나타낼 수 있습니다. 텍스트 전체에서 이 형식의 중간 유전자형을 참조합니다.

A) 표는 PfCRT의 야생형(PfCRT 3D7, 00000000)과 돌연변이체(PfCRT Dd2, 11111111) 동형 간의 아미노산 잔기 차이를 보여줍니다. 네트워크는 PfCRT 3D7과 PfCRT Dd2 사이의 완전한 유전자형 세트를 보여줍니다. 각 노드는 고유한 수와 2개의 이소폼 사이의 8개 아미노산 잔기 차이의 조합으로 서로 다른 유전자형을 나타냅니다. 각 가장자리는 단일 돌연변이로 다른 유전자형을 연결합니다. 유전자형은 왼쪽에서 오른쪽으로 정렬되어 두 번째 행에 1000000, 0100000,…, 00000010, 00000001이 포함되고, 세 번째 행에 11000000,1000000, 0100000, 0100000, 0100000, 0100000이 포함됩니다. , 00001011, 00000111 등. 회색 노드는 CQ 수송 활동이 측정되지 않은 PfCRT 유전자형을 나타냅니다. 나머지 노드의 색상은 PfCRT Dd2의 활동과 관련하여 실험적으로 결정된 CQ 전송 활동을 나타냅니다[24]. 값 범위는 <5%(파란색)에서 130%(빨간색)까지입니다. PfCRT 3D7 및 PfCRT Dd2 외에도 PfCRT의 "106/1", "GB4", "K1", "783" 및 "China e"의 5가지 다른 필드 아이소폼의 이름과 이진 코드가 표시됩니다. B) 측정된 표현형만 통과하는 PfCRT 3D7에서 PfCRT Dd2로의 한 가지 가능한 진화 궤적. 각 단계의 돌연변이는 CQ 수송 활동에 대한 영향과 함께 관련 가장자리 옆에 표시됩니다. 이 궤적은 PfCRT China e 및 PfCRT K1 isoforms를 통과합니다. 8단계 중 5단계는 CQ 수송 활동을 증가시키고 2단계는 효과가 없으며 마지막 단계는 감소를 유발합니다.

PfCRT 유전자형-표현형 지도는 예측 모델을 개발하기 위한 훌륭한 데이터 세트를 제공했습니다. PfCRT Dd2에 존재하는 8개 돌연변이의 가능한 조합 256개 중 52개의 표현형은 이전에 다음과 같이 특성화되었습니다. 제노푸스 라비스 Summers et al. [24]. 이러한 유전자형은 PfCRT 3D7과 PfCRT Dd2 사이의 가능한 궤적을 식별하는 특정 목표로 선택되었습니다[24]. 이 유전자형은 지도 전체에 흩어져 있었으며 2개의 단일 돌연변이, 7개의 이중 돌연변이, 9개의 삼중 돌연변이, 10개의 사중 돌연변이, 7개의 5중 돌연변이, 4개의 6중 돌연변이 및 8개의 7중 돌연변이가 있었습니다. 각 동형은 난모세포의 표면에서 발현되었고 CQ 수송 능력은 방사성 동위원소 흡수 분석을 사용하여 정량화되었습니다. 이 52개의 이소형은 PfCRT 유전자형-표현형 지도의 20%를 구성합니다(그림 1A). 함께, 그들은 CQ 수송을 위한 고용량을 가진 PfCRT 단백질을 달성하기 위해 횡단했을 수 있는 몇 가지 진화 궤적을 밝혔습니다[24]. 이러한 궤적 중 하나는 그림 1B에 표시됩니다. 흥미롭게도, 이러한 각 궤적에는 돌연변이가 CQ 수송을 위한 단백질의 능력을 크게 변경하지 않거나 활성을 약간 감소시키는 적어도 하나의 단계가 포함되었습니다. 이러한 적응 궤적의 명백한 부족은 CQ 저항이 현장에서 진화하는 데 몇 년이 걸린 이유와 CQ 압력에 따라 야생형 기생충(예: '3D7' 기생충)에서 CQ 저항이 아직 생성되지 않은 이유를 설명하는 데 도움이 될 수 있습니다. 시험관 내.

Summers et al. 연구는 PfCRT가 CQ 수송을 획득하게 한 여러 궤적을 밝혀냈지만, 다른 접근 가능한 궤적이 있는지 여부를 결정하려면 완전한 유전자형-표현형 지도가 필요합니다. 비록 8가지가 있지만! = 이 지도를 통해 40,320개의 가능한 앞으로 궤적, 측정된 표현형을 통해 이러한 궤적 중 428개의 접근성을 평가할 수 있습니다. 이것은 하나 이상의 돌연변이 단계가 누락된 39,892개의 궤적(98.9%)을 남깁니다. 그러나 나머지 표현형을 모두 측정하는 것은 비용이 많이 들고 노동 집약적일 것입니다.

따라서 우리는 PfCRT 유전자형-표현형 지도의 예측 모델을 구축하려고 했습니다. 이 접근 방식을 통해 256개의 표현형을 모두 실험적으로 특성화하지 않고도 PfCRT가 약물 내성 수송체로 진화한 방법을 이해할 수 있습니다. 이 모델은 돌연변이, 비선형 척도 및 로지스틱 분류기의 추가 효과를 통합합니다. 예측의 불확실성을 특성화함으로써 진화적 추론의 불확실성도 알 수 있습니다. 마지막으로, 우리는 이전에 출판된 유전자형-표현형 지도 모음에 대해 최종 모델을 검증했습니다. 여기에서 설명하는 접근 방식은 많은 유전자형-표현형 지도에 적용할 수 있는 것으로 보입니다. 우리는 모델 구현을 오픈 소스 Python 소프트웨어 패키지(GPSEER https://gpseer.readthedocs.io)로 출시했습니다.


4 토론

우리는 유전적 기반 질병과 관련된 일련의 비정상적인 표현형이 주어졌을 때 후보 유전자의 우선 순위를 지정하는 새로운 방법을 설계했습니다. 우리의 방법은 동물 모델 표현형에서 얻은 유전자, 유전자 산물의 기능, 유전자 발현의 해부학적 위치 및 상호 작용 네트워크에 대한 정보를 사용합니다. 뿐만 아니라 생물 의학 온톨로지에 포함된 많은 양의 배경 지식. 우리의 방법은 여러 가지 방식으로 다른 표현형 기반 방법보다 향상됩니다.

첫째, 우리는 OMIM( Amberger et al., 2011) 데이터베이스 우리 모델은 두 임베딩 간의 유사성을 직접 학습하도록 설계되었으며 다른 모델과 비교할 때 예측 성능이 향상되었습니다( Smaili et al., 2018, 2019) 임베딩을 기반으로 유전자-질병 연관성을 예측하는 데 사용됩니다.

둘째, 복잡한 공리를 그래프로 변환하고 그래프 임베딩에 의존하여 복잡한 공리를 활용하는 새로운 방법을 개발했으며 이 접근 방식은 복잡한 공리를 통해서만 연결된 여러 온톨로지를 임베딩할 때 성능을 크게 향상시킨다는 것을 보여줍니다. 이러한 발전은 OWL을 사용하여 심하게 형식화되고 상호 연결된 온톨로지에서 특히 중요합니다(예: 협업 OBO Foundry 노력( Smith et al., 2007). 예를 들어, DL2Vec을 사용하여 GO를 통합할 때 Mendelian 형태의 백내장( OMIM: 604 307 )과 유전자 CRYGC 사이의 연관성을 우선 순위로 지정할 수 있습니다. 백내장의 주요 표현형 중 하나는 시각 장애 ( HP: 0000505 ), 이는 HPO에서 감소된 것으로 정의됩니다. 시각적 인식 ( GO: 0007601 ) 이 형식적 정의를 기반으로 DL2Vec은 시각 장애 그리고 시각적 인식. 유전자 CRYGC는 GO 클래스와 연관됩니다. 시각적 인식. 질병 노드 또는 유전자 노드에서 반복된 무작위 보행을 수행할 때 다중 보행이 이 가장자리를 사용하므로 다음을 나타내는 노드가 있는 질병과 유전자 둘 다의 직접적인 동시 발생으로 이어진다는 것을 발견했습니다. 시각 장애 게다가 시각적 인식 이러한 보행에 Word2Vec을 적용하면 유전자 삽입 및 질병 삽입이 서로 더 유사해지며 DL2Vec이 최상위 순위 중 하나에서 연관의 우선 순위를 지정할 수 있습니다.

셋째, 우리의 방법은 유전자 발현, 기능, 네트워크, 표현형 데이터 및 온톨로지의 조합을 사용하여 비정상적인 표현형 세트에 대한 후보 유전자의 우선 순위를 지정합니다. 새로운 후보의 우선 순위를 지정하기 위해 질병 관련 유전자에 대한 지식에 의존하는 방법과 달리, 우리 방법에 대한 입력은 환자에서 관찰되는 표현형뿐입니다. 우리의 접근 방식에서 후보 유전자의 우선 순위는 동일한 표현형과 관련된 다른 유전자의 지식(또는 존재)에 의존하지 않습니다. 우리는 두 가지 다른 수준에서 서로 다른 주석을 결합하여 이를 달성합니다. 첫째, 다른 주석(표현형, 기능, 발현)이 유전자 또는 유전자 산물(우리가 구별하지 않음) 수준에서 결합되어 단일 개체( 유전자 및 그 산물)은 세 가지 유형의 정보 모두와 연관되며, 우리는 또한 온톨로지 간의 링크를 직접 활용합니다. 온톨로지에서 클래스 간의 연결을 통해 유전자와 관련된 다양한 기능 간의 새로운 관계를 설정할 수 있으며 이러한 기능은 온톨로지 공리를 활용하지 않고는 액세스할 수 없습니다. 이것은 우리의 접근 방식을 관련 유전자가 없는 것으로 알려진(또는 단 하나의 유전자만 관련된) 멘델 질환에 적용할 수 있고 알려진 질병 관련 유전자의 특징을 사용하여 새로운 원인 유전자를 식별할 수 없는 경우에 적용할 수 있습니다. 연관에 의한 죄책감 원리에 기반한 접근 방식은 일반적으로 알려진 여러 관련 유전자를 가진 질병이나 표현형에 대해 잘 수행됩니다( Chen et al., 2009 Gillis 및 Pavlidis, 2012 Schlicker 및 Albrecht, 2010 Singleton et al., 2014 트란체벤트 et al., 2016), 우리의 방법은 적용 범위가 더 넓습니다.

넷째, 후보 유전자의 우선 순위를 정하기 위해 널리 적용되는 표현형 기반 방법이 여러 가지 있지만( Cornish et al., 2018 쾰러 et al., 2009 스메들리 et al., 2013), 관련 표현형을 가진 유전자로 제한됩니다. 연관된 표현형을 가진 인간 유전자의 수가 제한되어 있기 때문에 이 유전자 세트는 동물 모델에 인간 이종상동체의 표현형을 통합함으로써 크게 확장될 수 있습니다(Smedley et al., 2013) 그러나 동물 모델 표현형을 사용하더라도 동물 모델에서 표현형 연관성이 부족하거나 인간 유전자에 대한 오르토로그가 없기 때문에 표현형 연관성이 없는 인간 유전자의 약 절반이 남습니다( Shefchek et al., 2020). 표현형 기반 유전자 우선 순위 지정 방법을 표현형 연관이 있거나 GO 기능과 연관되거나 알려진 발현 부위가 있는 유전자로 크게 확장합니다. 우리 방법의 예측 성능은 관련 표현형이 있는 유전자보다 표현형 연관성이 없는 유전자에 대해 더 낮지만, 그럼에도 불구하고 표현형을 유전자 기능 또는 해부학적 위치와 비교하여 질병 관련 유전자를 식별할 수 있음을 보여줍니다.

또한 우리 모델은 확장 가능하며 온톨로지를 사용하여 인코딩할 수 있는 경우 추가 기능을 포함할 수 있습니다. 예를 들어, Celltype Ontology(CL)( Bakken et al., 2017). 우리는 Tabula Muris 프로젝트(The Tabula Muris Consortium et al., 2018) 유전자에 CL 주석이 달려 있습니다. 이 데이터 세트에서 우리는 CL에서 유전자와 하나 이상의 클래스 사이의 17149개의 연관성을 얻습니다. 우리는 유전자의 CL 주석과 질병 표현형 주석을 추가하고 다른 세 가지 온톨로지와 동일한 실험을 수행했습니다. 유전자 간의 기능적 상호 작용을 포함하지 않고 유전자-질병 연관성을 예측하기 위해 ROCAUC 0.906( ⁠ 0.883 − 0.949 ⁠ )을 얻습니다([email protected], [email protected][email protected]은 각각 0.037, 0.299 및 0.634임). 이러한 결과는 단일 세포 유전자 발현이 Uberon을 사용하여 인코딩된 조직 수준 유전자 발현보다 유전자-질병 연관성을 예측하는 데 더 많은 정보를 제공할 수 있음을 보여줍니다. 세포 유형별 유전자 발현 사용의 한 가지 주요 제한 사항은 CL이 표현형 온톨로지(UBERON 또는 GO에 비해) 내에서 더 적은 공리에서 사용되므로 우리의 방법은 표현형과 세포형 간의 관계는 물론 다른 온톨로지 간의 관계를 이용하지 않는다는 것입니다.

우리의 방법에는 여전히 몇 가지 제한 사항이 있습니다. OWL에서 그래프로의 변환은 모든 OWL 공리를 고려하지 않으며 변환은 의미론이 다르지만 다른 유형의 제한 및 공리 유형을 동일하게 취급합니다. 앞으로 우리는 OWL 공리를 그래프 표현으로 변환하는 방법을 확장할 계획입니다. OBO Relation Ontology(Smith et al., 2007), 또한 Onto2Graph 방법에서 구현된 것과 같이 그래프를 생성하기 위해 추론된 공리에 의존합니다( Rodríguez-García 및 Hoehndorf, 2018).

우리 접근 방식의 또 다른 주요 제한 사항은 본질적으로 변환적이며 귀납적이지 않다는 것입니다. 특히, 표현형 연관이 있는 질병은 임베딩을 생성하고 예측 모델을 훈련하기 전에 워크플로에서 알려야 하며, 새로운 표현형 세트(예: 개인에서 관찰된 표현형)에 접근 방식을 적용하는 것은 간단하지 않습니다. 이 제한은 많은 그래프 임베딩 및 지식 그래프 임베딩 접근 방식에서 공유됩니다( Wang et al., 2017b). 그러나 이러한 한계는 그래프 신경망(Kipf and Welling, 2016 Scarselli)과 같은 지식 그래프 학습을 위한 귀납적 방법을 사용하여 극복할 수 있습니다. et al., 2008), 또는 원래 데이터(또는 그래프)의 일부로 표현형을 가진 환자를 포함하고, 유전자-질병 연관성에 대한 모델을 훈련하고 이를 적용하여 환자 노드에 대한 후보 유전자를 예측합니다. 그러나 우리의 접근 방식을 귀납적 설정으로 확장하면 관찰된 표현형 및 차세대 시퀀싱 데이터( Boudellioua et al., 2017 로빈슨 et al., 2014).

마지막으로, 우리는 질병과 관련이 있는 것으로 알려지지 않은 모든 유전자를 음성으로 취급하고 결과적으로 긍정적인 연관성보다 부정적인 연관성이 더 많습니다. 이것은 먼저 두 가지 결과를 낳습니다. 유전자가 질병과 관련되어 있지만 이 연관성이 아직 알려지지 않은 경우 연관성을 음성으로 잘못 분류할 수 있습니다. 둘째, 우리 방법의 전반적인 예측 성능은 최신 기술보다 향상되고 ROCAUC는 평가에서 일반적으로 0.9 이상이지만 첫 번째 순위의 재현율은 여전히 ​​낮고 첫 번째 순위에서 5%를 초과하는 경우는 거의 없습니다. 평가 방법 간의 이러한 차이의 이유는 우리가 평가에 사용하는 불균형한 데이터 세트입니다. 여기서 질병과 관련이 있는 것으로 알려지지 않은 모든 유전자는 해당 질병에 대해 음성으로 간주됩니다. 따라서 우리의 평가는 유전자와 질병 사이의 잠재적 연관성에 대한 추가 지식을 고려하지 않습니다. 그러나 새로운 유전자가 멘델병과의 연관성에 대해 평가되는 현실적인 시나리오에서는 영향을 받는 개인에서 발견되는 변이의 병원성을 평가하거나 가계도 및 유전 방식으로 필터링하거나 변이를 기준으로 필터링하는 등 일반적으로 더 많은 정보를 사용할 수 있습니다. 이러한 작업 흐름 후에 동일한 표현형을 가진 관련 없는 개인에서 발견되는 경우 일반적으로 100개 미만의 유전자가 잠재적 후보로 남아 있습니다( Alfares et al., 2020)(우리 평가의 9886과 대조적으로) 및 최상위 순위의 리콜이 향상될 것입니다.


추상적 인

최근의 기술 발전은 전체 게놈 시퀀싱 데이터에서 광범위한 전사체, 메틸체 및 대사체 데이터에 이르기까지 사용 가능한 omic 데이터의 폭을 확장했습니다. 이러한 데이터 분석의 주요 목표는 표현형 특성 및 결과를 예측하는 효과적인 모델을 식별하고 중요한 바이오마커를 설명하고 복잡한 특성의 유전 가능성에 대한 유전적 토대에 대한 중요한 통찰력을 생성하는 것입니다. 이러한 포괄적인 처리량 데이터의 유용성을 완전히 활용하여 진정한 연관성을 식별하고 잘못된 연관성의 수를 줄이기 위해서는 강력하고 고급 분석 전략이 여전히 필요합니다. 이 검토에서 우리는 복잡한 결과에서 유전학 및 유전체학의 역할에 대한 이해를 심화하는 것을 목표로 하는 메타 차원 및 다단계 분석을 포함하여 데이터 통합에 대한 새로운 접근 방식을 탐구합니다. 이러한 접근 방식의 사용 및 추가 개발로 게놈 변이와 인간 표현형 간의 관계에 대한 이해가 향상될 수 있습니다.


유전자형에서 표현형 예측: 정상 색소 침착 *

애리조나 대학교 투손, AZ 85724 의과대학 소아과학과

현재 주소: Center for Human Genetics, Marshfield Clinic Research Foundation, Marshfield, WI 54449.

애리조나대학교 의과대학 소아과, 투손, AZ 85724.

애리조나대학교 의과대학 소아과, 투손, AZ 85724.

애리조나대학교 의과대학 소아과, 투손, AZ 85724.

현재 주소: Stanford University School of Medicine, Stanford, CA 94305 유전학과.

애리조나대학교 의과대학 소아과, 투손, AZ 85724.

애리조나대학교 의과대학 소아과, 투손, AZ 85724.

현재 주소: 약리학 부서, Teva Pharmaceutical Industries Ltd., Netanya, 42504, Israel.

애리조나대학교 의과대학 소아과, 투손, AZ 85724.

현재 주소: Helen Wills Neuroscience Institute, University of California, Berkeley, CA 94720.

애리조나 대학교 투손, AZ 85724 의과대학 소아과학과

애리조나 대학교, 투손, AZ 85721의 생태 및 진화 생물학과.

Jake Gittlen 암 연구 재단, 병리과학과 약리학과, 펜실베니아 주립대학교 의과대학 생화학 및 분자생물학과, Hershey, PA 17033.

일본 아이치현 도요아케에 있는 후지타 보건대학 보건과학대학 화학과.

일본 아이치현 도요아케에 있는 후지타 보건대학 보건과학대학 화학과.

DNAPrint Genomics, Inc., Sarasota, FL 34236.

DNAPrint Genomics, Inc., Sarasota, FL 34236.

현재 주소: Information Security, Intelligence & Analysis, Sylint Group, Sarasota, FL 34230.

애리조나 대학교 투손, AZ 85724 의과대학 소아과학과

현재 주소: Center for Human Genetics, Marshfield Clinic Research Foundation, Marshfield, WI 54449.

애리조나대학교 의과대학 소아과, 투손, AZ 85724.

현재 주소: Center for Human Genetics, Marshfield Clinic Research Foundation, Marshfield, WI 54449.

애리조나대학교 의과대학 소아과, 투손, AZ 85724.

애리조나대학교 의과대학 소아과, 투손, AZ 85724.

애리조나대학교 의과대학 소아과, 투손, AZ 85724.

현재 주소: Stanford University School of Medicine, Stanford, CA 94305 유전학과.

애리조나대학교 의과대학 소아과, 투손, AZ 85724.

애리조나대학교 의과대학 소아과, 투손, AZ 85724.

현재 주소: 약리학 부서, Teva Pharmaceutical Industries Ltd., Netanya, 42504, Israel.

애리조나대학교 의과대학 소아과, 투손, AZ 85724.

현재 주소: Helen Wills Neuroscience Institute, University of California, Berkeley, CA 94720.

애리조나대학교 의과대학 소아과, 투손, AZ 85724.

애리조나 대학교, 투손, AZ 85721의 생태 및 진화 생물학과.

Jake Gittlen 암 연구 재단, 병리과학과 약리학과, 펜실베니아 주립대학교 의과대학 생화학 및 분자생물학과, Hershey, PA 17033.

일본 아이치현 도요아케에 있는 후지타 보건대학 보건과학대학 화학과.

일본 아이치현 도요아케에 있는 후지타 보건대학 보건과학대학 화학과.

DNAPrint Genomics, Inc., Sarasota, FL 34236.

DNAPrint Genomics, Inc., Sarasota, FL 34236.

현재 주소: Information Security, Intelligence & Analysis, Sylint Group, Sarasota, FL 34230.

애리조나대학교 의과대학 소아과, 투손, AZ 85724.

현재 주소: Center for Human Genetics, Marshfield Clinic Research Foundation, Marshfield, WI 54449.

국립 법무부에서 자금 지원(2002-1J-CX-K010).

추상적 인

추상적 인: 법의학 연구에서 유전 정보는 CODIS 데이터와 샘플을 일치시키고 개인에게 할당하는 능력으로 크게 제한됩니다. 그러나 주어진 DNA 샘플이 CODIS 데이터베이스의 누구와도 일치하지 않고 기증자에 대한 다른 정보가 없는 상황이 있습니다. 이 연구에서 우리는 다양한 인종 배경을 가진 789명의 개인에서 머리카락, 피부 및 눈 색깔과 단일 및 다중 유전자좌의 연관성을 분석하기 위해 24개 유전자(이전에는 인간 또는 동물 착색 연구에 연루됨)에서 75개의 SNP를 결정했습니다. 다중 선형 회귀 모델링을 사용하여 5개 유전자의 5개 SNP가 전체 인구 분석에서 머리카락, 피부 및 눈의 색소 침착 변이의 큰 비율을 설명하는 것으로 밝혀졌습니다. 따라서 이러한 모델은 인종 기원에 관계없이 법의학 샘플에서 개인의 색소 침착 유형을 결정하는 데 예측 가치가 있을 수 있습니다.


유전자형에서 표현형을 예측하기 위한 전산/수학적 모델 - 생물학

Wanglab에 오신 것을 환영합니다.

최적화 및 계산 시스템 생물학 연구실은 중국과학원(CAS)의 수학 및 시스템 과학 아카데미(AMSS) 응용 수학 연구소에 있습니다. 우리는 또한 중국과학원의 국립수학융합과학센터(NCMIS)에 속해 있습니다. 우리의 연구는 최적화, 컴퓨터 생물학 및 시스템 생물학에 중점을 둡니다. 최적화 및 통계 모델을 통해 유전자 조절 네트워크와 같은 복잡한 생체 분자 시스템에 대한 네트워크를 구축하는 것을 목표로 합니다. 여러 데이터 소스를 네트워크 모델에 추가로 통합함으로써 서열 변이, 조절 요소, 조절인자, 유전자 발현 및 생체 분자 시스템의 진화 간의 관계를 밝히고, 생물학적 규정 및 네트워크의 설계 원리를 조사하고, 시스템 생물학 메커니즘을 조사하는 것을 목표로 합니다. 복잡한 특성의. 이러한 목적을 달성하기 위해 우리는 이론, 모델, 알고리즘에 이르기까지 다양한 계산 방법을 개발합니다.

    유전자 조절 네트워크 모델링. : 유전자 조절 네트워크의 모델링 및 분석. 연구실에서 진행 중인 프로젝트에는 염색질 조절인자 간의 상호작용, 서열 특이적 전사 인자, 시스-조절 서열 요소 컨텍스트 특이적 조절 네트워크 재구성이 포함됩니다.

왕용연구소 | 수학 및 시스템 과학 아카데미 | 중국과학원


생물정보학 및 전산생물학(BCB)

생물정보학 알고리즘. 주제에는 DNA 제한 매핑, 조절 모티프 찾기, 게놈 재배열, 서열 정렬, 유전자 예측, 그래프 알고리즘, DNA 시퀀싱, 단백질 시퀀싱, 조합 패턴 일치, 근사 패턴 일치, 클러스터링 및 진화, 트리 구성, 은닉 마르코프 모델, 무작위 알고리즘이 포함됩니다.
요구 사항: 전제 조건, COMP 210 및 211 또는 COMP 401, 410 및 MATH 231, 또는 241 또는 BIOL 452 또는 MATH 553 또는 BIOL 525 모든 전제 조건 과정에서 C 이상의 등급이 필요합니다.
등급 상태: 문자 등급
동일: COMP 555.

BCB 645. 복잡한 형질의 양적 유전학. 1 크레딧.

학생들은 생물의학 및 농업 관련성이 있는 복잡한 형질의 양적 유전학을 이해하기 위한 기초를 형성하는 다양한 주제에 대해 배웁니다. 이 포스트게놈 시대에 양적 유전학의 궁극적인 목표는 유전형으로부터 표현형을 예측하는 것, 즉 유전적 특성 변이에 대한 분자적 기초를 추론하는 것입니다.
등급 상태: 문자 등급
동일: 지넷 645.

BCB 701. 게놈 과학 세미나 시리즈. 1 크레딧.

생물정보학 학생만 지원 가능합니다. 생물 정보학의 모든 측면에서 다양하지만 최신 주제. 생물 정보학 및 전산 생물학 분야에서 주목할만한 새로운 기술과 현재 연구를 관련시킵니다.
반복 규칙: 신용을 위해 반복될 수 있습니다.
등급 상태: 문자 등급.

BCB 702. 게놈 과학 세미나 시리즈. 1 크레딧.

생물정보학 학생만 지원 가능합니다. 생물 정보학의 모든 측면에서 다양하지만 최신 주제. 생물정보학 분야에서 주목할만한 새로운 기술과 현재 연구에 대해 설명합니다.
반복 규칙: 신용을 위해 반복될 수 있습니다.
등급 상태: 문자 등급.

BCB 710. 생물정보학 콜로키움. 1 크레딧.

이 과정의 목표는 학생들에게 BCB 교수진의 연구 관심을 노출하고 학생들이 자신의 작업을 발표하고 동료 및 교수진으로부터 의견을 받을 수 있는 기회를 제공하는 것입니다.
등급 상태: 문자 등급.

BCB 712. 생물학을 위한 데이터베이스, 메타데이터, 온톨로지 및 디지털 라이브러리. 1 크레딧.

과정은 생물 정보의 저장 및 검색을 위한 기본적인 정보 과학 방법을 소개합니다.
등급 상태: 문자 등급.

BCB 715. 신호 및 규제 경로 모델링에 대한 수학적 및 계산적 접근. 1 크레딧.

이 과정은 생화학 네트워크의 모델을 개발하고 분석하는 데 사용되는 기본 수학적 기술에 대한 소개를 제공합니다. 결정론적 모델과 확률적 모델이 모두 논의됩니다.
등급 상태: 문자 등급.

BCB 716. 서열 분석. 1 크레딧.

이 모듈은 최신 시퀀싱 플랫폼을 사용하여 핵산 서열의 비교 분석에 대한 개념과 방법을 학생들에게 소개하도록 설계되었습니다. 코스 주제에는 DNA 및 RNA 시퀀싱을 위한 최신 프로토콜의 서열 정렬, 게놈 조립 및 컴퓨터 세부 사항이 포함됩니다.
등급 상태: 문자 등급.

BCB 717. 구조적 생물정보학. 1 크레딧.

과정은 단백질 모델링을 위한 방법과 기술을 소개합니다.
등급 상태: 문자 등급.

BCB 718. 전산 모델링 연구실. 1 크레딧.

이 과정은 셀룰러 시스템의 계산 모델링에 대한 실용적인 소개를 제공합니다. 동일한 생물학적 현상을 설명하기 위해 다양한 모델링 기법(결정론적, 확률론적, 추론적)을 선택하고 구현하는 방법에 중점을 둘 것입니다. 공식적인 수학적 또는 계산적 배경이 필요하지 않지만 이 과정에는 상당한 양의 MATLAB 프로그래밍이 포함됩니다.
등급 상태: 문자 등급.

BCB 720. 통계 모델링 소개. 3학점.

생물정보학, 통계유전학, 통계유전체학 및 관련 분야의 광범위한 분석 방법에 동기를 부여하는 기본 통계 개념과 모델을 소개합니다. 학생들은 일변수 미적분학을 알고 행렬 대수학에 익숙하며 프로그래밍 경험이 있어야 합니다.
등급 상태: 문자 등급.

BCB 722. 인구 유전학. 1 크레딧.

이 짧은 과정은 Dn/Ds 비율, McDonald-Kreitman 테스트 및 Poisson Random Field 모델을 포함하여 자연 선택을 추론/추정하는 방법을 다룹니다. 이 과정은 유기체 진화를 형성한 힘에 대한 통찰력을 제공하기 위해 이러한 방법의 적용을 설명하는 유명 출판물에 대한 토론을 특징으로 합니다.
등급 상태: 문자 등급
동일: 지넷 722.

BCB 723. 통계 유전학 및 유전체학 주제. 1 크레딧.

이 모듈은 통계 유전학 및 유전체학에서 선택된 개념과 기술을 소개합니다.
등급 상태: 문자 등급.

BCB 725. 통계 유전학 소개. 3학점.

가족 및 인구 기반 유전 데이터 분석을 위한 통계적 방법을 다룹니다. 주제에는 고전적 연관 분석, 인구 기반 및 가족 기반 연관 분석, 일배체형 분석, 게놈 전체 연관 연구, 인구 유전학의 기본 원리, 전가 기반 분석, 경로 기반 분석, 혼합물 매핑, 복제 수 변이 분석, 및 대규모 병렬 시퀀싱 데이터 분석.
등급 상태: 문자 등급.

BCB 730. 광학현미경을 위한 정량적 이미지 분석의 기초. 1 크레딧.

광학현미경 영상의 정량분석에 대한 실용적인 입문서이다. 수업 중에 학생들은 생물학적 이미지 분석의 일반적인 작업을 안내하는 자습서를 따릅니다. 이미지 등록, 필터링, 객체 감지 등과 같은 이미지 처리의 기본 개념을 소개합니다.
등급 상태: 문자 등급
동일: 지넷 730.

BCB 784. 전산생물학 입문. 3학점.

분자 생물학, 서열 정렬, Monte Carlo Bayesian 접근법에 의한 서열 모티프 식별, 동적 프로그래밍, 은닉 마르코프 모델, 계산 알고리즘, 통계 소프트웨어, 고처리량 시퀀싱 데이터 및 계산 생물학에서의 응용.
요구 사항: 전제 조건, BIOS 661 및 663 전제 조건이 부족한 학생을 위한 강사의 허가.
등급 상태: 문자 등급
동일: 바이오스 784.

BCB 785. 유전자 발현 분석을 위한 통계적 방법. 3학점.

클러스터링 알고리즘, 분류 기술, 다변량 데이터 분석을 위한 통계 기술, 고차원 데이터 분석, DNA 마이크로어레이 데이터에 대한 매개변수 및 반모수 모델, 측정 오류 모델, 베이지안 방법, 통계 소프트웨어, 마이크로어레이 연구에서 샘플 크기 결정, 암에 적용.
요구 사항: 전제 조건, BIOS 661 또는 673 및 663 전제 조건이 부족한 학생을 위한 강사의 허가.
등급 상태: 문자 등급
동일: 바이오스 785.

BCB 850. 생물정보학 및 전산생물학 교육 교육. 3학점.

생물정보학 및 전산생물학 교수법의 원리. 학생들은 BCB를 가르치는 데 도움을 줄 책임이 있으며 교수진의 감독 하에 작업하며, 교수진과 정기적으로 방법, 내용 및 성과 평가에 대해 토론합니다.
반복 규칙: 신용을 위해 반복될 수 있습니다.
등급 상태: 문자 등급.

BCB 870. 친목 제안서 작성. 1 크레딧.

NIH F31을 템플릿으로 사용하여 펠로우십 제안서를 작성하는 데 있어 박사 과정 학생에게 실질적인 경험을 제공합니다. 학생들은 학생과 교수진이 제공하는 피드백과 함께 매주 쓰기 과제를 갖게 됩니다. 교과과정의 2, 3학년 학생 또는 강사의 허가가 있는 경우 가능합니다.
등급 상태: 문자 등급
동일: 지넷 870.

BCB 888. 책임 있는 연구 수행. 1 크레딧.

실험 연구의 윤리적이고 책임감 있는 수행을 위한 중요한 주제를 다루는 강의실 기반 대학원 수준 과정입니다. 강의실 강의, 워크샵 형식의 토론 구성 요소와 수업 외의 독서 과제가 있습니다. 대학원생이 직면할 가능성이 가장 높은 시나리오와 관련된 사례 연구 및 가상 상황이 다루어지며 이러한 주제에는 멘토 및 멘티 관계, 출판물의 저자, ​​협업, 동료 검토, 이해 상충, 지적 재산권, 표절, 데이터 수집 및 데이터 처리가 포함됩니다. UNC의 대학원생으로서 우수한 학생으로 제한됨 드물게 교실 공간이 제한되는 경우, 이전에 외부 연방 자금 출처를 받았고 RCR에서 재교육 과정이 필요할 수 있는 대학원생에게 우선권이 주어집니다.
반복 규칙: 신용을 위해 반복될 수 있습니다. 총 2학점. 총 1회 완료.
등급 상태: 문자 등급
동일: 바이오크 888.

BCB 891. 특별 주제. 1-3학점.

통계 및 운영 연구의 최신 연구 주제를 진행합니다.
반복 규칙: 크레딧을 위해 반복될 수 있습니다. 다른 주제에 대해 동일한 용어로 반복될 수 있습니다.
등급 상태: 문자 등급
동일: 수학 891, GNET 891.

BCB 899. 생물정보학 및 전산생물학의 특별 주제. 1-6학점.

생물정보학 및 전산생물학 커리큘럼의 특별 주제 과정. 주제는 다양합니다.
반복 규칙: 신용을 위해 반복될 수 있습니다. 총 9학점. 총 9회 완료.
등급 상태: 문자 등급.

BCB 905. 생물정보학 및 전산생물학 연구. 1-8학점.

생물정보학 및 컴퓨터 생물학 연구에 대해 학생들에게 수여되는 학점.
반복 규칙: 신용을 위해 반복될 수 있습니다.
등급 상태: 문자 등급.

BCB 993. 석사 연구 및 논문. 3학점.

학생은 석사 과정에 입학할 수 없습니다.
반복 규칙: 신용을 위해 반복될 수 있습니다.

BCB 994. 박사 연구 및 논문. 3학점.

박사 학위를 위해 수행한 작업에 대한 학점.
반복 규칙: 신용을 위해 반복될 수 있습니다.


가족성 비대성 심근병증의 다중 규모 계산 모델: 유전자형에서 표현형으로

가족성 비대성 심근병증(FHC)은 대략 500명 중 1명에게 영향을 미치는 유전 질환입니다. 그것의 특징은 심실 벽이 비정상적으로 두꺼워져 심부전 및 돌연 심장사를 포함한 심각한 합병증을 유발합니다. 치료는 환자 집단 내에서 중증도, 증상 및 급사의 위험이 다양하기 때문에 복잡합니다. FHC와 관련된 거의 모든 유전적 병변은 근단백 단백질을 암호화하는 유전자에서 발생하며, 이는 심장 근육 수축의 결함이 상태의 기저에 있음을 나타냅니다. 유전형을 기반으로 심장 표현형을 예측하는 데 사용할 수 있는 컴퓨터 분석에 대한 자세한 생물물리학 데이터가 점점 더 많이 사용되고 있습니다. 이러한 모델은 심실 벽 및 전체 펌프 기능의 변형 및 스트레스를 예측하기 위해 심근 조직, 심장 기하학 및 혈역학적 부하의 특성과 함께 심장 세포에서 발생하는 동적 프로세스를 통합해야 합니다. 최근의 발전은 FHC 연결 돌연변이 단백질의 특성이 전체 심장 기능의 시뮬레이션에서 정확하게 표현될 수 있도록 하는 근필라멘트 수준에서 이러한 모델의 생물물리학적 세부사항을 증가시켰습니다. 이 모델의 단기적 영향은 질병의 초기 단계에서 수축 기능 장애와 변경된 심근 긴장 패턴에 대한 자세한 설명이 될 것입니다. 이는 유전자 변형 동물에서 검증될 수 있는 예측입니다. 장기적으로 이러한 다중 규모 모델은 유전자형 기반 위험 계층화 및 개인화 치료를 통해 FHC의 임상 관리를 개선할 가능성이 있습니다.

1. 소개

심장 기능 모델링을 위한 노력 인 실리코 공학, 컴퓨터 과학, 의료 영상, 분자 생물학, 생물 물리학 및 생리학 분야의 기술을 결합한 학제 간 과학의 원형입니다. 계산 모델은 정상 및 질병 상태의 심장에 대한 추가 이해를 위해 다양한 생물학적 규모에서 적용되고 있으며, 두 측면 모두에서 진전이 크게 가속화될 것으로 예상됩니다([1]에서 검토됨). 이 검토의 목표는 심근병증을 유발하는 돌연변이의 특정 클래스에서 유전자형과 표현형 사이의 관계를 풀기 위한 현재 실험 및 컴퓨터 기술의 진행 상황과 잠재력을 평가하는 것입니다.

설명할 수 없는 비대성 심근병증(HCM)은 미국 성인 500명 중 1명꼴로 발생하며[2], 대부분 유전적 요인에 의해 발생합니다[3]. 가족성 비대성 심근병증(FHC)으로 알려진 유전된 형태의 질병은 증가된 좌심실 벽 두께, 심근 섬유증, 근세포 무질서 및 심장 돌연사의 위험 증가와 관련이 있습니다. 이 상태에 대한 치료법은 없으며 증상을 완화하기 위한 치료법은 제한적입니다. 심장 돌연사의 위협에 대한 이식형 제세동기의 사용은 심실 중격에서 과도한 심근을 제거하는 수술 절차와 마찬가지로 FHC 환자의 사망률을 성공적으로 감소시켰습니다[4]. 그러나 이러한 환자들은 남아 있는 질병 합병증에 대한 장기적인 관리가 필요합니다.

20년 전에 처음 등장한 유전적 연관 연구[5]는 FHC[6]의 주요 원인으로 sarcomeric 유전자의 돌연변이를 확인했습니다. 이러한 발견은 FHC에 대한 몇 가지 기본적인 질문에 답했지만 집중적인 연구 노력의 주제인 새로운 질문도 제기했습니다[3]. 비대의 정도와 패턴, 돌연 심장사의 위험, 증상 발병 연령 및 전반적인 예후는 환자 집단에서 매우 다양합니다. 이 표현형의 다양성은 일반적으로 현재 의학 문헌[3]에 기록된 많은 수(500개 이상)의 개별 돌연변이로 설명되는 것으로 보이며, 특정 유전형에 대해 질병 표현형의 예측이 가능할 수 있음을 시사합니다. 그러나 명백히 무증상이고 유전자 양성인 개체의 상당수를 식별하는 것은 그 생각에 새로운 도전을 제기하고 진행성 FHC의 표현형이 여러 요인에 민감함을 나타냅니다[7]. 이러한 발견에 비추어, Tardiff [8, p. 765]는 최근 검토에서 '영향을 받은 환자를 관리하기 위해 유전자형 정보를 사용하는 핵심 목표를 달성하기 위해 [FHC]의 분자 및 임상 발병기전에서 가장 근접한 사건에 대한 새로운 초점이 필요할 것"이라고 제안했습니다.

현재 FHC 연구의 암묵적인 가설은 비대가 진행 형태에 관계없이 심장 근절 수준에서 변경된 급성 기능의 결과라는 것입니다. 돌연변이 단백질의 특성을 기반으로 이러한 종류의 근위, 비대 전 표현형을 예측하는 데 함께 사용할 수 있는 실험 및 계산 도구가 현재 존재합니다(그림 1).FHC의 동물 모델에 적용할 때 이러한 방식으로 유전자형과 표현형을 연결하면 질병 과정에 대한 훨씬 더 자세한 설명과 집중되고 테스트 가능한 가설을 생성할 수 있습니다. 더 나아가, 이러한 도구는 환자 간의 위험을 계층화하는 정량적 수단을 제공하고 임상 의사 결정을 지원할 수 있습니다.

그림 1. 가족성 비대성 심근병증(FHC) 연구를 위한 주요 실험 방법 및 잠재적인 계산 도구의 다이어그램. 대략적인 날짜는 각 실험 접근 방식이 FHC 연구에 처음 적용된 시기를 보여줍니다. 다중 규모 계산 접근 방식은 아직 FHC 연구에 적용되지 않았지만 그렇게 하는 데 필요한 많은 도구가 최근 몇 년 동안 등장했습니다(날짜는 적용 가능한 모델링 기술의 출판을 반영함). [9] P-MRS는 인-31 자기공명 분광기를 말한다[10].

그 동안 많은 그룹이 보다 전통적인 접근 방식을 사용하여 FHC 연구를 계속 추구하고 있습니다(최근 리뷰는 [6,8,11] 참조). 여기에는 새로운 돌연변이를 식별하기 위한 인간의 전체 게놈 연관 연구, FHC 연결 돌연변이를 갖도록 조작된 마우스 라인 및 시험관 내 변형된 sarcomeric 단백질에 대한 연구. 현재 연구되고 있는 새로운 접근 방식은 인간의 체세포 조직에서 유도 만능 줄기 세포를 생성하여 심장 세포로 분화할 수 있도록 하는 것입니다[12]. FHC 돌연변이가 있는 환자로부터 유래된 근세포는 기능적 세포 규모 분석에 사용되거나 분자 연구를 위한 돌연변이 단백질을 얻는 수단으로 사용될 수 있습니다. 유전자 조작 마우스는 여러 규모에서 체계적인 분자, 구조 및 기능 연구를 허용하는 이점이 있지만 실제로 이러한 데이터의 통합은 일반적으로 정성적으로 수행됩니다. 또한 심부전, 다중 유전자 상호 작용 또는 후성 유전 적 요인과 같은 이차 효과가 표현형을 혼란스럽게 할 수 있습니다. 다중 규모 모델이 잠재력을 최대한 발휘함에 따라 데이터를 정량적으로 통합하고 2차 요인을 설명하기 위한 노력을 지원함으로써 현재 및 새로운 접근 방식을 강화할 것으로 기대합니다.

2. Sarcomeric 단백질

HCM의 유전된 형태의 약 70%는 근절에서 발견되는 단백질을 암호화하는 유전자와 연결될 수 있습니다[3]. 심장 근육 세포의 근절은 수축력을 생성하는 역할을 하며 두 개의 겹치는 단백질 필라멘트 어레이로 구성됩니다. (그림 2). Ca 2+가 트로포닌 복합체에 결합하면 수축이 시작되어 액틴 필라멘트 표면의 트로포미오신을 이동시켜 미오신 머리의 결합 부위를 노출시키는 일련의 알로스테릭 신호 전달 이벤트를 촉발합니다[13]. 미오신은 아데노신 삼인산(ATP) 형태의 에너지를 기계적 작업으로 변환하는 과정에서 액틴과 주기적으로 상호작용하여 굵고 가는 필라멘트가 서로 미끄러져 근육을 단축시킵니다.

그림 2. 심장 근절 및 주요 단백질 구성 요소의 개략도. 근절은 두껍고 얇은 필라멘트의 얽힌 배열로 구성됩니다. 확장된 보기는 미오신 중쇄(MHC), 필수 경쇄(ELC), 조절 경쇄(RLC), 미오신 결합 단백질 C(MyBP-C), 트로포미오신(Tm), 트로포닌 I(TnI), 트로포닌 T(TnT), 트로포닌 C(TnC) 및 액틴. 심근병증-연관 돌연변이는 유전된 HCM의 가장 흔한 원인을 나타내는 이들 9개 단백질 각각을 코딩하는 유전자에서 확인되었다[6]. 정지 상태에서 힘은 액틴의 미오신 결합 부위를 차단하는 Tm에 의해 억제됩니다(가장 왼쪽의 미오신 분자는 각 경우의 두 번째 미오신 헤드는 명확성을 위해 생략됨). 힘 생성은 Ca 2+가 TnC의 낮은 친화도 부위에 결합할 때 근절에서 시작되어(표지됨), 결합 부위(중앙의 미오신)를 노출시키기 위해 Tm 위치의 이동을 촉발합니다. 일단 부착되면, 미오신은 ATP 가수분해에서 얻은 에너지를 방출하여 레버 암을 회전시키고 밧줄을 두꺼운 필라멘트로 확장하고 힘을 생성합니다. 증거에 따르면 질병 관련 돌연변이는 이 시스템이 Ca 2+ 에 반응하여 힘을 생성하는 방식을 변경합니다.

인간 FHC와 확실하게 연결된 최초의 돌연변이가 유전자에서 발견되었습니다. MYH7, 이는 β-미오신 중쇄(MHC)를 인코딩합니다. β-MHC 돌연변이는 유전된 HCM의 가장 흔한 원인으로 남아 있습니다[6]. MHC는 미오신 분자를 형성하는 3개의 소단위 중 가장 크며 액틴 결합 및 뉴클레오티드 가수분해를 담당하는 도메인을 포함합니다. 미오신의 다른 두 소단위인 필수 경쇄(ELC)와 조절 경쇄(RLC)는 레버 암으로 알려진 MHC의 α-나선과 결합하고 안정화합니다. 레버 암의 움직임은 미오신에 의한 힘 생성을 담당합니다[14]. 상대적으로 드물지만 잘 문서화된 FHC 돌연변이가 인간 유전자에서 발견됩니다. MYL2 그리고 MYL3 ELC와 RLC를 각각 암호화하여 이들 단백질이 중요한 기능적 역할을 함을 시사한다[11]. 유전자 돌연변이 MYBPC3두꺼운 필라멘트 단백질 미오신 결합 단백질 C(MyBP-C)를 암호화하는 , FHC를 가진 개인들 사이에서 두 번째로 많이 발생합니다[11]. 근절 기능을 조절하는 MyBP-C의 능력은 잘 확립되어 있지만 규제 활동의 구조적 및 기능적 세부 사항은 완전히 결정되지 않았습니다.

거의 모든 알려진 FHC 유발 돌연변이는 가는 필라멘트 단백질에서 발생합니다(검토는 [8] 참조). 여기에는 얇은 필라멘트와 미오신 결합 부위를 형성하는 심장 액틴(ACTC)이 포함됩니다. Tropomyosin은 이완하는 동안 이러한 결합 부위를 입체적으로 차단하고, α 이소폼(TPM1) FHC에 연결됩니다. 심장 트로포닌 T(TNNT2)는 다른 트로포닌 소단위를 트로포미오신에 고정하고 인접한 트로포미오신의 종단 간 중첩을 안정화하는 것으로 생각됩니다. Cardiac troponin I(TNNI3)은 tropomyosin의 움직임을 막는 방식으로 actin과 결합하여 Ca 2+ 의존성 수축 조절에 직접 참여한다[13]. Ca 2+가 트로포닌 C(TNNC1)에 결합하면 트로포닌 I의 억제 도메인이 액틴에서 트로포닌 C의 N-말단 도메인으로 이동하여 트로포미오신이 이동하고 액틴-미오신 가교가 형성됩니다.

돌연변이 sarcomeric 단백질의 특성과 기능적 결과를 조사하는 연구는 수없이 많으며 FHC에서 유전자형-표현형 연결에 대한 우리의 이해에 실질적으로 추가되었습니다(Tardiff [8] 및 Harris 참조). . 자세한 리뷰는 [11] 참조). 인간 FHC 환자에서 볼 수 있는 점 돌연변이를 갖는 정제된 단백질에 대한 연구가 수행되었지만 FHC 유전자도 복제되어 형질전환 및 유전자 표적 동물 모델(주로 마우스)을 만드는 데 사용되었습니다. 결과 데이터는 단일 분자의 활성 측정(예: [15])에서 심장 기능 측정에 이르기까지 다양합니다. 생체 내 [16].

아마도 가장 자주 사용되는 실험은 돌연변이 단백질을 포함하는 피부 심근 제제에서 힘의 Ca 2+ 민감성을 측정하는 것입니다(Bai 참조 . [17] 최근 예). 이 실험에서 조직은 세포막을 손상시키기 위해 세제로 처리되어 근섬유 주변의 Ca 2+ 농도가 목욕 용액에 의해 직접 설정되도록 합니다. 심근 샘플은 힘 변환기와 모터 제어 레버 사이에 부착되고 준비에 의해 생성된 정상 상태 힘은 다양한 Ca 2+ 농도에서 측정될 수 있습니다. 이러한 방식으로 얻은 힘-Ca 2+ 관계는 일반적으로 Hill 방정식을 사용하여 점을 피팅함으로써 매개변수화됩니다.

돌연변이 sarcomeric 단백질의 존재 하에서 측정된 많은 정상 상태 힘-Ca 2+ 관계에서 나타나는 경향은 HCM과 연결된 돌연변이가 근섬유의 Ca 2+ 민감성을 증가시키는 경향이 있는 반면, 적은(그러나 상당한) 돌연변이 수 확장성 심근병증(DCM)과 관련된 경우 이를 감소시키는 경향이 있습니다[8,18]. 이 결과는 중요하지만 기준선으로부터의 민감도 변화의 크기가 질병의 중증도를 예측하는 것으로 보이지 않는다는 점에서 표현형을 예측하는 Ca 2+ 민감도의 능력은 제한적인 것으로 보입니다. 더욱이, 단일 매개변수는 다양한 비대 패턴과 다양한 돌연변이에 대한 부정맥의 뚜렷한 위험을 포함하는 FHC의 다차원 표현형 공간을 설명할 수 없습니다.

Ca 2+ 민감도 측정이 일반적인 HCM/DCM 패러다임과 일치하는 경우에도 유전자형-표현형 연결은 부분적으로만 달성됩니다. 그러한 경우, 심장 재형성의 유형과 특정 돌연변이를 연관시키는 초기 도전은 돌연변이를 Ca 2+ 민감도에 연관시키는 것 중 하나가 됩니다. 정상 및 돌연변이 단백질의 아미노산 서열을 아는 것은 중요한 단서를 제공해야 하며, 분자 역학(MD) 시뮬레이션을 사용하여 이와 관련하여 약간의 진전이 이루어지고 있습니다(Ertz-Berger 참조 . [19] 및 Lorenz & Holmes [20]). MD는 단백질 구조 데이터를 사용하여 피코초 시간 규모에서 분자 내 원자의 움직임을 예측합니다. 한 경우에, MD는 FHC-연관 돌연변이 R92W 및 R92L의 존재하에 트로포닌 T(TnT) 분자의 임계 영역의 움직임을 예측하는 데 사용되었습니다[19]. 시뮬레이션은 두 돌연변이가 단백질의 나선 구조를 불안정하게 만드는 경향이 있어 야생형 서열에 비해 분자의 유연성을 증가시키는 것으로 나타났습니다. 동시에 유연성의 정도는 두 돌연변이 사이에서 달랐습니다. 이것은 인간과 이들 돌연변이가 있는 형질전환 마우스 둘 다에서 R92W와 R92L 사이에 나타나는 비대 중증도의 차이를 설명할 수 있습니다.

MD 시뮬레이션의 장점은 단일 아미노산 치환을 기반으로 하는 직접적인 기능적 예측을 가능하게 하지만 시간 규모와 Ca 2+ -활성화된 힘을 직접 예측할 수 있을 만큼 충분히 큰 분자 시스템을 시뮬레이션할 수 있는 가능성에 의해 제한된다는 것입니다. 예를 들어, TnT의 단일 영역의 유연성이 Ca 2+ 민감도를 어떻게 변화시킬 수 있는지 정확히 알 수 없는 근섬유 기능의 분자 메커니즘에 대한 질문이 남아 있기 때문에 간접적인 예측조차 어렵습니다. MD를 위한 기술은 의심할 여지 없이 미래에 향상될 것이며 궁극적으로 이러한 한계를 극복할 수 있을 것입니다. 한편, 근섬유 활성화의 통합 모델을 사용하여 분자 거동과 Ca 2+ 감도 사이의 격차를 메우는 것이 가능할 수 있습니다.

3. 통합 근섬유 기능

근섬유 기능의 통합 모델은 알려진 구조적 상호작용과 근섬유 단백질의 구조적 상태를 기반으로 Ca 2+ 활성화를 예측합니다(최근의 예는 [21-23]을 포함함). MD 시뮬레이션을 통해 얻을 수 있는 분자 세부 사항은 분명히 부족하지만 이러한 모델은 심장 근육 준비에서 수행된 기능 측정을 재현할 수 있다는 이점이 있습니다. 일반적으로 이 모델은 실험적 증거에 의해 제안된 이러한 과정 간의 상호 작용과 함께 트로포닌 C에 대한 Ca 2+ 결합, 트로포닌-트로포미오신 조절 스위치의 활성화 및 교차 다리 순환을 나타냅니다. 통합 근섬유 모델은 근육 함유 FHC 돌연변이 단백질에서 힘-Ca 2+ 관계 및 기타 특성을 분석하는 데 사용될 수 있으며, 돌연변이에 의해 유도된 주요 기능적 변화로 나타나는 단순화된 프로세스 중 하나 이상을 가리킵니다. 이것은 myofilament 단백질 간의 특정 구조 및 상호 작용에 대한 원자 시뮬레이션을 집중시킬 수 있는 가능성이 있습니다.

최근 몇 년 동안 이러한 유형의 근섬유 모델의 개선은 Ca 2+ 에 의한 협력 활성화의 표현을 중심으로 이루어졌습니다. 협동성은 정상 상태 조건에서 Ca 2+ 농도와 수축력 사이에서 관찰되는 가파른 S자 관계를 설명합니다(파라미터로 표시 N시간 힐 방정식에서). 줄무늬 근육 협동성의 분자적 기원은 액틴 가는 필라멘트에서 인접한 트로포미오신 분자 사이에서 발생하는 종단 간 상호 작용으로 널리 알려져 있습니다[25,26]. 근육 조절의 입체 차단 모델[13]에 따르면, 트로포미오신은 낮은 Ca 2+ 조건에서 액틴에 결합하는 미오신을 차단합니다. 인접한 트로포미오신 사이의 상호 작용은 미오신 결합 부위를 결합하여 가파르게 협력하는 행동과 일치하는 '전부 아니면 전무' 방식으로 노출되는 경향이 있는 것으로 생각됩니다.

정상 상태 조건에서 근섬유 협동성의 이러한 메커니즘과 기타 추정되는 메커니즘을 설명하기 위해 많은 이론 및 계산 모델이 개발되었습니다[27-32]. 다른 것들은 박동하는 심장에서 발생하는 [Ca 2+ ]의 일시적인 변화 동안 근섬유 활성화를 예측하기 위해 공식화되었습니다[9,21,33]. 이상적으로, 이러한 모델은 피부 근육 준비에서 근필라멘트 Ca 2+ 감도 및 협동성의 측정을 생리학적 조건에서 실제 효과로 변환할 수 있습니다. 출판된 근섬유 모델의 다양성과 수에도 불구하고 이 흥미로운 전망은 아직 실현되지 않은 상태로 남아 있습니다.

우리의 최근 연구는 정상 상태와 동적 힘-Ca 2+ 관계를 동시에 재현할 수 있는 근섬유 활성화의 Markov 모델의 공식화로 이어졌습니다[23]. 이 모델은 원래 McKillop & Geeves[28]에 의해 제안되었고 나중에 구조적 데이터[34]에 의해 검증된 심장 가는 필라멘트 조절 단위의 세 가지 상태를 기반으로 합니다. 세 가지 상태 사이의 전환이 (트로포미오신 상호 작용을 통해) 인접한 조절 단위의 상태에 의존하는 것으로 간주될 때 시스템은 협력 활성화의 정상 상태 및 동적 측면을 모두 나타냅니다. 이 모델은 NEM-S1(액틴을 높은 친화력으로 결합하는 가용성 미오신 하위 단편)의 추가, 무기 인산염 농도 증가 및 가는 필라멘트 길이 단축을 포함한 다양한 조건에서 피부가 있는 심장 근육에서 수집된 데이터에 대해 검증되었습니다. 다른 사람.

분자 규모의 섭동을 사용하는 실험을 재현하는 이 모델의 능력은 FHC 연결 돌연변이가 있는 상태에서 정상 상태 힘-Ca 2+ 관계를 분석하는 데 사용을 지원합니다. 이에 대한 간단한 예가 그림 3에 나와 있습니다.NS, 여기서 모델은 FHC 연결 트로포미오신 돌연변이 E180G에서 볼 수 있는 힘-Ca 2+ 관계의 왼쪽 이동 및 협동성 손실을 재현하는 데 사용됩니다[17]. 두 변화 모두 단일 매개변수인 트로포미오신 간의 가장 가까운 이웃 상호작용과 관련된 자유 에너지 변화를 낮추어 동시에 달성되었습니다. 매개변수를 포함한 모델의 전체 세부 정보는 이 문서와 함께 제공되는 전자 보충 자료에 나와 있습니다. 이 피상적인 관찰은 얇은 필라멘트 상태 평형의 단순한 변경보다는 E180G의 기능적 결과로서 트로포미오신의 증가된 유연성 또는 종단 간 트로포미오신 상호작용에 대한 영향을 의미합니다[17]. 이러한 통찰력은 더 높은 수준의 기능에 직접 연결되는 집중된 MD 또는 거친 분자 모델 연구로 이어질 수 있습니다.

그림 3. 근섬유 모델은 정상 상태와 동적 힘-Ca 2+ 관계 사이의 간극을 메울 수 있습니다. (NS) Tm 돌연변이 E180G [17]로 인한 정상 상태 힘-pCa 관계의 질적 변화는 Ca 2+ 민감도의 증가와 협동성의 감소(곡선의 가파름)를 포함하여 근섬유 모델 [23]에 의해 요약되었습니다. 가장 가까운 이웃 Tm 커플링의 양을 줄입니다(제어 및 E180G Tm은 각각 실선과 점선입니다). 이 매개변수 변경은 Tm 유연성이 증가하거나 종단 간 바인딩의 불안정성을 나타냅니다. 각 곡선은 Ca 2+ 감도의 차이를 강조하기 위해 최대 장력으로 정규화되었습니다. (NS) 이 모델은 E180G Tm 돌연변이가 연축 역학에 미치는 영향을 예측하는 데에도 사용할 수 있습니다. (NS) 이상화된 Ca 2+ 과도 현상에 대한 응답으로 경련이 유발되었습니다(표시되지 않음). 시뮬레이션은 돌연변이가 확장기 긴장을 증가시키고 알려진 표현형과 일치하는 수축과 이완의 속도를 모두 늦추는 것을 시사합니다[17].

껍질을 벗긴 근육 데이터에 맞는 얇은 필라멘트 활성화의 마르코프 모델은 기능에 대한 돌연변이 단백질의 영향을 예측하는 데에도 사용할 수 있습니다. 생체 내. 모델은 측정된 Ca 2+ 과도 상태에 대한 응답으로 연축력을 정확하게 예측하여 손상되지 않은 근육의 동작을 재현하는 것으로 나타났습니다. 예를 들어, E180G 트로포미오신 돌연변이를 포함하는 근육에 대해 정상 상태 Ca 2+ 활성화 행동을 재현한 동일한 매개변수 세트를 사용하여 등척성 트위치가 예측되었습니다(그림 3NS). 정상 상태 힘-Ca 2+ 관계를 기반으로 예측된 ​​효과는 E180G 트로포미오신 돌연변이의 결과로 연축 장력이 연장되고 이완이 느려지는 것입니다. Markov 모델의 또 다른 장점은 계산 처리 용이성으로, 이는 모델이 생물 물리학적 세부 사항의 손실 없이 세포 및 심지어 전체 심장 모델에 상향 통합될 수 있음을 의미합니다.

4. 심실 근세포

각 심장 박동 동안 수축 신호는 전기 충격의 형태로 심장 근육 세포에 도달합니다. 세포 수준에서, 이 전기적 여기는 근절의 수축을 활성화하기 위해 세포내 저장소에서 세포질로 Ca 2+ 이온의 빠른 방출을 유발합니다. 전기 자극에서 힘 생성까지의 이 과정은 심장 흥분-수축 커플링 또는 간단히 EC 커플링으로 알려져 있습니다[35].

여러 세포 구조와 관련 단백질의 숙주가 심실 근세포에서 EC 커플링에 관여합니다[35]. 이온 채널과 세포막의 보조 단백질은 수축을 시작하는 막 전위의 일시적인 변화를 감지하고 전파하는 역할을 합니다. 막 전위의 변화는 L형 Ca 2+ 채널을 열어 Ca 2+ 유도 Ca 2+ 방출(CICR)로 알려진 과정에서 근형질 세망(SR)에서 Ca 2+ 방출을 유발합니다. SR의 막 결합 단백질은 세포질에서 Ca 2+ 재흡수를 담당하여 Ca 2+를 낮추고 수축을 종료합니다.

근섬유에 의한 힘 생성의 전체 과정이 EC 커플링의 일부를 형성한다고 주장할 수 있습니다. 전통적으로 EC 커플링은 Ca 2+가 트로포닌 C(TnC)에 결합하는 지점에서 완전한 것으로 간주되었지만 두 가지 관찰은 이러한 견해가 심장 근육의 행동에서 잠재적으로 중요한 메커니즘을 무시한다는 것을 시사합니다. 첫 번째는 TnC의 Ca 2+ 친화도가 액틴에 결합하는 미오신에 의해 거의 10배 증가한다는 것입니다[36]. 이것은 경련 동안 세포질 Ca 2+의 완충액으로서 TnC의 용량이 일정하다고 간주될 수 없음을 의미합니다. 두 번째 일반적인 관찰은 수많은 경우에 근섬유 단백질의 변형이 번역 후 변형[37] 또는 심근병증 관련 돌연변이[17 ]. 세포질에 TnC가 풍부하다는 것은 근섬유 Ca 2+ 감도를 수정하는 요인이 기계 전기 피드백으로 알려진 현상의 한 형태인 전체 세포에서 EC 커플링에 영향을 미칠 가능성이 있음을 의미합니다[38].따라서 여기와 수축에 의해 생성된 힘 사이의 관계에 대한 이해는 근섬유의 특성에 결정적으로 의존합니다.

전기생리학, Ca 2+ 처리 및 근섬유 수축의 표현을 결합한 통합 심실 근세포 모델은 이러한 과정 사이의 복잡한 상호작용에 대한 정량적 연구를 가능하게 합니다[39-41]. 근세포 전기생리학의 전산 모델은 수십 년에 걸쳐 진화했으며 이제 많은 이온 채널과 수송체에 대한 기계론적 설명을 포함합니다. 이들 중 가장 최근의 것은 돌연변이된 채널 단백질이 심장 활동 전위에 미치는 영향을 예측하는 데 사용됩니다[42]. 지난 10년 동안 개발된 혁신적인 수학적 접근 방식은 생물물리학적 정확도와 Ca 2+ 처리 및 CICR 모델의 계산 효율성을 동시에 향상시켰습니다[43]. 우리는 최근 Rice의 수축 모델과 결합된 개선된 CICR 표현을 포함하는 개 EC 결합 모델을 사용했습니다. . [22] 심내막, 중심근 및 심외막 근세포에서 전기기계적 이질성의 원인을 조사하기 위해 [39]. 그 연구에서 한 가지 예측은 EC 커플링의 차이만으로는 심장 외막 세포의 더 빠른 수축 및 이완 속도를 설명할 수 없다는 것이었습니다. 대신, 실험 측정을 설명하기 위해 더 빠른 α-MHC isoform의 발현 증가와 일치하는 교차교 순환 속도의 증가가 필요했습니다. 이 결과는 피부가 있는 심외막 세포에서 더 빠른 교차 다리 역학과 상관관계가 있는 돼지 심실 외심막에서 증가된 α-MHC 발현의 발견에 의해 후속적으로 뒷받침되었습니다[44].

근세포 전기역학의 통합 모델은 몇 가지 이유로 FHC 연구 영역에서 큰 잠재력을 가지고 있습니다. 많은 FHC 돌연변이는 치명적인 부정맥의 위험이 높으며[8], 근세포는 근세포 돌연변이가 심장의 전기적 활동에 영향을 미칠 수 있는 가장 단순한 시스템입니다. 근세포는 또한 연축 특성에 대한 FHC 돌연변이의 영향을 관찰할 수 있는 가장 간단한 실험 준비입니다. 일반적으로 이러한 실험에서 Ca 2+ 과도 및 언로드된 세포 단축은 FHC 연결 돌연변이 단백질을 발현하는 조작된 마우스로부터 분리된 근세포에서 측정됩니다. 무부하 단축 측정에서 수집한 연축 특성은 종종 야생형 대조군과 다르지만 유전자형에 기초한 연축 표현형의 해석은 연축을 구동하는 Ca 2+ 과도 상태가 이러한 동물에서도 변경될 수 있다는 사실 때문에 복잡합니다(예: E22K 돌연변이 MYL3 [45]). 실험을 정량적 모델 분석과 결합함으로써 경련 자체에 대한 돌연변이된 sarcomeric 단백질의 효과를 Ca 2+ 과도 현상에 의해 가해지는 효과와 분리할 수 있습니다. 예를 들어, 우리의 최근 근섬유 활성화 모델[23]은 수축의 길이 및 속도 의존성에 대한 적절한 방정식[41]과 결합될 때 측정된 Ca 2+ 과도와 세포 단축을 정량적으로 연결하는 데 사용할 수 있습니다(그림 4 전자 보충 참조 추가 세부사항을 위한 자료). Ca 2+ 처리 차이는 측정된 Ca 2+ 과도 현상에 대한 응답으로 측정된 단축을 재현하기 위해 모델 매개변수를 피팅함으로써 설명될 수 있습니다. 장착된 수축 모델 매개변수의 차이는 돌연변이 단백질에 의해 유발된 근필라멘트 활성화에 대한 기능적 변화의 특성을 드러낼 것입니다.

그림 4. 근필라멘트 모델은 살아있는 근세포에서 수축 이벤트를 재현할 수 있습니다. (NS) 측정된 Ca 2+ 과도는 시뮬레이션된 세포 단축에 대한 내부 탄성 부하를 나타내는 방정식과 결합된 근섬유 활성화 모델에 대한 입력으로 사용되었습니다. (NS) 예측된 단축(점선 트레이스)이 실험적으로 측정된 응답(실선 트레이스, 0.2% 상대 오차)과 일치할 때까지 모델에서 자유 매개변수를 조정했습니다. 25°C에서 쥐의 심실 근세포.

생물물리학적으로 상세한 전기기계 근세포 모델은 변형된 경련뿐만 아니라 Ca 2+ 과도에 대한 변경의 기초를 조사하기 위해 훨씬 더 통합적인 분석을 허용할 것입니다. Ca 2+ 처리는 근섬유에 직접적으로 의존하지 않는 비대 및 심부전의 특정 잘 알려진 적응적 변화를 겪습니다. 그러나 질병 과정 초기에 Ca 2+ 처리의 급격한 변화는 돌연변이 단백질에 의한 TnC에 의한 Ca 2+ 완충의 변화에 ​​의해 매개될 수 있습니다. 정상 대 돌연변이 단백질을 포함하는 근섬유에 의한 Ca 2+의 동적 완충을 나타내는 통합 근세포 모델은 이러한 메커니즘의 가능성을 평가할 수 있습니다.

5. 벽을 넘는 이질성

FHC 돌연변이가 심장 기능에 미치는 영향은 개별 세포의 EC 커플링 특성을 수정하는 근절(및 다른 곳)에서 단백질의 발현 및 구성에서 자연적으로 발생하는 공간적 변화를 배경으로 발생합니다[46-48]. 시뮬레이션은 수축 행동의 지역적 차이가 심장의 역학 및 펌프 기능에 결정적으로 영향을 미친다고 제안하며 [49], 이는 FHC 돌연변이가 질병 병리를 생성하기 위해 자연적 이질성을 변경하거나 다른 방식으로 상호 작용할 수 있는 가능성을 높입니다. 근세포 활동 전위의 형태와 지속 기간의 지역적 패턴은 지난 20년 동안 기술된 많은 이질적인 특성 중 첫 번째 특성 중 하나였습니다[50]. 그 이후로 이온 채널 전류 밀도[51], Ca 2+ 과도 상태[48,52,53], 미오신 이소폼 발현[44,54-56], 근섬유 단백질 인산화[57,58] 및 무부하 세포 단축[48]의 차이 ,52]에 주목한 바 있다. 어떤 경우에는 분자 수준의 변화를 각각의 심근 영역에서 분리된 근육세포 사이의 기능적 차이와 상관시키는 것이 가능했지만[44,46,59], 관찰된 이질성의 실질적인 의미에 대해서는 개별 세포의 수준.

이러한 이질성이 전체 심장의 기능에서 수행하는 역할에 대해서도 마찬가지라고 할 수 있습니다. 예를 들어, 좌심실의 바깥쪽, 심외막 영역에 있는 세포는 활동 전위와 Ca 2+ 과도 상태가 더 짧고 내부 또는 심장 내막 영역에 있는 세포보다 더 빠르게 수축하는 경향이 있습니다[48,52]. 이러한 유형의 이질성은 심장의 수축을 조정한다고 제안되었습니다[48,60]. 가설은 심외막 세포의 더 빠른 수축이 심장 주기 동안 더 일찍 활성화되는 심내막 세포를 '따라잡을' 수 있게 한다는 것입니다. 그러나 계산 모델은 이질성이 개방 모멘트뿐만 아니라 대부분의 수축기에 걸쳐 심실 변형에 영향을 미칠 것으로 예측합니다(그림 5) [49].

그림 5. 3차원 모델을 사용하여 심실 역학 및 기능에 대한 세포 유형 분포의 영향을 예측할 수 있습니다. 이 그림에서 렌더링된 시뮬레이션 데이터는 이전 연구에서 생성되었습니다(자세한 내용은 [49] 참조). (NS) 이 모델 보기는 심장 섬유의 심실 기하학 및 방향을 보여줍니다. (NS) 이 모델은 수축기 동안 좌심실(LV) 압력 파형을 예측하는 데 사용되었습니다. 여기서, 세포 유형의 생리학적 분포(기준선)는 심실이 전체 중부 심근 세포(모두 중부)로 구성된 가상의 경우와 비교되었습니다. 원은 대동맥 판막의 개폐를 표시합니다. () 두 경우는 또한 심실 벽을 통한 단면에서 여기에 표시된 심실 벽 긴장의 패턴에서 차이를 보여줍니다. 이러한 결과는 sarcomeric 돌연변이의 효과에 대한 배경으로 일반적으로 발생하는 이질성을 설명하는 것이 초기 심근 변형 표현형을 정확하게 예측하는 데 중요할 것임을 시사합니다. 파란색, 심장 내막 영역 빨간색, 중간 심근 영역 녹색, 심장 외막 영역.

어떤 경우에는 FHC 돌연변이가 표현형 변이의 흥미로운 원인이 될 수 있는 경벽의 이질적인 특성을 직접적으로 방해한다는 강력한 증거가 있습니다. 예를 들어, RLC는 심장 근육의 수축 행동을 조절하는 인산화 부위를 포함하고 있으며, 인산화 정도는 심장내막보다 심장외막 영역에서 더 큰 것으로 나타났습니다[57]. FHC 연결 E22K 돌연변이 MYL3 myosin light chain kinase에 의해 인산화되지 않음 시험관 내 [61], 생체 내 자연적으로 발생하는 기울기를 감쇠해야 합니다. FHC의 다중 규모 심실 모델을 개발하는 한 가지 강력한 근거는 심근 기능에 대한 이러한 상호 작용의 영향을 예측하는 것입니다.

6. 심근 변형의 모델링 및 측정

심장 비대는 고혈압 또는 심장에 증가된 부하를 가하는 기타 상태에 대한 반응으로 임상적으로 관찰됩니다. HCM은 좌심실 벽 두께가 증가했지만 고혈압과 같은 명백한 원인 인자가 없는 환자의 기본 진단입니다[6]. 돌연변이 sarcomeric 단백질이 유전된 ​​HCM의 주요 원인으로 확인되었을 때, 심장의 수축 장치에 대한 변경이 기계적 부하의 변화를 초래하여 비대를 유발할 것으로 예상되기 때문에 많은 사람들에게 논리적으로 이해되었습니다. 최근 몇 년 동안 비침습적 영상 연구에서 심근 긴장의 정상적인 패턴에 대한 변경이 다양한 병리에서 심장 조직의 리모델링과 일치하거나 심지어 선행하는 것으로 나타났습니다[62,63]. 이러한 결과는 FHC 환자에서 볼 수 있는 심실 비대 패턴의 표현형 다양성에 대한 가능한 설명을 제공합니다. 공간적으로 이질적인 sarcomeric 및 세포 특성의 배경에 작용하는 각 돌연변이는 다른 방식으로 좌심실의 심근 긴장에 영향을 미칠 가능성이 있습니다. 변형률과 하중의 미묘한 차이는 다양한 리모델링 표현형을 유발할 수 있습니다.

심실 역학의 다중 스케일 모델은 변경된 근절 행동과 심근 긴장 패턴 사이의 연결을 탐색하는 데 사용할 수 있습니다. 일반적인 접근 방식은 돌연변이 FHC 단백질을 발현하는 마우스의 데이터를 사용하여 사실적인 3차원 기하학 및 수축 동작을 가진 좌심실의 유한 요소 메쉬를 만드는 것입니다. 이 생쥐에서 분리된 심근의 특성을 연구하고 기계적 근섬유 및 세포 수준 매개변수 세트를 구성하는 데 사용할 수 있습니다. 이것들은 차례로 좌심실의 완전히 결합된 전기기계적 시뮬레이션에 내장되어 심근의 전체적 및 지역적 기능을 예측할 수 있습니다. 생체 내 스트레인 측정.

비대성 또는 DCM-연관 sarcomeric 돌연변이가 있는 심장의 다중 규모 모델을 구축하고 비교하는 것이 특히 유익할 수 있습니다. 해부학적 변화 이전의 어린 나이에 심장을 모델링하면 각 유형의 심실 리모델링에 고유한 심근 긴장의 패턴을 밝힐 수 있습니다. 검증된다면 이 모델은 돌연변이를 개별 세포 수준에서 심근 재형성을 유도하는 기계적 신호와 연관시키는 강력한 도구를 제공할 것입니다. 이러한 종류의 시뮬레이션은 또한 임상의가 기본 분자 병리의 존재를 비침습적으로 감지할 수 있도록 하는 새로운 영상 기반 전략을 제안할 수 있습니다.

자기 공명(MR) 영상 및 소프트웨어의 최근 발전으로 좌심실 기하학의 사실적인 메쉬를 생성하는 과정이 마우스에서도 더욱 빠르고 접근 가능하게 되었습니다[64]. 좌심실에서 심장 섬유의 방향은 심실 역학의 중요한 결정 요인이며 확산 텐서 MR 영상[65] 또는 전통적인 조직학적 방법[66]을 통해 측정할 수 있습니다. 모델 검증을 위한 심근의 국소 변형은 조화 위상(HARP) 추적이 있는 MR 태깅 또는 심초음파 변형 영상(반점 추적)을 사용하여 획득할 수 있습니다. MR 태깅과 반점 추적 모두 최근에 리모델링 및 심장 기능의 변화 이전의 시점에서 마우스의 국소 변형 변화를 감지하기에 충분히 정확한 것으로 나타났습니다[63,64]. 이는 FHC 돌연변이 생쥐가 Tardiff[8]가 제안한 패러다임에 따라 비대 및 심부전 발생 이전의 어린 나이(8주 미만)에 연구될 수 있음을 의미합니다.

최근 몇 년 동안 세포 수준 모델을 활동 전위 전파 및 심실 생체 역학 모델과 결합하는 새로운 방법이 등장했습니다. 이러한 발전은 피부 섬유 또는 분리된 심장 근육 세포와 같은 감소된 시스템에서 얻은 실험 데이터가 온전한 심장 수준에서 기능을 예측하기 위해 확장될 수 있도록 하기 때문에 중요합니다. 이 영역의 초기 문제는 길이 종속 수축 모델을 유한 요소 역학 문제에 대한 반복 솔버와 결합하여 발생하는 시뮬레이션의 수치적 불안정성이었습니다[67,68]. 순진한 커플링은 세포 전기 역학을 나타내는 미분 및 대수 방정식(DAE) 시스템이 3차원 심실 메쉬의 기계적 변형을 제어하는 ​​편미분 방정식(PDE)과 별도로 해결되는 연산자 분할 접근 방식을 통해 수행됩니다. 근절 길이와 속도는 역학 PDE에서 계산되어 시뮬레이션 전반에 걸쳐 불연속 시간 간격으로 세포 수준 DAE에 공급됩니다. 셀 수준 DAE에 의해 계산된 활성 장력 값은 동시에 역학 PDE에 전달됩니다. 반복 방식이 힘의 균형을 맞추기 위해 메쉬의 노드를 변형함에 따라 수축 모델의 길이 의존성이 각 반복마다 변경되어야 함을 의미하더라도 활성 장력에 대한 일정한 값이 가정되기 때문에 이 경우 불안정성이 발생합니다[67]. 극도로 짧은 시간 단계를 수행하거나 전체 셀 모델을 해결하는 DAE는 각 역학 반복을 통해 불안정성을 완화할 수 있지만 둘 다 계산이 불가능합니다. 대신에 셀 모델의 단순화된 형태를 사용하여 각 반복마다 활성 장력에 대한 대략적인 값을 업데이트하거나 다시 계산하는 소위 '업데이트' 방식이 사용되었습니다[49,67,68].

생리학적 부하는 좌심실 용적과 심내막 표면의 경계 조건을 순환의 집중 매개변수 시스템 모델에 결합하여 심실 모델에 적용할 수 있습니다[69]. 이것은 임상적으로 관련된 통찰력을 제공하는 지역 심장 기능의 시뮬레이션을 가능하게 했습니다[70]. 이러한 시뮬레이션은 생체 내 로딩은 동물 모델에서 측정된 것에 대해 지역 심근 균주의 정확한 검증을 허용할 것입니다. FHC의 조작된 마우스 모델에서 자주 평가되는 혈역학적 매개변수[71]도 이러한 시뮬레이션에서 생성되며 추가 검증 지점을 제공합니다.

7. 제한 사항

FHC 돌연변이를 연구하기 위해 다중 규모 모델링 접근 방식을 사용하는 것은 구현에서 해결해야 하는 몇 가지 문제를 수반합니다. 일부 제한 사항은 다중 스케일 심장 모델링의 더 넓은 분야에 공통적입니다(Clayton 참조 . 자세한 검토는 [72] 참조). 예를 들어, 심근 조직의 행동을 재현하는 세포 모델의 능력에 대해 많은 질문이 남아 있습니다. 대부분의 경우, 기능적으로 결합된 세포는 공극과 같은 조직 미세구조의 복잡한 측면과 섬유아세포 또는 기타 비-근세포 세포의 존재를 무시하는 연속체 근사를 사용하여 표현됩니다[72]. 이 규모에서 조직 이질성의 의미를 이해하려면 더 많은 작업이 필요합니다. 단일 세포 데이터로 구성된 모델이 조직에 존재하는 조건까지 항상 잘 확장되는 것은 아니라는 증거도 있습니다. Cherry & Fenton [73]은 개 심실 근세포 전기생리학의 두 가지 공개된 모델이 동일한 종의 데이터를 기반으로 한다는 사실에도 불구하고 2차원 조직 시뮬레이션에서 실질적으로 다른 나선형 파동 역학을 보여주었다는 것을 보여주었습니다. 따라서 하나의 질문을 연구하는 데 유용한 세포 수준 모델은 특히 교차 척도와 관련된 다른 질문을 처리하는 데 적합하지 않을 수 있습니다.

FHC에서 다중 규모 모델링에 대한 다른 장애물은 질병에 더 구체적입니다. 인간 집단에서와 같이 인간 FHC 돌연변이를 갖도록 조작된 쥐 계통의 표현형 변이가 클 수 있습니다(예: [74]). 심실 비대의 일관된 패턴이 없으면 지역 역학의 변화를 조직 리모델링의 국소 영역과 연결하기가 더 어려울 것입니다. 매우 가변적인 비대 표현형을 가진 균주에 대한 마우스 특정 모델을 구성하는 것이 필요할 수 있으며, 이는 필요한 비용과 노력을 크게 증가시킬 것입니다.

FHC에서 근위 사건을 연구하는 것은 나중 단계가 데이터 해석을 복잡하게 하고 표현형 변이의 주요 원인이 될 수 있는 2차 반응을 포함하기 때문에 크게 옹호되었습니다[8]. 어린 동물을 연구하면 많은 혼란스러운 영향을 피할 수 있지만 혈압 조절과 같은 일부 보상 경로는 FHC의 초기 단계에서 변경될 가능성이 있습니다. 예를 들어, 근섬유 수준에서 변경된 β-아드레날린 신호의 증거는 인산화되지 않는 미오신 RLC를 발현하는 형질전환 마우스에서 볼 수 있습니다[75]. FHC 돌연변이가 다른 근섬유 단백질의 인산화 또는 이소형 발현 프로필을 간접적으로 변경하는 경우 Ca 2+ -수축 역학에 대한 영향을 적절하게 설명하기 위해 이러한 변경을 고려해야 합니다[76].

돌연변이 sarcomeric 단백질에 대한 급성 반응의 또 다른 잠재적으로 중요한 요소는 세포 대사에 미치는 영향입니다. FHC-연관 돌연변이가 증가된 근원섬유 Ca 2+ 민감도 및 단축 속도와 같은 기능의 이득을 야기하는 경향은 질병 기전으로서 ATP의 비효율적인 사용을 암시합니다. 우리는 이 리뷰에서 FHC의 동인으로서 기계적 자극에 초점을 맞추었지만, 다른 저자들은 변경된 에너지 대사가 중심 원인이라고 제안했습니다. 이 가설은 특정 유전자 돌연변이와 무관한 FHC 환자에서 ATP에 대한 포스포크레아틴 비율이 낮다는 연구에서 시작되었으며[10], 조작된 마우스 계통에서 유사한 결과가 관찰되었습니다([77] 및 그 안의 참고 문헌 참조). 미토콘드리아 생체 에너지를 포함하는 심실 근세포의 통합 모델이 개발되었으며(예: [78]), 다중 규모 모델에서 변경된 근섬유 기능의 대사 결과를 조사하는 데 사용할 수 있습니다.

이러한 점은 모든 규모에서 모델링 결과의 신중한 검증, 특히 생체 내 FHC의 다중 스케일 모델이 유용하려면. 모델, 범위, 포함된 데이터의 양 및 유형, 검증에 사용되는 실험 프로토콜까지도 최적화되어야 다중 스케일 모델이 심근 변형의 시간 변화 패턴 또는 비대와 관련이 있습니다. 계산 모델과 실험 간의 반복은 접근 방식의 한계를 구성할 수 있지만 이러한 종류의 통합 분석을 통해 가설의 완성도를 정량적으로 평가할 수 있기 때문에 상당한 이점을 나타냅니다.

8. 결론

심장의 다중 스케일 모델은 sarcomeric 돌연변이와 부적응 비대에 선행하는 상태 사이의 정량적 연결을 제공함으로써 FHC를 이해하고 치료하는 데 있어 다음 발전을 촉진할 가능성이 있습니다.전체 기관의 기능에 대한 돌연변이 수축성 단백질의 급성 효과는 개입하는 생물학적 규모에서 정보의 양과 복잡성을 고려할 때 직관만으로는 유용한 방식으로 예측할 수 없습니다. 한편, 멀티 스케일 심장 모델은 곧 유전자형을 기반으로 비대 전 변형 패턴을 예측할 수 있을 정도로 발전하고 있습니다. 이 가설된 '비대 전 표현형'은 생쥐에서 FHC 돌연변이를 연구하는 사람들이 비대의 종말점에서 훨씬 더 이른 단계에 존재할 수 있는 보다 미묘한 기계적 변화로 초점을 이동할 수 있게 해줍니다.