術の発展により生物のさまざまなデータが大量に取得されるようになってきています.それは例えばさまざまな条件下の細胞や組織における遺伝子の働き方を網羅的に調べたものであったり,試験管内や生体内での細胞のふるまいを長時間の動画として観察したものであったりします.いずれにしてもそれらのデータの大きさや複雑さは人間が直感的に扱える範囲を超えており,解析にはコンピュータを有効に活用する必要があります.この計算機科学を応用して生物学の問題に挑戦する分野はバイオインフォマティクスとよばれます.私はその中でも特に,高次元の数値データである遺伝子発現プロファイルからの隠れたパターンの探索や因果関係の推定,また経時観察された画像データから,細胞の自動検出・追跡を通して異常検出や知識発見を行う方法論についての研究を行っています.


 


体内における細胞遊走ダイナミクスの解明

図1

免疫細胞である白血球は,骨髄で産生された後,全身に張り巡らされた血管を介して体内を巡回しており,生体内で感染や炎症が生じると,さらに多くの免疫細胞が骨髄腔から炎症部位に動員されます.免疫システムにおいては,様々な細胞が適切な時期に適切な場所に移動するための細胞遊走の仕組みが重要です.

免疫細胞が生体血管内を遊走する様子を観察した大量の動画を解析するための方法(免疫細胞の量や速度を抽出するための細胞の追跡アルゴリズムや血管壁への接着・浸潤といった細胞の状態を識別する方法)の開発を通して,細胞遊走のダイナミクスの解明や薬効の評価・予測に利用可能な技術の開発を進めています(大阪大学大学院医学系研究科免疫細胞生物学教室と工学研究科生命先端工学専攻物質生命工学コースケミカルバイオロジー研究室との共同研究).

 

・大阪大学未来知創造プログラム(分担)「医工情報学の連携による蛍光生体イメージング技術の開発と細胞遊走ダイナミクスの統合的解明


 


層学習(Deep learning)を用いた細胞領域の認識

ハイスループット化の進むバイオイメージング技術により,日々大量のデータが生産されています.イメージング技術は表現型を一目瞭然にしますが,見ただけでは分かり難い違いもあるかもしれません.そのため細胞の大きさや形などの情報を外観から判別する研究が盛んに行われています.ただし一概に細胞とは言っても種類によってその形や大きさは異なりますし,測定環境や装置の違いによって全く違う見た目の画像になります.そこで,近年発展の著しい深層学習の技法を用いて,人間が作った少数の正解データを教師にして,細胞領域を精度よく認識させる研究を行っています.

 

・水野雄太,瀬尾茂人,渡邊誓旅,竹中要一, 平松拓郎,後藤剛,河田照雄,松田秀雄, Deep learningを用いた脂肪組織画像における細胞の認識”, 107回数理モデル化と問題解決研究発表会(2016.3).


 


伝子機能グループの時系列解析

 


遺伝子の機能は日々研究されており,遺伝子に付加される機能情報は増加し続けています.既知の遺伝子機能情報を利用して,異なる実験条件間での遺伝子発現変動を解析する手法の一つに遺伝子機能グループ解析(Gene Set Enrichment Analysis)があります.これは,遺伝子一つ一つの発現変動を比較するのではなく,同じ機能を持つ遺伝子群が集団として変動する事象を検出する方法です.GSEAでよく利用される既知の情報としては,生物学的概念の統一的な語彙集合であるGene Ontologyや,代謝やシグナル伝達の分子間相互作用をネットワークとしてまとめたKEGGなどがあります.GSEAの方法は様々なものが提案されていますが,特に時系列データへの適用を目的とした方法を開発しています.

 

Yuta Okuma, Shigeto Seno, Yoichi Takenaka, Hideo Matsuda. “Gene Set Enrichment Analysis for a Long Time Series Gene Expression Profile”, BIOCOMP'13 (2013.7).


 


時観測蛍光画像からの細胞核の追跡

 

RGさまざまな分子や細胞を可視化するバイオイメージング技術の発展は目覚ましく,医学・生物学研究を進めるうえでますます重要性を増しています.またハイスループット化も進んでいるため,得られた画像・動画を自動的・客観的に解析するための情報処理技術の開発が望まれています.蛍光タンパク質を用いて細胞周期の可視化を行う方法としてFUCCI (Fluorescent Ubiquitination-based Cell Cycle Indicator)があり,これを用いてイメージングを行うと各細胞の細胞周期の状態に応じて赤から緑へと色が変化する様子を観察することができます.

本研究では癌細胞にFUCCIプローブを導入して観察した動画を解析するため,密集状況下で色が変化しつつ,また細胞が分裂したり死んだりするというような状況下で細胞を追跡するための方法や,また追跡結果から薬効の評価や細胞状態の変化を検出するデータマイニング手法を開発しています(大阪大学大学院医学系研究科免疫細胞生物学教室との共同研究).

 

Kohei Kurashige, Shigeto Seno, Tomohiro Mashita, Junichi Kikuta, Yoichi Takenaka, Masaru Ishii, Hideo Matsuda, “Improvement approach of cell tracking accuracy by using inter-frame information”, Bioimage Informatics 2014,P38 (2014.10)

Kojiro Fukuda, Shigeto Seno, Tomohiro Mashita, Yoichi Takenaka, Masaru Ishii, Hideo Matsuda, “An automatic event detection method using semi-supervised learning for time-lapse imaging data”, Bioimage Informatics 2014,P22, (2014.10)

・小森康祐,瀬尾茂人,間下以大,竹中要一,松田秀雄,”マルチチャンネル蛍光顕微鏡動画のためのパーティクルフィルタを用いた細胞追跡手法”, 第76回情報処理学会全国大会,5K-5 (2014.3).

・瀬尾茂人, 間下以大, 前田栄, 竹中要一, 石井優, 松田秀雄, “混合正規分布モデルを用いた経時観測蛍光画像からの細胞核の検出と追跡手法”, 情報処理学会論文誌 数理モデル化と応用, Vol.6, No.3, pp.140-150 (2013.12).


 


変量データを用いた疾患リスクの予測

 

microarray_prediction大腸癌は先進国の中で,癌による死亡の主要な原因の一つです.現在大腸癌の治療方針は国際対がん連合(UICC)TNM stagingによる病期分類をベースとして決定されています.TNM stagingによるリスク予測は正確かつ非常にロバストですが,同一ステージに分類される症例群からさらに再発危険度の高いサブグループを同定することができれば,過不足のない効果的な治療方針の選択に有用です.

そのために,マイクロアレイで測定された遺伝子発現プロファイルや,様々な臨床情報,癌マーカーの候補タンパク質の発現量といった多変量データを入力とし,特徴選択や生存時間分析などを利用して再発リスクの予測を行うモデルの構築を行っています(大阪大学大学院医学系研究科消化器外科学外科学講座消化器外科学との共同研究).

 

Nobuyoshi Kittaka, Ichiro Takemasa, Shigeto Seno, et.al., "Exploration of Potential Genomic Portraits Associated with Intrahepatic Recurrence in Human Hepatocellular Carcinoma.", Annals of Surgical Oncology, Vol.17, No.12, pp.3145-3154 (2010.12).

Atsushi Takeno, Ichiro Takemasa, Shigeto Seno, et.al., "Gene Expression Profile Prospectively Predicts Peritoneal Relapse After Curative Surgery of Gastric Cancer", Ann Surg Oncol, Vol 17, No 4, pp.1033-1042 (2010. 4)

・渡辺真, 松尾英一, 金子直樹, 森正樹, 西村紀, 竹政伊知朗, 松田秀雄, 瀬尾茂人, 松原稔哉,「マルチプレックス大腸がんマーカーパネル」, 特許出願2011-280149 (20111221), 特許公開2013-130477 (201374)


 


速シーケンサーによるトランスクリプトーム解析のための方法論の開発

 

シーケンサーはゲノム配列を読み取るための装置で,近年の性能向上により一度に数億〜数十億塩基のDNAを解読することが可能となっています.時間的にも高速かつ金銭的にも安価になってきており,ゲノム配列の読み取りの他にも,RNA-seqという遺伝子の発現量を塩基配列の読み取りによって数える方法など,ゲノムに由来する様々な現象の観測へと応用されています.

一方で,高速シーケンサーによって読み取られた情報はゲノム配列や遺伝子配列の断片的かつ大量の文字列情報であるため,どのような解析をするにも計算機とアルゴリズムが必要になります. RNA-seqによる遺伝子発現の観測データの解析では,まず読み取られた配列断片がゲノム上のどの位置から発現したかを特定する方法(マッピング)を用いて各遺伝子の発現量を定量化する必要があります.その際,選択的スプライシングにより1つの遺伝子から複数種のタンパク質が生成されるといったことも考慮する必要があります.この問題に対処するためEMアルゴリズムを用いて反復的にマッピングを繰り返す方法や,グラフ構造を用いて組織特異的な選択的スプライシングを解析する方法などを開発しています.

 

Tomoshige Ohno, Shigeto Seno, Yoichi Takenaka, Hideo Matsuda, " A Method for Isoform Prediction from RNA-Seq Data by Iterative Mapping", IPSJ Transactions on Bioinformatics, Vol.5 , pp.27-33 (2012.4).

Shigeto Seno, Yoichi Takenaka, Hideo Matsuda, “A method for analysis of tissue-specific alternative transcripts using CAGE tags”International Conference on Intelligent Systems for Molecular Biology (2008.7)

Shigeto Seno, Yoichi Takenaka, Chikatoshi Kai, et.al., “A Method for Similarity Search of Genomic Positional Expression using CAGE”, PLoS Genetics, Vol.2, No.4, pp.578-586 (2006.4).


 


ラフ構造に基づく遺伝子発現プロファイルのクラスタリング

 

 遺伝子発現プロファイルとは,主にマイクロアレイと呼ばれる装置を用いて遺伝子の発現量を網羅的に測定したデータを集積したもののことを指します.遺伝子はヒトやマウスでは約3万,実験条件は目的によって様々で例えば健常な人と患者であったり,ある種の刺激を与えてからの時間変化であったりしますが,約数十から数百になります.つまり発現プロファイルとは遺伝子(約3万行)×実験条件(数百列)の多変量データとなります.

クラスタリングは対象を,似たパターンを持ったもの同士に分類する手法ですが,同じような機能を持つ遺伝子群や,疾患のサブグループは似たような発現のパターンを示すだろうという仮定のもとに,発現プロファイルの解析にも使われます.本研究では,グラフ構造を用いた測定ノイズに対してロバストなクラスタリング手法を提案し,遺伝子発現プロファイル解析に応用しました.

 

Shigeto Seno, Reiji Teramoto, Yoichi Takenaka, Hideo Matsuda, “A method for clustering gene expression data based on graph structure”, Genome Informatics, 15(2):151-60 (2004.12 ).