在探求大演算的過程中,我們不必辛苦從無到有。我們已經有幾十年的機器學習研究,可以從中借鑑完整全貌。尤其在這地球上最頂尖聰明的人,全都把自己的生命奉獻於發明機器學習演算法,而且有的人甚至聲稱,他們已經握有一個通用的學習器。雖然我們將站在這些巨人的肩膀上(因為後人的學識是建築在前人的學識之上),但是對於這樣的聲稱,我們半信半疑。

這樣一來,就產生了一個問題:我們如何知道,何時我們已經真正找到大演算?當相同的學習器只有參數的改變,而且除了數據資料以外,只需要輸入最小量的學習範本,就可以和人類一樣,理解影音與文件內容,這樣的學習器並能在生物學、社會學及其他科學領域,做出重大的新發現。顯然,在這種標準下,目前還沒有任何學習器已經被證明就是大演算,即使在不太可能的情況下,已有能解決某領域的演算法存在,仍不足以承擔機器學習統一理論的大局。

最重要的是,在每一個新問題上,大演算是不需要從頭開始的。或許上述我們所要求的這個門檻可能太高了,所以對於任何學習器來說,很難符合這些要求標準,而且學習器肯定和人們所做的很不一樣。舉例來說,語言並非在無塵的真空中進行學習,如果我們無法擁有這個世界涉及到它的相關知識,我們就不可能理解一個句子的句義。因此學習閱讀的時候,大演算可以依靠之前累積的學習基礎,去看、去聽,並去控制一個機器人。

同樣地,一位科學家不只是一味地將數據資料套用到模型中,他還是可以利用自己在這個領域的所有知識,對這個問題產生影響。因此在進行生物學的探索時,大演算可以先讀取它想要了解的所有生物知識,依靠以前已經學到的基礎進行判讀。大演算不只是一個數據資料的被動消費者,它還可以與所處環境進行互動,並積極尋求它想要的數據資料,就像英國實驗室的機器人科學家亞當一樣,或者像是任何一位孩童,學習探索他的世界。

由於在機器學習領域存有許多競爭的思想學派,所以我們在大演算的尋求過程,可以說是相當複雜,但也因此變得十分有趣。這些主要的學派包括符號理論學派(Symbolists)、類神經網路學派(Connectionists)、演化論學派(Evolutionaries)、貝氏定理學派(Bayesians)和類比推理學派(Analogizers)。每個學派都有一套核心理念,以及一個它最關心的特定問題。不過它已經針對這個特定問題,基於其相關領域的科學概念,找到一個適合的解決方案,並且擁有一個主要的演算法,可以適度體現它的機器學習行為。

對於符號理論學派來說,所有的智慧可以被簡化成操縱符號,就像數學家求解方程式的過程,是透過用其他表達式來替換表達式的方法。符號理論學派明白,你不能從頭學起,你需要一些初步的知識,與數據資料相配合。符號理論學派們已經找到了如何將先前存在的知識納入學習,以及如何快速地將不同的知識進行結合,以解決新的問題。他們的主要演算法是逆向的演繹法(Inverse Deduction),透過這種演算法可以找出哪些知識是欠缺的,以便能做出邏輯的演繹推論,然後使其盡可能地被通則應用。

對於類神經網路學派來說,學習就是人類大腦所做的事情,所以我們需要做的,就是對大腦進行反向工程。大腦的學習是透過調整神經元之間的連結強度,而關鍵的問題是找出哪些神經元的連接,必須對哪些錯誤負責,並依此對應地改變它們。類神經網路學派的主要演算法是倒傳遞理論演算法(Back propagation),它會比較系統的輸出與期望的輸出,然後依次改變一層又一層的神經元連結,以便使得輸出結果可以更接近於它應該呈現的。

演化論學派則認為,所有學習之母就是物競天擇。如果物競天擇可以造就我們,那麼它就可以造就任何事情,而我們所需要做的,就是在電腦上模擬它。演化論學派所解決的關鍵性問題就是學習的結構,不只是調整參數而已,就像倒傳遞理論演算法所做的,可以創建一種能夠讓這些調整進行微調的大腦。演化論學派的主要演算法是一種遺傳程式規劃(genetic programming),就像大自然會交配與演化生物一樣;同樣地,遺傳程式規劃也會以相同的方式,繁衍與演化電腦程式系統。

貝氏定理學派最關注的課題就是不確定性。這門學派主張所有學到的知識都是不確定的,而且學習本身就是一種不確定的推理形式。那麼這個問題就變成如何處理雜訊、不完整,以及相互矛盾的資訊,而不會造成分崩離析。解決的辦法就是機率推理,而主要的演算法是貝氏定理與其衍生物。貝氏定理告訴我們如何把新證據轉化為信念,而機率推理演算法則盡可能有效地做到這一點。

對於類比推理學派而言,學習的關鍵是認識各種情況之間的相似之處,從而推斷其他情境的相似地方。如果兩位患者都有相似的症狀,也許他們患有相同的疾病,問題的關鍵是要判斷兩件事情之間是如何相似。類比推理學派的主要演算法就是支持向量機(Support Vector Machine,簡稱SVM),它可以找出哪些經驗是需要記住的,以及如何結合這些經驗,做出新的預測。

針對各個學派的核心問題,每個學派都有提出相對應的解決方案,這些解決方案都是相當卓越,且得來不易的進展。然而真正的大演算,是必須同時解決這5類問題,而不只是1個。例如:為了治療癌症,我們需要理解在細胞中的代謝網路,哪些基因會控制其他基因,蛋白質控制因而會產生哪些化學反應,以及添加一個新分子的組合會如何影響網路。此時,機器學習若必須試圖從頭開始學習所有的知識,忽略生物學家已經煞費苦心,累積了幾10年得來的所有知識,那麼這種機器學習必定是愚蠢的。符號理論學派知道如何利用從DNA 序列測定儀、基因表達微陣列(gene expressionmicroarrays)等所取得的資料,結合這方面的知識以產生結果,這種結果是你不可能單獨取得的。但我們藉由逆向演繹所獲得的知識是純定性(purely qualitative)的,我們需要學習的不只是誰與誰進行互動,還要包括互動多少次,而這些都是倒傳遞理論演算法可以做到的事情。

然而無論是逆向演繹或倒傳遞理論演算法,若沒有一些相互作用與參數的基本結構,兩者將會迷失在機器學習的空間裡,不過遺傳程式規劃可以彌補這個問題。在這一點上,如果我們有完整的代謝知識,並且擁有給特定病患的所有相關資料,我們就可以找出一種針對他的治療模式。但在現實生活中,我們所擁有的資訊總是非常不完整的,甚至在某些地方並不正確;儘管如此,我們仍舊需要取得進展,這就是機率推理為什麼存在的理由。在最困難的情況下,病人的癌症看起來跟以往的癌症有很大不同,所有我們以前學過的知識,都不足以理解判斷。此時,基於相似性的演算法(Similarity based algorithms),可以在表面上看起來非常不同的情況之間,尋找類似之處,並且專注於他們基本的相似點,忽略其他剩餘的地方。

在本書中,我們將會把所有的這些功能綜合起來,提出一個單一的演算法:

我們的探索追求,將帶領我們跨越這5個學派的每一個領地。每個領地之間的邊境通道,是它們可能會遇到交涉與小衝突的地方,這將是這趟大演算探索旅程中最棘手的部分。基本上,每個學派都有一塊不同的拼圖,這是我們必須蒐集的。而機器學習專家在探索大演算時,也像所有的科學家一樣,如同盲人摸象,有人摸到大象的鼻子,就認為大象長得像條蛇;另一個人倚靠著大象的腿,就認為大象長得像棵樹;還有人觸摸到大象的長牙,就以為這應該是一頭公牛。所以我們的目標就是要接觸每一個領域,而不輕易妄下結論;一旦我們已經接觸了所有的領域,我們會試圖盡量讓整隻大象原貌重現。雖然我們也很難看出,如何將所有的零碎部分組合成一個解決方案,有些人甚至認為這是不太可能的,但這就是我們即將要做的事情。

雖然我們即將推演的演算法,還不算是真正的大演算,深究其原因,我們後面會做說明,但這個演算法和其他任何的演算法相比,的確是最接近大演算的。而且我們會一路蒐集足夠的財富,讓大富豪科里瑟斯(Croesus)稱羨。儘管如此,期待這本書只是大演算傳奇的第一部曲。而第二部曲的主角就是你自己,親愛的讀者。

你應該選擇並接受的使命是繼續走完剩下的路,並且帶回獎項。我將會是你在第一部曲中謙遜的導讀人,從這裡引領各位到已知世界的邊緣。我是否聽到,你認為自己對機器學習還不是很了解,或者演算法算不上是你的強項?不要害怕。畢竟電腦科學還是很年輕的學科,不像物理學或生物學,你並不需要一個博士學位才能展開一場革命。只要問問看全球富豪微軟總裁比爾.蓋茲、Google 共同創辦人謝爾蓋.米哈伊洛維奇.布林(Messrs. Sergey Brin)和拉里.佩奇(Larry Page)或臉書創辦人馬克.祖克柏(Mark Zuckerberg)就會知道。洞察力和堅持才是最重要的。

(圖:達志影像/美聯社資料照片)

作者:佩德羅.多明戈斯(Pedro Domingos)為電腦工程博士,現任華盛頓大學電腦工程系教授。

(本文摘自三采文化出版的《大演算:機器學習的終極演算法將如何改變我們的未來,創造新紀元的文明?》一書)

微軟公司共同創辦人比爾·蓋茲在今年6月時,推薦了佩德羅·多明戈斯(Pedro Domingos)的《The Master Algorithm》(大演算),他還曾說:「在某些知識領域,機器將在10年內變得比人類更聰明。」   圖:三采文化提供