隨著美國大選日逼近,每天都有新的民調浮現。各國觀察家們發現,這次大選民調與4年前的走勢非常相近。4年前開票結果推翻絕大多數民調預測的震驚結局,也讓人對當前的民調半信半疑。分析大數據新聞的美國媒體《Datanami》總編伍迪(Alex Woodie)稍早撰文指出,系統誤差(Systemic Errors)沒有解決,可能使民意調查的預測力比2016年還要差。

伍迪指出,所有民意調查均會出現統計錯誤或隨機錯誤。設計者可以藉由增加樣本數來減少統計誤差,但永遠不能完全消除這些誤差。好的調查單位會公開他們的誤差範圍(通常在3%到6%),並在公佈調查結果時揭露這項資訊。

但是在2016年,民意調查人員無法解釋統計誤差以外的其他誤差來源,也無法說明所使用的數據和統計方法中的系統誤差。追蹤各種政治民調的數據分析公司賽仕電腦軟體(SAS Institute Inc.)全球業務負責人本內特(Steve Bennett)表示,這些系統誤差使2020年大選難以預測。

他說:「這些系統誤差所面臨的挑戰是,您通常無法完全估計它們的嚴重程度。」 「您真的不知道,這會帶來挑戰。」

當前投票以及2016年進行的投票導致系統誤差的一個原因是無法準確掌握誰將在選舉日實際出席投票。拜武漢肺炎疫情所賜,這次更難掌握誰會郵寄選票或在投票站投下選票。

民調使用的統計模型主要基於先前選舉的人口統計結果。 2016年他們高估了非裔選民出門投票的意願,原因可能是前兩次大選非裔在選票上有歐巴馬時傾巢而出。民調也未能準確掌握沒有受大學教育的白人選民之投票意向。同樣是共和黨總統候選人,他們在2008年對羅姆尼以及2012年對羅姆尼的支持都不高,但在2016年卻已相當大的比例支持川普。

本內特說,民意測驗者用來確定可能的選民的統計模型在2016年沒有成功,在2020年很可能將再次無法準確預測的實際選民。他說,2016年的民意測驗的缺點如今仍然存在。

本內特說,以前可以依靠過去的3到4次選舉來預測當前選舉中的投票率和選民模型。但這個方法在2016年失敗,在2020年也很可能會再次失敗。

系統誤差的另一個來源是川普的選民中有一群不表態的,或者在接受民調時會說謊的。本內特研究發現,這些選民會讓調查的結果失準2%至6%。

本內特指出,川普的選民不願意告訴民意調查公司,甚至不告訴鄰居他們其實支持川普。

Qlik首席數據官多士桑拓斯(Joe DosSantos)則指出,大多數主要民意調查仍然是通過電話進行的,但這已成為一種不可靠的方法,無法獲得統計上相關的人口樣本。他說,這是因為一般來說,通過電話進行民意調查的人都比現有人口年齡大,並且傾向於向左傾斜。

多士桑拓斯指出,25歲左右的年輕人幾乎都不會接起不認識的人打來的電話;70歲的人則每通電話都會接起來。這樣進行的民意調查的本質上並不真正有效。

目前,大多數成年人都擁有手機,但根據法律,手機號碼是私人的,不會刊登在電話號碼簿,而電話號碼簿偏偏就是做民意調查時最倚重的抽樣工具。

伍迪指出,想預測誰會當選,越來越不是靠問受訪者打算如何投票,而是要透過分析社群媒體貼文等大數據,來掌握人們的投票意向。