樣本資料庫


我們將開發的網路平台定義為一個俱備串接第三方雲端問卷系統、受測者註冊與管理功能、留言管理功能、禮卷登入及發送功能、抽獎活動管理功能、基本統計分析查詢功能、及後台管理功能的線上平台。透過此平台,研究者可透過招面訪、電話隨機調查(RDD)及隨機發送簡訊招攬會員(此被歸類為隨機樣本),以及在PPT、line、Facebook等社群網站發送邀請函,這是網路上的自願樣本(opt-in samples)(此被歸類為隨機樣本)。用平台派送線上問卷給指定的樣本、於樣本完成問卷後發送等值禮券,並對樣本個人資料與歷次問卷填答紀錄做整理及分析。

 

一、會員招攬

為避免網路樣本的招攬,淪為沒有明確母體的非機率性樣本(即任何瀏覽到本計畫網頁,且具email帳號者皆可註冊,包含同一個自然人的多個帳號即機器人帳號(bot))。為排除不符前述資格的網路用戶,平台設計了驗證機制,使用現有的人工智慧驗證功能,要求有意註冊為受測者的網路用戶先行閱覽頁面所顯示的本計畫知情同意書及個資/填答資訊使用權限,待用戶同意後始得進行註冊。註冊時要求輸入出生年份、性別、教育程度(學歷)、居住縣市、簡單的名稱(不需是本名),輸入完成後填入手機和email聯絡資訊作為驗證依據。帶用戶確認後,平台便透過串接的簡訊發送裝置發送認證簡訊至用戶登錄之手機號碼,同一時間亦發送email至用戶的信箱作雙重確認,待用戶回傳確認訊息後便完成註冊程序,而正式成為平台的受測者之一,具有填寫問卷及獲取酬勞的資格。圖1呈現了平台作業的流程及各功能項目的支援程式/次系統。

 


圖1 平台的運作流程與外接第三方系統示意圖

 

為增加瀏覽上的安全性,平台也使用了安全性閱覽模式(Secure Sockets Layer,即安全通訊端層)並將主網站資料及備份資料分別儲存於Amazon雲端平台 (Amazon Web Services)和自設的外接NAS(Network Attached Storage)網路儲存裝置。同時,平台後台亦串接Google Analytics,為電商常用的網域分析工具,用於偵測用戶的網址來源(URL)、縣市位置、現正使用之移動通訊裝置、以及停留在平台上的時間,藉以窺知特定時段用戶的數位輪廓(digital profile),可轉化成統計分析之個人層級變數: 如活動位置、持有的移動通訊裝置類型、對平台的使用黏著度(stickiness,可作為預測回訪率的指標)。

在平台開發第一階段的驗證期間,平台曾遭遇疑似SQL隱碼攻擊(SQL injection attack)或多重帳號重複註冊的情形,但均在系統工程師的協助下排除,自啟用後已不再發生此類問題。然而,在缺乏實名制認證的情形下,的確在核對後台資料時,發現有多名用戶持有多支手機門號,以此註冊多個帳號,造成少數受測者有較高的機率被選中代表性問題。然而,經過比對後,擁有多支手機門號,源自同一個網址來源且資料高度相似的受測者僅佔總樣本的0.5至0.8%之間,不至於形成重大的抽樣誤差來源。未來仍待整合實名制認證工具來盡可能解決此問題。

 

二、分層抽樣及網路調查軟體

    通過驗證的用戶即成為平台的潛在受測者,意即有大於0的機率被選中為施以問卷調查的「樣本」。若受測者被選中參與特定的問卷調查計畫(通常為特定時限內,為期2至3日,長則一週),則將收到平台自動寄發的簡訊及email邀約,受測者點選簡訊或email上的連結後便會被導引至平台網頁,進入問卷填寫。本平台的優點之一,就是可將會員資料做事先的分層(依據性別、年齡與區域分為60層),之後再依據母體在各層的百分比,分配分層成功樣本數。

    本平台第二個優點,是在問卷系統的選擇上,平台目前可支援串接的第三方問卷開發系統,包括了國內廠商自製的Surveycake及被歐美學界廣泛採用的美商Qualtrics問卷系統。兩系統均具備單題選項與題組間題目隨機化(避免受測者被選項順序或語意邏輯引導作答,損及題目實驗設計的效度)、單一受測者不重複填答、上傳圖文影像、及問卷連結設定密碼的功能,可排除未被抽中之受測者進入填答而影響施測結果。其中,Qualtrics 尚具備經緯度標註等題型功能,有助於透過長期的追蹤調查,勾勒出平台樣本群體實際生活範圍與所填之戶籍地區的距離差異,精進後續的抽樣加權與樣本個人層級特徵工程(feature engineering,即資料過濾)。也冀望在未來能持續擴增對其他問卷系統的串接能力(如google form, survey monkey等),使本平台能更廣泛的應用於國內各學科乃至於國際合作的問卷調查計畫。

    相較於傳統面訪,本平台對問卷調查上另一個貢獻在於提供了一套標準化、較少受人為因素干擾的樣本接觸及施測機制,並可隨研究需求縮放(scalable)及持續徵補樣本。在遭遇重大不可預期的外力因素(如重大傳染病或天災危機)致使面訪窒礙難行時,本平台的優勢將更易體現,而這也充分展現在本土新冠疫情爆發初期所執行的即時民調。

 

三、資料儲存

    本平台的最終目標為建構一個3萬人以上、具各類個人層級資訊、可持續追蹤的代表性樣本,對相關學科的研究作出累積性貢獻,故自計畫執行之始便著眼於個資儲存安全性的機制設計。

    平台目前採用三種儲存方式。當受測者完成問卷確認送出後,該份問卷即在第三方問卷系統的後台產生紀錄,此部分的安全性由第三方問卷公司的後台提供。在同一時間,平台後台(back end)也將以非同步(asynchronous)的方式,經由API(Application Programming Interface)程式從對方後台獲取問卷紀錄,存取於平台所屬的雲端資料庫保存。在問卷施測結束、核對資料後,整理好的資料將備份於外接硬碟中作冷儲存(cold storage)待日後需要時使用;離線的儲存方式也確保不會受到外部侵入而盜取受測者個資。此外,回收的問卷資料皆將受訪者可辨識資訊從填答紀錄中作「去識別化」處理。

 

四、樣本庫的檢核及分析

    近年國外學者使用Amazon Mechanical Turk(MTurk) 的社會科學研究越來越多,但同時也受到在外部推論效度上的挑戰(Huff and Tingley, 2015)。本計畫主持人之「人文及社會科學卓越計畫」:網路輿情與社群媒體實驗室:創新研究方法與建立動態資料庫,於計畫執行第一年(2021)夏季對相關功能進行概念化,於同年9月底展開第一階段工程,截至2024年4月30日為止,目前已徵集有效樣本數26,478個樣本(排除黑名單後)。(請參閱表1

 

表1 有效樣本數統計

資料來源:張佑宗(2024

 

在26,478個樣本庫中, 在性別方面,與母體差異不大,女性會員偏多,男性會員少一點。在年齡方面,以30-39歲的人最多,50歲以上偏少,缺高年齡層是網路調查最大的障礙之一,本計畫正在努力解決中。在教育程度上,以專科大學以上佔絕大多數,缺教育程度偏低也是網路調查最大的障礙之一,本計畫也正在努力解決中。至於居住地區,則與母體差異不大。                                                   

                                                   

                                 

                                                                                                        

圖2 樣本結構圖

資料來源:張佑宗(2024

 

兩年多來計畫主持人和共同主持人從事幾次的網路問卷調查。其中,有加入會員但並未回答任何問卷者有2,022人,回答2次以上問卷的有16,061人。未來本計畫將以兩年時間,招募至少有回答兩次以上的3萬個會員為目標。

 

 

表2 有效會員填答次數統計 

資料來源:張佑宗(2024

 

五、會員資料清理流程:

    為求線上網路眾包平台樣本代表性,需盡可能的排出單一會員註冊多組帳號的情況,以求在抽樣調查能提高作答的真實性,降低「單一個人重複填答」的可能性。在此目標之下,本平台夠過系統性的方式來排除不符標準的名單。

    首先,將註冊會員之基本資料填答做第一輪的清掃,將註冊會員之「姓名」、「信箱」與「生日」進行比對,並輔以註冊時間,將重複或高度雷同者加以排除。然而,透過這樣的作法僅有一層保障,無法確保是否能排出「一人多帳」的風險。

    其次,將線上調查的結果輸出,透過比對填答紀錄的IP位置與所填寫的聯絡信箱來排除多次填寫的會員。此一作法,除可以排除重複註冊的會員之外,亦能減少在抽樣時單一家戶(社經背景相似者)被重複抽中的情狀(使用家用WiFi填寫會是同一IP位置),提高抽樣後的樣本代表性。(圖3勾勒整個程序)

 

圖3 會員基本資料清理流程圖

資料來源:張佑宗(2023)。

 

六、不同調查方法樣本結構之比較

    針對不同調查方法所得出的樣本結構,我們以2023年假訊息年度調查計畫(台灣事實查核中心)與2023年執行完畢的亞洲民主動態調查:台灣地區調查計畫(以下簡稱ABS)作比較,表3顯示,在性別的比例上,網路調查、家戶電話調查與面訪調查,與母體資料的差異不大,面訪調查結果的差異稍微大一些。

 

3  成功樣本性別的比較

資料來源:2023年假訊息年度調查(台灣事實查核中心補助); 2023年亞洲民主動態台灣調查計畫(ABS,國科會補助)。

 

4顯示網路調查樣本的年齡層多半分布在49歲(中壯年)以下,熟悉網路、移動通訊產品的世代,尤以40歲以下為多,60歲以上的樣本較稀少因招募困難。家戶電話調查則相反,年齡比較偏大。兩者一比一比率合併起來的混合調查,結果已接近於母體分布。至於面訪調查,則與母體較為一致。這裡有一個問題可以討論,在面訪調查中,通常會有一成左右的人回答不知道或拒答者,這些人通常的年齡的偏高。因此,混合調查與面訪實際得到的結果,兩者之差的差異應該會縮小。

 

4 成功樣本年齡的比較

資料來源:2023年假訊息年度調查(台灣事實查核中心補助); 2023年亞洲民主動態台灣調查計畫(ABS,國科會補助)。

 

5顯示不論是網路調查樣本或是電話調查樣本,所訪問到的教育程度都偏高。至於面訪樣本,雖然在低教育程度的人多了一倍,但教育程度也有點偏高,有將近六成的人具大專以上的教育程度。

 

成功樣本教育程度的比較

資料來源:2023年假訊息年度調查(台灣事實查核中心補助); 2023年亞洲民主動態台灣調查計畫(ABS,國科會補助)。

 

6顯示不論是網路調查樣本、電話調查樣本或是面訪樣本,居住縣市的差異不大,也與母體接近。這是因為這三種調查在抽樣設計時,就可控制居住區域。

成功樣本居住縣市之比較


資料來源:2023年假訊息年度調查(台灣事實查核中心補助); 2023年亞洲民主動態台灣調查計畫(ABS,國科會補助)。

 

7與表8顯示,不論是網路調查樣本、電話調查樣本或是面訪樣本三者之間,父親的省籍差異並不大。

 

成功樣本父親省籍之比較

資料來源:2023年假訊息年度調查(台灣事實查核中心補助); 2023年亞洲民主動態台灣調查計畫(ABS,國科會補助)。

 

成功樣本母親省籍省籍之比較

資料來源:2023年假訊息年度調查(台灣事實查核中心補助); 2023年亞洲民主動態台灣調查計畫(ABS,國科會補助)。

 

9顯示,除了台灣民眾黨外,成功樣本的政黨認同,網路調查和家戶電話調查之間的差異不大。其中,網路調查對台灣民眾黨的認同比電話調查多一倍,可能與受訪者的年齡有關,網路調查的樣本比較年輕。至於面訪調查與網路調查或家戶電話調查最大的差異,是在沒有黨派認同(中立選民)的比率上。面訪只有3成左右,而網路調查和電話調查各有5成左右。這是因為測量工具和調查方式所導致的差異。面訪通常攜帶卡片或平版電腦,要受訪者選擇其中一個政黨認同。

 

 成功樣本政黨認同之比較

資料來源:2023年假訊息年度調查(台灣事實查核中心補助); 2023年亞洲民主動態台灣調查計畫(ABS,國科會補助)。

 

10是比較疫苗施打,資料整理自內政部戶政司的人口統計,以及衛福部疾管局。依據該年齡層打疫苗次數的人數,除該年齡的人口,依序計算出來。從表10的統計中可以看出來混合調查的結果,和母體差不了多少。其中,未打疫苗的在混和樣本中偏低,可能與混合樣本高年齡的樣本偏少有關,尤其是70歲以上的樣本,在混合樣本中偏低,但這一層的人因顧慮疫苗後作用,未施打疫苗的人數比各年齡而言是偏高的。

 

10 成功樣本與疫苗施打之比較

資料來源:內政部戶政司全球資訊網(20234月份):https://www.ris.gov.tw/app/portal/346;衛生福利部疾病管理局112 COVID-19疫苗接種統計資料(20234 月份):https://www.cdc.gov.tw/Category/Page/9jFXNbCe-sFK9EImRRi2Og

註明: 疫苗施打次數計算依據如下:

1. 加強劑視為第六劑

2. 該年齡層已接種人數 = 接種率 * 該年齡層總人數

3. 該年齡層只接種n劑人數 = 該年齡層已接種第n-1劑人數 - 該年齡層已接種第n 劑人數

4. 只接種n劑總人數 = 所有年齡層只接種n劑人數的加總

5. 只接種n劑的人口比例 = 只接種n劑總人數 / 總人口數

6. 未接種疫苗人數 = 總人口數已接種第一劑人數