按照往年慣例,《數位時代》每年的三月號封面專題故事,都會針對網站排名出 100 強,找到該年最受臺灣民眾歡迎的 100 個網路服務;我們關注這些新進榜或跌落榜的服務,偏向哪些類型與商業模式;並從中發掘科技進步下,從技術面到應用面的使用者的應用趨勢。
過去幾年來,這樣的排名工作開始碰到越來越複雜的挑戰。首先,智慧型手機所帶來一連串行動裝置的普及與行動網路的應用,在過去的執行方法中,無法取得相關資料,會造成排名偏差的問題。
再者,隨著載具與技術都多元,民眾可以透過有線網路、無線網路或3/4G行動通訊網路來使用網路服務,網路服務也因為載具更多元化發展,許多服務都得提供原本的桌上型 Web 介面,還同時要有 mobile web (或更先進的響應式網頁設計 Responsive Web Design),可能也會針對不同平台有 App,許多網路服務可能還不止一支 App。
當然,不只臺灣,全球都因為載具、技術與服務入口的持續性變化,複雜化了原本網路監測的工作。
網路監測的挑戰
網路監測就好像監控大家的行為一樣,你想要知道大家都去哪裡買飲料,你可以從大家出發買飲料使用的交通工具上觀察(例如:透過在使用者的瀏覽器安裝工具列或應用程式,來追蹤使用者所使用的服務,回傳給追蹤的主機),你可以在所有你知道的飲料店裝追蹤監視器(在網站端裝追蹤碼,當使用者連上服務時,一併通知負責追蹤的主機),可能還有一種方法可以知道:你可以在大家要去買飲料時必定會經過的路口攔檢,問他們從哪裡來,要去哪裡,來得到受歡迎飲料服務提供商的排名數據。
在業界上,傳統被公認好用的工具服務都正在努力演化往這些方法上前進,Alexa 可以透過願意安裝他們所研發的 Chrome/Firefox/Safari 工具列(toolbar)或延伸工具(extensions)的使用者資料來知道使用者數據(在要去買飲料的人所使用的交通工具上裝會回報的監測裝置);Alexa/Comscore/Google Analytics 等網站主常用的工具,也提供了免費或付費方案的追蹤碼服務來進行網路監測(在飲料服務商那裡裝監測工具)。
瀏覽器開發方本身,也可以透過為了要能夠知道如何建議你快速找到網站並預載來加快使用者體驗,而蒐集這方面的資料(交通工具提供商可能自己也會準備工具)。也有一些新的挑戰者出現;App Annie 透過自行的開發者監測工具與監測主要的 App 商店所公布的數據資訊整合後給出 App 排名的趨勢(有一些飲料可以透過水管直接裝到你家裡,只有跟你家連線的水管公司才會知道排名);有時候你也可以透過 Google Trend 或 Bing Trends 知道現在民眾的關鍵熱搜字排名,猜到他們也許都會去到哪些服務上。
上述許多服務,大多數都依賴著各自維運的使用者群體、網站主客戶、廣告主報告或精準行銷建議等方法來生存,樣本結構、統計模型與參數設定通常都是這些服務的重點知識,每個服務所反映出來的造訪數字,也都會隨著其相關的技術而有不等的排名差異。
回到《數位時代》做排名 100 強的初衷,想要知道該年度最受臺灣民眾歡迎的 100 個網路服務來說,怎麼取這些不同的方法與指標差異之間的數據作為工作結果就是一個很大的挑戰了。
數據來源與研究方法上的綜合考量
「受到民眾歡迎」,定義為比較嚴謹的計算數字之後可能有許多不同的指標;主要通常是:取樣期間每天的平均累積不重複造訪者數、每使用者平均瀏覽頁數、全網站的平均造訪時間,或平均頁面停留時間等等。這樣的指標分類在傳統的網路服務已經夠用,但在我們提到行動裝置普及所帶來載具、技術與服務入口的快速變化下可能開始不太夠用,目前傳統的追蹤方法下,我們不容易看到使用者在玩手機網路遊戲的資料、不容易看到開了軟體或 App 但沒開瀏覽器在看串流、聽音樂甚至直播、也很難分辨出民眾到底怎麼在不同的網路環境下切換使用這些服務。
因此,《數位時代》的編輯台決定大膽嘗試一個新的研究路徑,以上面提到的其中一種研究方法:與政府所公布主要擁有臺灣頻寬服務的數據服務提供商合作,全面檢視其用戶請求不同網路服務的紀錄,來得到受到臺灣民眾所歡迎的網路服務排名數據。
我們與中華電信數據分公司合作,透過雙方所組成的工作組,全面性的檢視這些網路服務請求的記錄進行排名,整理以月為單位所累積的資料分析,進行實際計算前測,並以資料時間區間內所擷取的服務或 apk 等進行比對,整理這些網路服務在提供服務時(可能是直接網頁服務,也可能是 API、圖床或其他工具)所使用到的網域、CDN、或甚至純 IP 主機群,歸納整理出一份網路服務清單;再以本次取樣時間區間內以千億筆計的總數據,進行多回合的重複驗算,每次驗算都透過前次的計算結果排名,持續學習整理、歸納、剔除,成為下次整合的網路服務清單。最後,在正式演算裡,歸結出分別以寬頻與行動網路連線為主的網路服務排名資料。
什麼是流量?
在此,需要對讀者特別解釋「流量」的定義。「流量」,全稱「網路流量」(Network Traffic),通常指在某個時間點上資料流經網路的總量。
通常的常見的衡量方法,主要抓取來源 IP 或網址、請求 IP 或網址、走的通訊協定(Protocol)或連接埠號(Port number)等來計算網路上的動作。我們將這樣的方法簡單描述為網路請求數。
排名的結果,則因為直接包含有各式各樣的網路服務,原本的「網路流量」就被簡化為「流量」作為此次的標題名稱。在衡量上,因為不計算每次請求之後回覆的封包大小總量,所以這裡的流量並非指總的網路資料數據量,所以就算影音串流(除非你自己是直播主,需要上傳影音,會有比較大的請求量,但在計算上仍不是計算封包大小)會不斷的回傳大量影片數據給你,但這個「流量」不等於「總數據量」。
網路服務請求,比較像是傳統在計算的網路服務受歡迎程度的其中一種指標:hits (對網站的請求數;抱歉,我們還沒能找到很棒的中文翻譯),這個指標的優點是:我們會實際知道一個使用者針對某個網頁連結的可能一個點擊(click),會對網站的伺服器產生多少請求數;而缺點正式優點的反面:什麼請求都計,所有針對主要網頁、圖片、影片或為提供該服務所需的函式庫的請求都被計算在內。
但計算網路服務請求還有一些優勢足以彌補此點,如果是持續性的服務,例如音樂或影音串流,或是遊戲的來回互動,因為持續性的請求,研究者就有機會捕捉到這個使用者是否持續在同一個服務上待了比較久的時間,也可以透過固定時間內的平均請求次數,來推得可能的用量;這是在技術層面上,針對不同的網路服務與協定下,不一定能得到完整的使用者工作階段下變通選擇,當然這樣的選擇可能也會有技術演進的干擾而成為研究限制,例如:能夠提供較高壓縮率的串流服務所需的請求數可能就會比較低。
研究限制與期許
這個大膽嘗試研究路徑當然還有許多限制,或需要改進的地方,例如:我們希望可以與更多的數據服務提供商合作,最終擁有相對更完整的研究數據,覆蓋到超過 9 成以上的台灣地區網路使用申請戶數(無論是寬頻或行動用戶)。
我們希望可以改進上述服務清單的在研究時間區間內的正確比對度,提高網路服務清單的即時性。我們也希望可以有更多關於用戶樣貌與受歡迎網路服務間的資訊,透過觀察這些樣貌分布,更瞭解不同網路服務的發展趨勢。
這次的嘗試,是《數位時代》的編輯台的一個重要測試,透過媒體研究團隊、專家與數據來源方的合作,以更專業的分析方法與判讀能力,來共同面對異質化、具規模的數據,前處理、演算、分析與判讀,讓數據說話,產生意義。我們希望透過這次的研究成果,來讓不同的數據來源、研究方法與指標所帶出的結果判讀上,能夠有更多對話的可能。以上文章來自http://www.bnext.com.tw/article/view/id/38818?utm_source=dailyedm&utm_medium=content&utm_campaign=20160303