摘要:時(shí)至今日,科學(xué)技術(shù)的發(fā)展能夠處理大量不同來(lái)源的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。這些技術(shù)常常被稱作大數(shù)據(jù),其開(kāi)啟了新的研究和應(yīng)用領(lǐng)域,也將會(huì)對(duì)當(dāng)今社會(huì)逐漸產(chǎn)生影響力。本文評(píng)價(jià)了應(yīng)用在食品安全領(lǐng)域的大數(shù)據(jù)及其潛在發(fā)展趨勢(shì)。在世界的各個(gè)地方,各國(guó)政府激勵(lì)源于公共資助研究項(xiàng)目的互聯(lián)網(wǎng)大數(shù)據(jù)發(fā)表。對(duì)于企業(yè)利益相關(guān)者如何處理食品安全和提出問(wèn)題,這項(xiàng)政策迎來(lái)了新的發(fā)展機(jī)遇,這在以前是根本無(wú)法實(shí)現(xiàn)的。由于大數(shù)據(jù)新的發(fā)展,應(yīng)用手機(jī)作為食品安全檢測(cè)設(shè)備和利用社交媒體為食品安全問(wèn)題預(yù)警也將成為可能。
一、引言
在全球化進(jìn)程的影響下,社會(huì)企業(yè)產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)包括商業(yè),政府,健康保健和各研究學(xué)科,比如天然科學(xué)、生命科學(xué)、工程學(xué)、人類學(xué)和社會(huì)科學(xué)。這些大數(shù)據(jù)越來(lái)越可利用化,可以被用來(lái)開(kāi)拓視野,提高決策,并且提高產(chǎn)品和服務(wù)的質(zhì)量。但是,大數(shù)據(jù)的聚集和加速產(chǎn)生,需要相關(guān)數(shù)據(jù)的有效收集、儲(chǔ)存和處理來(lái)戰(zhàn)勝挑戰(zhàn)。大數(shù)據(jù)的應(yīng)用趨于多元化,比如來(lái)源于亞馬遜網(wǎng)站的推薦系統(tǒng),可以實(shí)時(shí)預(yù)測(cè)流感的爆發(fā)。另外還有一些文章研究了大數(shù)據(jù)潛在的應(yīng)用。
“大數(shù)據(jù)”一詞很少應(yīng)用在食品安全相關(guān)領(lǐng)域,主要是因?yàn)槭称钒踩珨?shù)據(jù)和信息過(guò)于分散,主要集中于食品、健康和農(nóng)業(yè)企業(yè)。食品安全領(lǐng)域大數(shù)據(jù)的應(yīng)用需要內(nèi)部操作標(biāo)準(zhǔn)的建立和實(shí)施,以及保密性保護(hù)。傳統(tǒng)食品安全數(shù)據(jù),例如全國(guó)調(diào)控?cái)?shù)據(jù),數(shù)量相對(duì)有限,雖然在區(qū)域之間不能達(dá)到和諧,但是具有很好的結(jié)構(gòu)化。為了考察大數(shù)據(jù)方法如何能夠有利于食品安全,本文作者分析了食品安全工具的應(yīng)用,發(fā)展于不同階段的大數(shù)據(jù)研究(例如數(shù)據(jù)收集、數(shù)據(jù)儲(chǔ)存和轉(zhuǎn)移、數(shù)據(jù)分析和數(shù)據(jù)可視化)。此外,作者分析了某些大數(shù)據(jù)在食品安全中是否以及如何扮演重要的作用,同時(shí)提供了一些范例來(lái)探討未來(lái)的發(fā)展和機(jī)會(huì)。
二、大數(shù)據(jù)的定義
關(guān)于大數(shù)據(jù)的的定義有很多種。世界衛(wèi)生組織使用的定義是:新興應(yīng)用的快速收集的、復(fù)雜的數(shù)據(jù),這些數(shù)據(jù)以不可定量的兆字節(jié),拍字節(jié),甚至澤字節(jié)的儲(chǔ)存形式存在。Gartner教授在2012年描述了對(duì)于大數(shù)據(jù)的數(shù)據(jù)管理挑戰(zhàn),具有三維特性:大數(shù)據(jù)具有高容量、高速和高多樣性信息組,同時(shí)需要新的處理形式來(lái)提高決策,發(fā)掘觀點(diǎn)和過(guò)程優(yōu)化。歐委會(huì)于2014年發(fā)布了相似的定義:3V,即容量、速度和多樣性。大數(shù)據(jù)指以高速產(chǎn)生的大量的不同字節(jié)的數(shù)據(jù),其具有大量不同的字節(jié)來(lái)源。處理今天的大量和實(shí)時(shí)的數(shù)據(jù)組需要新的工具和方法,例如強(qiáng)有力的處理器、軟件和運(yùn)算法則。2015年,De Mauro教授提出大家一致同意的定義:大數(shù)據(jù)代表具有高容量,高速和多樣性三大特性的信息組,同時(shí)需要通過(guò)特殊的技術(shù)和分析方法來(lái)使其轉(zhuǎn)換為價(jià)值所在。
三、食品安全中大數(shù)據(jù)應(yīng)用
最近世界衛(wèi)生組織提出采用大數(shù)據(jù)方法來(lái)支持食品安全中面臨的決策問(wèn)題,產(chǎn)生了一個(gè)食品安全平臺(tái)“FOSCOLLAB”,對(duì)來(lái)源于不同的學(xué)科進(jìn)行整合。在這個(gè)平臺(tái)中,來(lái)源于多個(gè)企業(yè)中的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),例如農(nóng)業(yè)、食品、公共衛(wèi)生和經(jīng)濟(jì)指數(shù)被整合,通過(guò)專用設(shè)施,能夠被使用者所應(yīng)用。
(一)食品安全的數(shù)據(jù)收集
通過(guò)包含和產(chǎn)生食品安全有效信息,來(lái)區(qū)別不同類型來(lái)源,例如(在線)數(shù)據(jù)庫(kù)、互聯(lián)網(wǎng)、組學(xué)分析、手機(jī)和社交媒體。
1. 在線數(shù)據(jù)庫(kù)
為了監(jiān)測(cè)食品中有害成分的數(shù)據(jù),產(chǎn)生了許多數(shù)據(jù)庫(kù)。世界衛(wèi)生組織于2015年發(fā)布的全球環(huán)境監(jiān)測(cè)系統(tǒng)數(shù)據(jù)庫(kù)包含數(shù)以萬(wàn)計(jì)的全球監(jiān)測(cè)數(shù)據(jù)入口??紤]到其入口相對(duì)數(shù)量多,因此數(shù)據(jù)以一種邏輯化方式所結(jié)構(gòu)化,并且容易獲取。關(guān)于化學(xué)試劑性質(zhì)信息,微生物生長(zhǎng)條件和天氣報(bào)告,在食品安全研究中占有重要地位。也可以使用模型來(lái)預(yù)測(cè)某些有害成分的存在,比如小麥中的真菌毒素。這些天氣狀況報(bào)告包含許多高速產(chǎn)生的數(shù)據(jù),這些數(shù)據(jù)被收集在農(nóng)業(yè)和供應(yīng)鏈。不僅結(jié)構(gòu)化數(shù)據(jù)庫(kù)會(huì)收集食品安全事件,而且也可以通過(guò)國(guó)際食品安全權(quán)威機(jī)構(gòu)的網(wǎng)站和媒體報(bào)道來(lái)查看。而后者的數(shù)據(jù)來(lái)源是非結(jié)構(gòu)化的,并且分散在網(wǎng)絡(luò)中,很難獲取。一個(gè)相似的例子是食品污染物突發(fā)事件的登記(通過(guò)疾控中心)。這些事件也可以在網(wǎng)絡(luò)和社交媒體中找到。
2. 互聯(lián)網(wǎng)
因?yàn)榛ヂ?lián)網(wǎng)包含大量的信息來(lái)源,可以通過(guò)開(kāi)發(fā)互聯(lián)網(wǎng)來(lái)輔助風(fēng)險(xiǎn)經(jīng)理人和風(fēng)險(xiǎn)技術(shù)顧問(wèn)應(yīng)對(duì)食品安全問(wèn)題。開(kāi)發(fā)網(wǎng)絡(luò)信息采集系統(tǒng)用于在互聯(lián)網(wǎng)上查詢與食品安全相關(guān)的論文報(bào)告。這種系統(tǒng)的一個(gè)典型例子是MedISys,它屬于歐委會(huì)聯(lián)合研究中心開(kāi)發(fā)的歐洲媒體監(jiān)測(cè)系統(tǒng)。
3. 在線功能基因組學(xué)數(shù)據(jù)目錄
“組學(xué)”一詞覆蓋許多學(xué)科,包括基因組學(xué)(研究核苷酸變異對(duì)基因的影響)、轉(zhuǎn)錄組學(xué)(mRNA表達(dá))、代謝組學(xué)(代謝物水平)和蛋白組學(xué)(多肽和蛋白質(zhì)水平)。為化學(xué)安全所開(kāi)發(fā)的基于毒理基因組學(xué)的預(yù)測(cè)實(shí)驗(yàn)的主要方法,尤其是為了達(dá)到鑒定危險(xiǎn)物的目的,包含大規(guī)模的基因組學(xué)數(shù)據(jù)庫(kù),這些數(shù)據(jù)庫(kù)采集于細(xì)胞或動(dòng)物的有毒物質(zhì)的暴露。毒理基因組學(xué)的目的是闡明有毒物質(zhì)表達(dá)的分子機(jī)制和分子表達(dá)類型(比如分子生物標(biāo)記),同時(shí)能夠使用“基于動(dòng)物”和體外(細(xì)胞)模型來(lái)預(yù)測(cè)體外和體內(nèi)毒性。
4. 手機(jī)
使用手機(jī)變得越來(lái)越廣泛,新的應(yīng)用快速發(fā)展,包括食品安全和健康相關(guān)的應(yīng)用。報(bào)道顯示聯(lián)合使用智能手機(jī)和便攜式設(shè)備可以監(jiān)測(cè)(1)水質(zhì)中汞污染,(2)啤酒中赭曲霉毒素A污染,(3)食品中多種過(guò)敏原污染,以及(4)水質(zhì)和食品中微生物(大腸桿菌)污染。在手機(jī)上收集得到的數(shù)據(jù)不僅可以通過(guò)無(wú)線連接個(gè)人計(jì)算機(jī),而且能夠轉(zhuǎn)移到數(shù)據(jù)云或其他數(shù)據(jù)中心。
(二)數(shù)據(jù)儲(chǔ)存和轉(zhuǎn)移
通常來(lái)講,通過(guò)數(shù)據(jù)管理系統(tǒng)能夠達(dá)到數(shù)據(jù)儲(chǔ)存,例如MySQL, Oracle和PostgreSQL。但是,這些系統(tǒng)不足以用來(lái)支持大數(shù)據(jù)處理。對(duì)于大數(shù)據(jù)而言,需要由比傳統(tǒng)系統(tǒng)所能提供的更快的速度、更好的機(jī)動(dòng)性和可實(shí)現(xiàn)性。因此,下一代數(shù)據(jù)庫(kù)會(huì)發(fā)展非關(guān)聯(lián)的,開(kāi)放源模式和水平可伸縮性,也就是NoSQL。這些系統(tǒng)很好例子有MongoDB, Cassandra和HBase等等。
(三)數(shù)據(jù)分析
在NoSQL中,隨著數(shù)據(jù)儲(chǔ)存和轉(zhuǎn)移到處理單元之后,接下來(lái)就是數(shù)據(jù)分析。使用最廣泛的大數(shù)據(jù)分析方法分為以下兩大類:(1)推薦系統(tǒng);(2)機(jī)器學(xué)習(xí)。
(四)可視化
不同的可視化工具用來(lái)分析和總結(jié)大數(shù)據(jù),這些工具有利有弊。最常見(jiàn)的是R和Cicos. R,這是一種通過(guò)使用在數(shù)據(jù)中的開(kāi)放源程序語(yǔ)言,來(lái)可視化和分析數(shù)據(jù)的工具,并提供圖功能和網(wǎng)絡(luò)圖功能。Circos允許在循環(huán)布局中可視化數(shù)據(jù),同時(shí)開(kāi)發(fā)目標(biāo)物和位置之間的關(guān)系。該軟件成為了可視化染色體的標(biāo)準(zhǔn)。對(duì)于商業(yè)可視化軟件而言,不需要編程技能,IBM公司開(kāi)發(fā)的在線可視化處理工具 Many Eyes和Tableau都是很好的選擇。
四、食品安全大數(shù)據(jù)實(shí)例
(一)農(nóng)業(yè)鏈和食品供應(yīng)鏈
在農(nóng)業(yè)鏈,大數(shù)據(jù)可以通過(guò)有關(guān)環(huán)境因素的鏈接信息來(lái)預(yù)測(cè)病原體或污染物存在。例如,通過(guò)監(jiān)測(cè)田間作物條件,可以達(dá)到在進(jìn)入食品鏈之前,鑒定黃曲霉毒素污染增加的面積。在另一研究中,研究者以歐洲西北部的小麥為對(duì)象,通過(guò)使用大量的模型和數(shù)據(jù)庫(kù)(包括天氣數(shù)據(jù)),開(kāi)發(fā)出定量模型,從而預(yù)測(cè)小麥真菌毒素的污染。
(二)突發(fā)事件和來(lái)源鑒定
在食品安全性突發(fā)事件產(chǎn)生過(guò)程中,大量的樣品被收集和分析,產(chǎn)生大量的數(shù)據(jù)和信息,這些數(shù)據(jù)和信息被用來(lái)鑒定突發(fā)事件的來(lái)源??焖俸Y選病原體基因技術(shù)(全集因序列和下代序列)的發(fā)展,導(dǎo)致專一基因信息的收集和病原株或亞型的出現(xiàn)。例如,2011年,在德國(guó)發(fā)生的病原體“腸出血性大腸桿菌”事件,在不同面積,細(xì)菌存在的信息被收集到。健康個(gè)體的家能夠用來(lái)篩選庇護(hù)病原體,通過(guò)監(jiān)測(cè)每個(gè)家庭來(lái)篩選二級(jí)感染。在初級(jí)階段,這些監(jiān)測(cè)信息幫助檢測(cè)問(wèn)題,允許及時(shí)地提供防護(hù)性措施,最終阻止突發(fā)事件的發(fā)生。