1、數據的來源
有種觀點認為大數據的來源是業務系統,大數據平臺只是順便把這些數據收集起來。這樣做不為數據的收集產生額外成本、也不影響原有業務系統的運行。但是,各個業務系統中的數據,往往不是為了分析目的而建立的,關聯關系是丟失的。這樣,數據中很多的價值就失去了。本人的觀點是,如果這種觀點成立,建立業務系統的時候就要想到進行數據分析。否則,數據的價值就會大打折扣。未來,如果要讓數據發揮大的作用,可能要花很大的時間對某些數據進行人工處理、講專家頭腦中的知識與數據結合起來,然后入庫:如果等到分析數據的時候再做,很多信息早已丟失了。當然,這個過程本身的規范化要做好。否則甚至會把好數據變成垃圾。
2、有無明確的業務功能
工業大數據平臺有沒有明確的功能? 多數觀點認為:大數據的功能是事后分析挖掘。而針對事后分析,有兩種態度:有什么數據用什么數據、為了便于分析收集數據。我們認為,從未來的角度看,后者應該是發展方向。這時,數據的質量、完整性就變得很非常重要。
在我看來,隨著ICT技術的提升,大數據平臺很可能會成為新一代的智能監控系統(GE對飛機發動機的設想應該就是)。與傳統監控系統不同的是:平臺能記憶大量的過往案例和處置方法。未來的這種監控,很可能是為無人化、少人化、移動監控服務的。如果是這樣,就會對大數據平臺的數據質量、傳輸的可靠性和實施性產生極高的要求。換而言之,智能制造與工業大數據的相互促進,會大大拓展這個領域的發展前景。
3、大數據能獲得什么知識
人們很早就意識到:數據質量是決定于應用的目的。所以,在建立大數據平臺之前,最好能夠明確希望得到什么樣的知識,而不是泛泛地強調分析知識。我想,這些知識的一端是企業關心的結果,如質量、效率、能耗、缺陷率、作業率、設備狀態、完成時間,另外一端是與這些要素相關的原因。我們要得到的知識大概分成兩類:最初級的分析是原因與結果的關系,比如A變量與B變量的關系。但現實中,這種關系往往是很不穩定的。其他要素變化的時候,這種關系也會發生變化。所以,進一步的知識是要知道:哪些要素固定下來以后,變量之間的關系是穩定的。這些知識可以用于提高生產組織的水平、考核相關人員、發現各種跑冒滴漏、明確優化的側重點等。當然,理想的情況是分析多變量對多變量的關系。但遺憾的是,這樣的分析結果往往是可遇不可求的。
4、知識發現的人機關系問題
發現知識的過程是認識漸進的過程、是對知識可靠性把握不斷深入的過程。這個過程往往是人機交互實現的。首先,人要對可能的相關關系提出自己的想法;其次,可以通過計算機對人的想法進行篩選;接著,篩選過程中可能會出現大量難以解釋、或無法確認的東西,又需要人進行深入的對比分析:必要時甚至需要試驗和文獻分析補充數據、乃至提出新的假設。我曾經想通過找到自動化的算法,把機理不清楚的問題搞清楚。這現實中是難以實現的,F實中最好的辦法,往往只是“可靠性”的收斂速度比較快、人的工作量相對較小。我一直認為:人類分析復雜問題的能力,是計算機遠遠不及的。大數據時代我們有更多的素材,但要做得更好,需要更聰明的人來完成。當然,任何事情都有反例、特別是全體人類都非常關注的問題——這時,人類會不計代價,為機器智能做好各種準備工作。但對一般的企業,用機器代替人的分析,很可能是不合算的。
5、對概念的認識
研究工業大數據,不必糾結于數據的多少。我們關心的是:如何讓數據創造商業價值。我一直認為,現在的統計理論,主要是針對小數據集合的,比如幾十個樣本以內;幾十年前的數據挖掘方法,基本上停留在科學尺度,勉強進入技術尺度,很少成功進入商業尺度;現在的深度學習理論,則很難廣泛地進入工業領域。