第72章 教育數(shù)據(jù)挖掘
許是前一天下午睡覺摸魚被周詩亦逮個正著,李洛今天一上午都在亦舟上躥下跳,抓人開會請教技術(shù)問題。林語一直溫溫柔柔地回答著,讓李洛很是滿意。
李洛順著筆記問道:“我不太理解的是,教育數(shù)據(jù)挖掘(Educational Data Mining,EDM)和學習分析技術(shù)(Learning Analytics,LA)的主要區(qū)別在什么地方呢?兩者不都是利用學習過程中產(chǎn)生的大量數(shù)據(jù)來分析反饋學習成果嗎?”
李洛和涂世欣正擠在林語的卡座旁,各自抱著電腦做著會議記錄。
林語的辦公桌上整齊地疊放著各類書籍和論文資料。涂世欣掃了一眼,書籍包括了計算機數(shù)據(jù)結(jié)構(gòu)、算法、圖論、離散數(shù)學、概率論和統(tǒng)計學、機器學習等等科目。桌子右上角邊上還堆放著各種打印好的文獻,用彩色標簽分門別類地歸檔了。
涂世欣低下頭,瞄了一眼自己靠放在桌角地上的黑色書包,里頭幾份打印資料毫無章法地穿插在一起,一本隨身背著英文原版《大空頭》是李洛推薦的金融趣味科普讀物,書角都磨破了,但是自己從來沒能一口氣讀過十頁以上。他突然對于自己能有這份工作倍覺珍惜,感激地瞧了李洛一眼。
林語笑了笑,解釋:“你提到的這點,正是二者共通之處。至于區(qū)別,從研究方法上來說,學習分析技術(shù)更注重運用統(tǒng)計學手段主觀地分析數(shù)據(jù)、人為做出推斷,為傳統(tǒng)教學方式配備了數(shù)據(jù)反饋作為支持;而教育數(shù)據(jù)挖掘強調(diào)自適應,會傾向于使用無監(jiān)督或者半監(jiān)督的機器學習算法。
“從應用角度來說,學習分析技術(shù)的主要目的是對學生的學習結(jié)果進行測驗和監(jiān)控,為教師提供更詳細的學生數(shù)據(jù),從而改進教學方法。而教育數(shù)據(jù)挖掘更注重學習行為和學習過程,意圖對行為本身進行量化分析。如果你感興趣可以去找一下卡耐基梅隆大學教授Ryan Baker的論文,里面有相當詳盡的對比?!?p> 除了那教授的名字涂世欣沒能聽清楚,他飛速地把這幾句話一字不差地敲在了電腦上。偶爾他打字的速度跟不上林語說話的節(jié)奏,林語還貼心地放慢語速,等了等他。
涂世欣敲完一段后,偷偷瞄了一眼李洛的屏幕,發(fā)現(xiàn)李洛只是簡略地記了兩行。
“學習分析技術(shù)(LA):人為分析、主觀、輔助教學手段。”
“教育數(shù)據(jù)挖掘(EDM):自適應、無監(jiān)督模型、行為數(shù)據(jù)挖掘。”
在最下面,李洛記下了“Ryan Baker”的名字。涂世欣又快速把這位教授的名字補填在了自己筆記的空檔里。
李洛好奇地問:“可不可以給我講一個教育數(shù)據(jù)挖掘在行業(yè)里具體應用的例子呢?”
林語點頭,“比方說,現(xiàn)在有一個選擇題有四個選項,C是正確選項,其他都是錯誤的。傳統(tǒng)的考試批改方式,老師會這么判斷:如果學生選擇了C,他對這個知識點的理解就是正確的;沒有選擇C,則判斷學生還沒有熟練掌握這個知識點。”
“嗯!”李洛睜著大眼睛十分感興趣。
林語笑著繼續(xù)說道:“考試排名依照答題結(jié)果來評分,無可厚非。但也許有的同學偶爾粗心,實際上扎實地學懂了這個概念,卻手滑填寫了B作為答案;也有同學只是運氣很好,隨機選了個C,恰好答對了。學習系統(tǒng)接下來該如何自適應調(diào)整個性化的學習路徑,還是需要AI形成更深層次的判斷?;谪惾~斯網(wǎng)絡的學生知識點追蹤模型,可以根據(jù)測試題前后其他習題之間的聯(lián)系來推測學生是否真實掌握了這個知識點,從而盡量避免無效的學習時間,也盡量防止被遺漏的知識點?!?p> “哇,這么厲害?”另外二人異口同聲地感嘆道。李洛好奇地看了一眼實驗室的方向,問道:“那我可以試一下嗎?你們都有什么科目的測試題?”
涂世欣戳了戳李洛,“洛姐,時間有限,人家還有其他工作呢?!?p> “哦,對不起?!?p> 林語笑著說:“歡迎你隨時來實驗室玩。其實我舉的這個例子,已經(jīng)是學術(shù)界二十多年前的研究成果了,不怎么前沿。今天早上周總還嫌棄我們……”
李洛已經(jīng)跳到了一下個問題:“剛才你提到的貝葉斯知識追蹤,實時調(diào)整學生學習路徑,其實要優(yōu)于GRE、ACT這種考試測評體系,因為后者僅僅是基于單項回答結(jié)果,而不基于知識網(wǎng)絡,對嗎?”
這個問題提得不錯,林語坐直了些,解釋道:“你說得很對。GRE、ACT只是根據(jù)學生每道題是否回答正確,從題庫中調(diào)出相應難度的題。而我剛才所說的,能夠綜合整體知識圖譜,推薦優(yōu)化的學習任務?!?p> “明白了。”李洛點頭,“還有一個問題。之前也討論過圖形編程工具的專利收購的事宜,所以我想再跟進一下公司本身各部門的知識產(chǎn)權(quán)保護情況。這幾個月來,有沒有發(fā)生什么變動?算法技術(shù)方面,專利管理還是各部門獨立負責的嗎?”
林語說:“我們也在考慮是否應該將技術(shù)專利集中管理起來,統(tǒng)一公司的專利質(zhì)量。但是目前仍舊是各技術(shù)團隊自己負責?!?p> 她的回答相對簡潔,于是涂世欣在電腦上寫下:“目前各技術(shù)團隊獨立管理專利。”
可是他看到李洛在電腦上記錄了很長一段話:“繼續(xù)跟進與收購目標企業(yè)的知識產(chǎn)權(quán)整合策略,技術(shù)重疊度、集中管理或是業(yè)務單元管理模式、國家/地區(qū)應用范圍等問題。與律師團隊保持聯(lián)系。”
涂世欣覺得李洛還不如帶個錄音筆,或許比帶著自己更有用!
李洛這時候又問:“最后一個問題。目前數(shù)據(jù)模型架構(gòu)上,有沒有什么潛在的風險或是困難呢?”
林語此時面露難色,沒有直接回答。
李洛考慮到她作為技術(shù)人員,可能拿不準什么內(nèi)容可以和外人說,哪些方面不能提,于是解釋道:“這只是投資人通常會有的考量之一,畢竟算法是你們的核心。比如說最早來亦舟的項目時,Allison和我提過,業(yè)界有一些領(lǐng)頭企業(yè)在研究通過捕捉學生的注意力、情緒等等來分析學習積極性和知識趣味性。但是會有潛在的難關(guān),比如說面部微表情的捕捉、動作追蹤等等。我想問的……”
隨著李洛的敘述,林語的表情越來越委屈,眼眶竟然紅了起來。李洛趕忙住了嘴,愕然地看向涂世欣,用口型問:“我說錯什么了?”