透過您的圖書館登入
IP:3.21.100.34
  • 學位論文

應用實驗設計於機器學習模型優化之研究

Application of experiment design to optimization of machine learning models

指導教授 : 陳景祥
共同指導教授 : 林志娟(Jyh-Jiuan Lin)

摘要


隨著科技的發達,宣告Big-Data的時代已開始,因資料量遽增,硬體設備的進步成為一項重要的發展技術。軟體上,機器學習模型中使用核心作為平行/分散運算的方法也越來越多。但在有限的資源下,也不及資料量與運算量增加的速度。 因此,本研究想探討由於機器學習模型訓練時,超參數的設定沒有過往的經驗或固定的步驟可參考,往往透過試誤法來取得最佳解,因此帶來昂貴的時間成本。研究採用兩種的資料(IRIS、MNIST)、三種模型(類神經網路、最近鄰算法、強化學習),利用實驗設計的概念建立三種訓練模型,後續比較與不使用實驗設計方法的差別,希望提供不同於以往的暴力解,應用既有的統計方法來取的理想解,使分析者能在短時間內獲得理想模型,以利後續分析。

並列摘要


As technology advances, the BIG-DATA Era is beginning. Because the data volume is increasing so fast, hardware development becomes an importance development technology. In software, there is a growing number of machine learning models using the CPU to do the parallel computing. But with limited resources, they can not catch up the data volume and demanded computing speed. Therefore, this study wants to explore the hyper parameter optimization in machine learning model training. The optimization often uses trial and error to find the best hyper-paramater combination, but it will need a lot of time. The research uses two datasets (IRIS, MNIST) and three models (neural network, nearest neighbor algorithm, extreme gradient boosting) to compare hyper-parameter optimizations with and without using the design of experiments.

參考文獻


參考文獻
中文文獻:
陳景祥,2018, R軟體:應用統計方法, 二版,台北:東華。
方劉信, 2000,以模糊化Lenth方法在2^(k-p) 設計之應用, 碩士論文, 淡江大學應用統計所。
蔡育儒, 2014, 可處理巨量資料的平行化CHAID決策樹, 碩士論文, 淡江大學應用統計所。

延伸閱讀