容錯率，local optima and global optima

容錯率，local optima and global optima

local optima = 短期利益

global optima = 長期利益

短期利益與長期利益的平衡 : 探索與利用困境

最佳化算法 : 無法保證global optima，都是近似算法

hill-climbing : 隨機決定要上還下/隨機決定從哪裡開始
GA : 計算適應程度/選擇優秀個體/交配/變異
SA : 加溫/等溫/冷卻，如果新解>舊解，選新解；如果新解<=舊解，P%選新解(P%接受差解)。
PSO : 群體最優與個體最優交配決定方向。

探索與利用困境

多個老虎牙子機，你要如何知道出金的概率P(探索)，一直玩那台機器(利用)，如何平衡得到出金概率(探索)與出金?
regret(有悔/機會成本) : 假設1機P1 = 0.8 2機P2 = 0.3，如果選P2，regret = 0.8 - 0.3 = 0.5
如何去最小regret? 指標策略：你需要根據以往的試驗結果對每機構建一個指標/函數，根據這些指標選擇下一機。
樂觀地面對不確定性
UCB1

func = x_{j}+{(2ln(n))/n_{j}}^{1/2} ;

x_{j} = 選 j 的出金數/n_{j}, n 總次數, n_{j} j的目前按壓次數

選func最大的當下機，更新x_{j}, n_{j} ;
x_{j} = 選J的平均收益 (利用) ; {(2ln(n))/n_{j}}^{1/2} = 對於利用的信心程度(探索)
如果一機被嘗試很多次，x_{j}大，就選j，但當嘗試少次時，探索項更大，傾向探索。

早期更應該去嘗試，然後根據早期嘗試結果出金。

留言