容錯率,local optima and global optima

local optima   =  短期利益
global optima = 長期利益

  • 短期利益與長期利益的平衡 : 探索與利用困境
    • 最佳化算法 : 無法保證global optima,都是近似算法
      • hill-climbing : 隨機決定要上還下/隨機決定從哪裡開始
      • GA                 : 計算適應程度/選擇優秀個體/交配/變異
      • SA                   : 加溫/等溫/冷卻,如果新解>舊解,選新解;如果新解<=舊解,P%選新解(P%接受差解)。
      • PSO            : 群體最優與個體最優交配決定方向。

    • 探索與利用困境
      • 多個老虎牙子機,你要如何知道出金的概率P(探索),一直玩那台機器(利用),如何平衡得到出金概率(探索)與出金?
      • regret(有悔/機會成本) : 假設1機P1 = 0.8 2機P2 = 0.3,如果選P2,regret = 0.8 - 0.3 = 0.5
      • 如何去最小regret? 指標策略:你需要根據以往的試驗結果對每機構建一個指標/函數,根據這些指標選擇下一機。
      • 樂觀地面對不確定性
      • UCB1
        • func = x_{j}+{(2ln(n))/n_{j}}^{1/2} ;
          •  x_{j} = 選 j 的出金數/n_{j}, n 總次數, n_{j} j的目前按壓次數
        • 選func最大的當下機,更新x_{j}, n_{j} ;
        • x_{j} = 選J的平均收益 (利用) ; {(2ln(n))/n_{j}}^{1/2} = 對於利用的信心程度(探索)
        • 如果一機被嘗試很多次,x_{j}大,就選j,但當嘗試少次時,探索項更大,傾向探索。
      • 早期更應該去嘗試,然後根據早期嘗試結果出金。

留言

這個網誌中的熱門文章

合夥人/老婆 選擇