基于Python實(shí)現(xiàn)計(jì)算納什均衡的示例詳解

更新時(shí)間：2023年02月06日 11:46:04 作者：夢(mèng)想橡皮擦

納什均衡是一種博弈論中的概念，它描述了一種平衡狀態(tài)，其中每個(gè)參與者都不能通過(guò)獨(dú)立改變其決策來(lái)提高自己的利益。本文就來(lái)用Python中的Nashpy和PuLP實(shí)現(xiàn)計(jì)算納什均衡，感興趣的可以了解一下

Nashpy 庫(kù)計(jì)算兩個(gè)參與者的納什均衡

注意安裝 nashpy 庫(kù)。

import nashpy as nash
import numpy as np

A = np.array([[1, -1], [-1, 1]])
game = nash.Game(A)
equilibrium = game.vertex_enumeration()
print("納什均衡是: ", next(equilibrium))

在上述代碼中，先導(dǎo)入了 nashpy 庫(kù)，并使用其中的 Game() 函數(shù)創(chuàng)建一個(gè)游戲。

然后，使用 vertex_enumeration() 方法找到納什均衡，并使用 next() 函數(shù)從生成器中提取第一個(gè)均衡。

手動(dòng)計(jì)算納什均衡

下面是使用原生 Python 手動(dòng)計(jì)算納什均衡的代碼示例：

import numpy as np
from scipy.optimize import linprog


def nash_equilibrium(payoff_matrix_a, payoff_matrix_b):
    """
    計(jì)算二人非合作博弈的納什均衡。
    """
    num_actions_a = payoff_matrix_a.shape[1]
    num_actions_b = payoff_matrix_b.shape[1]

    # 定義優(yōu)化問(wèn)題
    c = -np.ones(num_actions_a + num_actions_b)
    A = np.zeros((num_actions_b, num_actions_a + num_actions_b))
    for j in range(num_actions_b):
        A[j, :num_actions_a] = -payoff_matrix_b[:, j]
        A[j, num_actions_a:] = np.ones(num_actions_b)

    b = np.zeros(num_actions_b)
    bounds = [(0, None) for _ in range(num_actions_a + num_actions_b)]

    # 解決優(yōu)化問(wèn)題
    res = linprog(c, A_ub=A, b_ub=b, bounds=bounds, method='simplex')

    # 提取混合策略
    mixed_strategy_a = res.x[:num_actions_a]
    mixed_strategy_b = res.x[num_actions_a:]

    return mixed_strategy_a, mixed_strategy_b



payoff_matrix_a = np.array([[1, 5], [0, 5]])
payoff_matrix_b = np.array([[3, 7], [2, 3]])
mixed_strategy_a, mixed_strategy_b = nash_equilibrium(payoff_matrix_a, payoff_matrix_b)

print("混合策略 A:", mixed_strategy_a)
print("混合策略 B:", mixed_strategy_b)

該代碼僅適用于 2 名玩家的博弈，如果您需要計(jì)算多名玩家的博弈，則需要進(jìn)行一些修改。

代碼運(yùn)行結(jié)果如下。

上述代碼使用 scipy 庫(kù)的 linprog() 函數(shù)來(lái)解決博弈矩陣。它將約束條件和目標(biāo)函數(shù)作為輸入，返回納什均衡策略。

使用了 PuLP 庫(kù)計(jì)算納什均衡

下面是簡(jiǎn)單的代碼實(shí)現(xiàn)：

from pulp import *

# 創(chuàng)建一個(gè)線性規(guī)劃模型
prob = LpProblem("納什均衡", LpMaximize)

# 創(chuàng)建玩家1的策略變量
p1 = LpVariable("p1", 0, 1)

# 創(chuàng)建玩家2的策略變量
p2 = LpVariable("p2", 0, 1)

# 設(shè)置目標(biāo)函數(shù)
prob += 5 * p1 + 4 * p2, "Total Utility"

# 設(shè)置約束條件
prob += p1 + 2 * p2 <= 1, "玩家 1 約束條件"
prob += 3 * p1 + 2 * p2 <= 2, "玩家 2 約束條件"

# 解決問(wèn)題
prob.solve()

# 輸出結(jié)果
print("玩家1策略: ", value(p1))
print("玩家2策略: ", value(p2))

以上方法是通過(guò)線性規(guī)劃計(jì)算納什均衡的方法，學(xué)習(xí)的時(shí)候可以自行設(shè)置約束條件。