Implemented FactoredRewardFunction

2 years ago · 055eb7088e
parent 1878f687d6
commit 055eb7088e
5 changed files with 112 additions and 1 deletions
--- a/reCTBN/src/lib.rs
+++ b/reCTBN/src/lib.rs
@ -9,3 +9,4 @@ pub mod process;
 pub mod sampling;
 pub mod structure_learning;
 pub mod tools;
+pub mod reward_function;
--- a/reCTBN/src/process/ctbn.rs
+++ b/reCTBN/src/process/ctbn.rs
@ -119,7 +119,6 @@ impl CtbnNetwork {
            BTreeSet::from_iter((0..state_space).map(|x| x.to_string())),
        );

-        println!("{:?}", amalgamated_cim);
        amalgamated_param.set_cim(amalgamated_cim).unwrap();

        let mut ctmp = CtmpProcess::new();
--- a/reCTBN/src/reward_function.rs
+++ b/reCTBN/src/reward_function.rs
@ -0,0 +1,80 @@
+use crate::{process, sampling, params::{ParamsTrait, self}};
+use ndarray;
+
+
+#[derive(Debug, PartialEq)]
+pub struct Reward {
+    pub transition_reward: f64,
+    pub instantaneous_reward: f64
+}
+
+pub trait RewardFunction {
+    fn call(&self, current_state: sampling::Sample, previous_state: Option<sampling::Sample>) -> Reward;
+    fn initialize_from_network_process<T: process::NetworkProcess>(p: &T) -> Self;
+}
+
+
+pub struct FactoredRewardFunction {
+    transition_reward: Vec<ndarray::Array2<f64>>,
+    instantaneous_reward: Vec<ndarray::Array1<f64>>
+}
+
+impl FactoredRewardFunction {
+    pub fn get_transition_reward(&self, node_idx: usize) -> &ndarray::Array2<f64> {
+        &self.transition_reward[node_idx]
+    }
+
+    pub fn get_transition_reward_mut(&mut self, node_idx: usize) -> &mut ndarray::Array2<f64> {
+        &mut self.transition_reward[node_idx]
+    }
+
+    pub fn get_instantaneous_reward(&self, node_idx: usize) -> &ndarray::Array1<f64> {
+        &self.instantaneous_reward[node_idx]
+    }
+
+    pub fn get_instantaneous_reward_mut(&mut self, node_idx: usize) -> &mut ndarray::Array1<f64> {
+        &mut self.instantaneous_reward[node_idx]
+    }
+
+
+}
+
+impl RewardFunction for FactoredRewardFunction {
+    
+    fn call(&self, current_state: sampling::Sample, previous_state: Option<sampling::Sample>) -> Reward {
+        let instantaneous_reward: f64 =  current_state.state.iter().enumerate().map(|(idx, x)| {
+            let x = match x {params::StateType::Discrete(x) => x};
+            self.instantaneous_reward[idx][*x]
+        }).sum();
+        if let Some(previous_state) = previous_state {
+            let transition_reward = previous_state.state.iter().zip(current_state.state.iter()).enumerate().find_map(|(idx,(p,c))|->Option<f64> {
+            let p = match p {params::StateType::Discrete(p) => p};
+            let c = match c {params::StateType::Discrete(c) => c};
+                if p != c {
+                    Some(self.transition_reward[idx][[*p,*c]])
+                } else {
+                    None
+                }
+            }).unwrap_or(0.0);
+            Reward {transition_reward, instantaneous_reward}
+        } else {
+            Reward { transition_reward: 0.0, instantaneous_reward}
+        }
+    }
+
+    fn initialize_from_network_process<T: process::NetworkProcess>(p: &T) -> Self {
+        let mut transition_reward: Vec<ndarray::Array2<f64>> = vec![];
+        let mut instantaneous_reward: Vec<ndarray::Array1<f64>> = vec![]; 
+        for i in p.get_node_indices() {
+            //This works only for discrete nodes!
+            let size: usize = p.get_node(i).get_reserved_space_as_parent();
+            instantaneous_reward.push(ndarray::Array1::zeros(size));
+            transition_reward.push(ndarray::Array2::zeros((size, size)));
+        }
+
+        FactoredRewardFunction { transition_reward, instantaneous_reward }
+        
+    }
+
+}
+
--- a/reCTBN/src/sampling.rs
+++ b/reCTBN/src/sampling.rs
@ -7,6 +7,7 @@ use crate::{
 use rand::SeedableRng;
 use rand_chacha::ChaCha8Rng;

+#[derive(Clone)]
 pub struct Sample {
    pub t: f64,
    pub state: Vec<params::StateType>
--- a/reCTBN/tests/reward_function.rs
+++ b/reCTBN/tests/reward_function.rs
@ -0,0 +1,30 @@
+mod utils;
+
+use ndarray::*;
+use utils::generate_discrete_time_continous_node;
+use reCTBN::{process::{NetworkProcess, ctbn::*}, reward_function::*, params};
+
+
+#[test]
+fn simple_factored_reward_function() {
+    let mut net = CtbnNetwork::new();
+    let n1 = net
+        .add_node(generate_discrete_time_continous_node(String::from("n1"), 2))
+        .unwrap();
+
+    let mut rf = FactoredRewardFunction::initialize_from_network_process(&net);
+    rf.get_transition_reward_mut(n1).assign(&arr2(&[[12.0, 1.0],[2.0,12.0]]));
+    rf.get_instantaneous_reward_mut(n1).assign(&arr1(&[3.0,5.0]));
+    
+    let s0 = reCTBN::sampling::Sample { t: 0.0, state:  vec![params::StateType::Discrete(0)]};
+    let s1 = reCTBN::sampling::Sample { t: 0.0, state:  vec![params::StateType::Discrete(1)]};
+    assert_eq!(rf.call(s0.clone(), None), Reward{transition_reward: 0.0, instantaneous_reward: 3.0});
+    assert_eq!(rf.call(s1.clone(), None), Reward{transition_reward: 0.0, instantaneous_reward: 5.0});
+
+
+    assert_eq!(rf.call(s0.clone(), Some(s1.clone())), Reward{transition_reward: 2.0, instantaneous_reward: 3.0});
+    assert_eq!(rf.call(s1.clone(), Some(s0.clone())), Reward{transition_reward: 1.0, instantaneous_reward: 5.0});
+
+    assert_eq!(rf.call(s0.clone(), Some(s0.clone())), Reward{transition_reward: 0.0, instantaneous_reward: 3.0});
+    assert_eq!(rf.call(s1.clone(), Some(s1.clone())), Reward{transition_reward: 0.0, instantaneous_reward: 5.0});
+}