데린이 고인물되기

[KG_2022]ReMR 간단 정리 본문

kdd/knowledge graph 논문 리뷰

[KG_2022]ReMR 간단 정리

데린이 성장 중 2024. 7. 28. 01:01
반응형

1. 멀티홉 path를 higher level에 매핑함.(state abstraction fucntion) 이렇게 하면 추출된 high-level path가 모두 feasible하다는 것이 보장되어 있음(Theorem 1)(infeasible path추출한 방식은 단일 홉을 상위 레벨에 매핑했었음.내 생각에는 하위 레벨에 있는 짧은 hop path 여러개를 상위 레벨에 매핑해서 상위레벨에서 그게 하나의 경로가 되거나 그렇게 축약이 되는 거다 보니 infeasible한 경로가 나오는듯)

 

2. abstract MDP와 bottom-level MDP에서 action space를 동일하게 가져가줌. action space가 동일하다는건 l 레벨에서 policy가 concept가 아니라 entity를 선택할 수 있다는 것을 의미함.(레벨간 지식 전이가 가능해지는 듯)

 

3. weighting fuction \(w^l\) : sampling policy(\(\tilde\pi^0(a_t|s_t^0)\))를 기반으로 정의.

sampling 정책 : state에서 다음 state로 갈 action 분포 나타냄. 이걸 기반으로 여러번 반복 했을 떄(sampling), A라는 사람이 B라는 제품 구매, C라는 제품 구매, D라는 제품 구

반응형