딥기 프로젝트 시작 기념 발표
생각보다 수식 OCR 성능이 좋지 않은 경우가 많았음. (특히 손글씨)
왜 그럴까
2차원 구조여서
수식을 인식할 때에도 기본적으로 ViT 구조를 사용함.
이때 트랜스포머가 만들어내는 결과물이 일반 자연어랑 동일.
자연어 = 1차원: My Cat is really cute.
수식 = 2차원: $x^2$ $x_2$ → 둘 다 x와 2가 있지만 서로 다른 의미를 지님. → 단순 글자뿐만 아니라 위치, 크기 등의 2차원 정보도 고려해야 한다.
데이터에 노이즈가 많음.
동일한 수식이어도 누가 쓰냐, 필기 환경 등에 따라서 달라질 수 있음.
그래서 데이터의 대표성이 떨어지게 됨.
그럼 어케 하나요
최종 목표: 90% 이상의 성능을 갖는 손글씨 → latex 변환 모델을 만든다.
그냥 드는 생각: 컴퓨터비전, NLP 상관 없이 그냥 분야별로 다 알고있어야 하는 듯..

논문 → 언제 봄? 쉬운 블로그.. https://velog.io/@whattsup_kim/Graph-Neural-Networks-기본-쉽게-이해하기 https://medium.com/watcha/gnn-소개-기초부터-논문까지-96567b783479 https://jungsoo-ai-study.tistory.com/23 https://velog.io/@claude_ssim/그래프-기계학습-Deep-Graph-Generative-Models
Graph가 필요한 이유
보통 추천 시스템, SNS 분석에서 많이 사용하는 도구
관계가 중요한 경우에 주로 사용
격자형태(유클리디안 공간)에서 표현 불가능한 것까지 학습 가능함.
연결 여부와 연결 강도(가중치)가 훨씬 더 중요해진다.
Graph의 표현 방법
딥러닝에 input이든 output이든 넣어주려면 표현 방식이 필요함.
방법 1: adjacency matrix로 표현한다.
❓ 근데 따지고 보면 격자로 표현 가능한 거 아닌가..

방법 2: 기타 다른 matrix 들로 표현한다.
GNN
각 노드를 상징하는 feature를 만든다 (=축약사상을 반복한다)

수렴된 값은 node embedding이라 한다.
이거 왜 됨?