손글씨 → 수식 OCR을 만들어요

딥기 프로젝트 시작 기념 발표

연구 배경

생각보다 수식 OCR 성능이 좋지 않은 경우가 많았음. (특히 손글씨)
- 2024년에 손글씨 수식 인식 성공률: 89.5%
- 특정 케이스(n차 방정식만 본다)로 한정하면 90% 이상이 나오는데 제한하지 않으면 성능이 높아지지 않음.
- 손으로 수식을 쓰는게 굉장히 직관적 (과제 등등) → 하지만 OCR 기능이 뒷받침되지 않는다면 손글씨 수식을 활용하는 범위가 한정됨. → 이를 극복해보자
왜 그럴까
1. 2차원 구조여서
  
  수식을 인식할 때에도 기본적으로 ViT 구조를 사용함.
  
  이때 트랜스포머가 만들어내는 결과물이 일반 자연어랑 동일.
  
  자연어 = 1차원: My Cat is really cute.
  
  수식 = 2차원: $x^2$ $x_2$ → 둘 다 x와 2가 있지만 서로 다른 의미를 지님. → 단순 글자뿐만 아니라 위치, 크기 등의 2차원 정보도 고려해야 한다.
2. 데이터에 노이즈가 많음.
  
  동일한 수식이어도 누가 쓰냐, 필기 환경 등에 따라서 달라질 수 있음.
  
  그래서 데이터의 대표성이 떨어지게 됨.
그럼 어케 하나요
- 2차원 구조 → graph를 도입해보자
  - 그래프 모델의 decoder를 가져와보자
  - 기존에도 그래프를 사용한 모델이 있었으나 encoder, decoder 둘 다 그래프 기반 → 엄청나게 무거움.
    - decoder만 사용할 수는 없을까?
- 데이터에 노이즈가 많음.
  - 전처리를 잘 한다.
  - 기존 손글씨 인식 모델에서의 인코더를 가지고 온다.
최종 목표: 90% 이상의 성능을 갖는 손글씨 → latex 변환 모델을 만든다.

그냥 드는 생각: 컴퓨터비전, NLP 상관 없이 그냥 분야별로 다 알고있어야 하는 듯..

Graph 모델과 친해져보기

논문 → 언제 봄? 쉬운 블로그.. https://velog.io/@whattsup_kim/Graph-Neural-Networks-기본-쉽게-이해하기 https://medium.com/watcha/gnn-소개-기초부터-논문까지-96567b783479 https://jungsoo-ai-study.tistory.com/23 https://velog.io/@claude_ssim/그래프-기계학습-Deep-Graph-Generative-Models

Graph가 필요한 이유
- 보통 추천 시스템, SNS 분석에서 많이 사용하는 도구
- 관계가 중요한 경우에 주로 사용
- 격자형태(유클리디안 공간)에서 표현 불가능한 것까지 학습 가능함.
  - 유클리디안 공간 vs 비-유클리디안 공간
  연결 여부와 연결 강도(가중치)가 훨씬 더 중요해진다.
Graph의 표현 방법
- 딥러닝에 input이든 output이든 넣어주려면 표현 방식이 필요함.
- 방법 1: adjacency matrix로 표현한다.
  
  ❓ 근데 따지고 보면 격자로 표현 가능한 거 아닌가..
- 방법 2: 기타 다른 matrix 들로 표현한다.
GNN
- 그래프를 반영할 수 있는 신경망
- 종류
  - Recurrent Graph Neural Network
  - Spatial Convolutional Network
  - Spectral Convolutional Network
- 초반에는 Spectral → 요즘은 Spatial을 더 많이 사용함. (GCN 등장 이후)
- 학습의 목표: 점이 주변과 어떻게 연결되는가?
  - 연결이 모두 끊기면 그 점은 더이상 의미가 없어진다.
- 학습 방식 (graph input, another output 예시)
  - 주변 이웃들의 상태를 사용하여 각 점의 상태를 학습한다.
  - 각 점의 상태가 파악되면 이를 node embedding이라 불러준다.
  - node embedding을 사용하여 예측 등의 목표 업무를 수행한다.

Recurrent Graph Neural Network (전처리)

각각의 노드 업데이트를 여러 단계로 반복한다.
기본 가정
- 축약 사상을 무한대에 가깝게 반복하면 어딘가로 수렴한다.
- 축약사상: 두 점 사이의 거리를 일정 비율로 줄이는 함수
  - e.g. conv 연산
작동 과정
- 각 노드를 상징하는 feature를 만든다 (=축약사상을 반복한다)
  - 각각의 노드는 자신만의 고유한 feature를 가진다.
  - 각 노드에 대해 연결된 다른 노드들의 정보를 받아서 고른 노드의 feature를 업데이트한다.
    - feature를 업데이트 하는 방법도 신경망 → 최종 feature로 예측을 수행한 이후에 loss 계산 → 신경망 업데이트
  - 이 과정을 충분히 큰 k번 반복한다. (recurrent)
    - 기본 가정에 의해 각 feature들이 어떤 값으로 수렴했다고 가정한다.
- 수렴된 값은 node embedding이라 한다.
  - 그래프 전체 구조가 반영되었다고 간주할 수 있다.
- 이거 왜 됨?
  - 친구 네트워크를 가정했을 때, 처음에는 내 주변 친구의 정보만 반영되지만, 시간이 지나면서 점점 다른 친구들의 정보들도 전달받게됨 → 결곡 전체 네트워크의 맥락이 이해됨.