[TIL] 내일배움캠프 AI 9기

🐶 학습 범위

스탠다드반
개인 공부

🐶 학습 내용

✨ 개인 공부

✔️ 위치 인코딩

  1. 위치 인코딩
   1) 내용
     - 트랜스포머에서는 모든 입력을 동시에 처리
     - 그 과정에서 순서 정보가 사라짐
     - 이때 순서를 추가해주는 역할을 담당

  2. 절대적 위치 인코딩(absolute position encoding)
   1) 내용
     - 입력 토큰의 위치에 따라 고정된 임베딩을 더함
     - 토큰과 토큰 사이의 상대적인 위치정보 활용하지 못함
     - 긴 텍스트를 추론하는 경우에는 성능이 떨어짐

✔️ 토큰화 샘플 코드

# 텍스트를 적절한 단위로 나눔 (띄어쓰기 기준)
input_text = "나는 최근 파리 여행을 다녀왔다"
input_text_list = input_text.split()

print(input_text_list) # ['나는', '최근', '파리', '여행을', '다녀왔다']

# 토큰 (숫자ID 부여)
# 아이디 딕셔너리와 아이디
str2idx = {word:idx for idx, word in enumerate(input_text_list)} 
# 토큰 딕셔너리 만들기
idx2str = {idx:word for idx, word in enumerate(input_text_list)} 

print(str2idx) # {'나는': 0, '최근': 1, '파리': 2, '여행을': 3, '다녀왔다': 4}
print(idx2str) # {0: '나는', 1: '최근', 2: '파리', 3: '여행을', 4: '다녀왔다'}

# 토큰을 토큰 아이디로 변환
input_ids = [str2idx[word] for word in input_text_list]
print(input_ids) # [0, 1, 2, 3, 4]

✔️ 절대적 위치 인코딩

embedding_dim = 16
max_position = 12

# 1. 토큰 임베딩 층 생성 (5, 16)
embed_layer = nn.Embedding(len(str2idx), embedding_dim) 

# 2. 위치 인코딩 층 생성 (12, 16)
position_embed_layer = nn.Embedding(max_position, embedding_dim) 

# 3. 위치 ID 생성 및 인코딩
# - torch.arange(len(input_ids)) :: 입력 토큰의 개수만큼 위치 ID를 생성
# - unsqueeze(0) :: 이 배열에 배치 차원을 추가하여 모양을 (1, 시퀀스 길이)로 만듬
position_ids = torch.arange(len(input_ids), dtype=torch.long).unsqueeze(0)
position_encodings = position_embed_layer(position_ids)

# 4. 토큰 임베딩 조회 및 차원 조정
token_embeddings = embed_layer(torch.tensor(input_ids)) # (5, 16)
token_embeddings = token_embeddings.unsqueeze(0) # (1, 5, 16)

# 5. 토큰 임베딩과 위치 인코딩을 더해 최종 입력 임베딩 생성
input_embeddings = token_embeddings + position_encodings
input_embeddings.shape # torch.Size([1, 5, 16]))

🐶 느낀점

1. 공부할 건 많고 시간은 부족하다.
2. 다 할수 없다. 공부 전략을 세우자

'교육 > 스파르타' 카테고리의 다른 글

[TIL] 내일배움캠프 AI 9기 - 22회 (1)	2025.02.05
[TIL] 내일배움캠프 AI 9기 - 21회 (4)	2025.02.04
[TIL] 내일배움캠프 AI 9기 - 20회 (0)	2025.02.03
[TIL] 내일배움캠프 AI 9기 - 19회 (0)	2025.01.31
[TIL] 내일배움캠프 AI 9기 - 18회 (2)	2025.01.09

🐶 gomdeng Blog

[TIL] 내일배움캠프 AI 9기 - 23회

🐶 학습 범위

🐶 학습 내용

✨ 개인 공부

🐶 느낀점

'교육 > 스파르타' 카테고리의 다른 글

티스토리툴바

[TIL] 내일배움캠프 AI 9기 - 23회

🐶 학습 범위

🐶 학습 내용

✨ 개인 공부

🐶 느낀점

'교육 > 스파르타' 카테고리의 다른 글

관련글

티스토리툴바