[TIL] 내일배움캠프 AI 9기

🐶 학습 범위

스탠다드반
개인 공부

🐶 학습 내용

✨ 개인 공부

✔️ 토큰화

  1. 토큰 (token)
   1) 개념: 주어진 텍스트를 분석 및 처리 가능한 작은 단위로 나눈 것

  2. 토큰화
   1) 개념: 텍스트를 적절한 단위로 나누고 숫자 아이디를 부여하는 것
   2) 내용
     - 한글은 작게 (자음과모음) 단위부터 크게 단어 단위로 나눌수 있다
     - 어떤 토큰이 어떤 숫자 아이디로 연결됐는지 기록된 사전을 만들어야 한다
       > 단위가 큰 경우: 의미 유지는 잘 되지만 사전이 커진다.
       > 단위가 작은 경우: 사전은 작아지지만, 단어의 의미가 사라진다.

  2. 서브워드 토큰화
   1) 개념: 데이터의 등장하는 빈도에 따라 토근화 단위를 결정
   2) 내용
     - 기존 토큰화의 사전 단위 문제 보완
     - 자주 나오는 경우: 단어 단위 그대로 유지
     - 자주 나오지 않는 경우: 더 작은 단위로 나눔

✔️ 토큰화 샘플 코드

# 텍스트를 적절한 단위로 나눔 (띄어쓰기 기준)
input_text = "나는 최근 파리 여행을 다녀왔다"
input_text_list = input_text.split()

print(input_text_list) # ['나는', '최근', '파리', '여행을', '다녀왔다']

# 토큰 (숫자ID 부여)
# 아이디 딕셔너리와 아이디
str2idx = {word:idx for idx, word in enumerate(input_text_list)} 
# 토큰 딕셔너리 만들기
idx2str = {idx:word for idx, word in enumerate(input_text_list)} 

print(str2idx) # {'나는': 0, '최근': 1, '파리': 2, '여행을': 3, '다녀왔다': 4}
print(idx2str) # {0: '나는', 1: '최근', 2: '파리', 3: '여행을', 4: '다녀왔다'}

# 토큰을 토큰 아이디로 변환
input_ids = [str2idx[word] for word in input_text_list]
print(input_ids) # [0, 1, 2, 3, 4]

🐶 느낀점

1. 답답한 상황이 넘 많다..

'교육 > 스파르타' 카테고리의 다른 글

[TIL] 내일배움캠프 AI 9기 - 23회 (3)	2025.02.06
[TIL] 내일배움캠프 AI 9기 - 22회 (1)	2025.02.05
[TIL] 내일배움캠프 AI 9기 - 20회 (0)	2025.02.03
[TIL] 내일배움캠프 AI 9기 - 19회 (0)	2025.01.31
[TIL] 내일배움캠프 AI 9기 - 18회 (2)	2025.01.09

🐶 gomdeng Blog

[TIL] 내일배움캠프 AI 9기 - 21회

🐶 학습 범위

🐶 학습 내용

✨ 개인 공부

🐶 느낀점

'교육 > 스파르타' 카테고리의 다른 글

티스토리툴바

[TIL] 내일배움캠프 AI 9기 - 21회

🐶 학습 범위

🐶 학습 내용

✨ 개인 공부

🐶 느낀점

'교육 > 스파르타' 카테고리의 다른 글

관련글

티스토리툴바