πΆ νμ΅ λ²μ
- μ€ν λ€λλ°
- κ°μΈ 곡λΆ
πΆ νμ΅ λ΄μ©
β¨ κ°μΈ 곡λΆ
βοΈ ν ν°ν
1. ν ν° (token)
1) κ°λ
: μ£Όμ΄μ§ ν
μ€νΈλ₯Ό λΆμ λ° μ²λ¦¬ κ°λ₯ν μμ λ¨μλ‘ λλ κ²
2. ν ν°ν
1) κ°λ
: ν
μ€νΈλ₯Ό μ μ ν λ¨μλ‘ λλκ³ μ«μ μμ΄λλ₯Ό λΆμ¬νλ κ²
2) λ΄μ©
- νκΈμ μκ² (μμκ³Όλͺ¨μ) λ¨μλΆν° ν¬κ² λ¨μ΄ λ¨μλ‘ λλμ μλ€
- μ΄λ€ ν ν°μ΄ μ΄λ€ μ«μ μμ΄λλ‘ μ°κ²°λλμ§ κΈ°λ‘λ μ¬μ μ λ§λ€μ΄μΌ νλ€
> λ¨μκ° ν° κ²½μ°: μλ―Έ μ μ§λ μ λμ§λ§ μ¬μ μ΄ μ»€μ§λ€.
> λ¨μκ° μμ κ²½μ°: μ¬μ μ μμμ§μ§λ§, λ¨μ΄μ μλ―Έκ° μ¬λΌμ§λ€.
2. μλΈμλ ν ν°ν
1) κ°λ
: λ°μ΄ν°μ λ±μ₯νλ λΉλμ λ°λΌ ν κ·Όν λ¨μλ₯Ό κ²°μ
2) λ΄μ©
- κΈ°μ‘΄ ν ν°νμ μ¬μ λ¨μ λ¬Έμ 보μ
- μμ£Ό λμ€λ κ²½μ°: λ¨μ΄ λ¨μ κ·Έλλ‘ μ μ§
- μμ£Ό λμ€μ§ μλ κ²½μ°: λ μμ λ¨μλ‘ λλ
βοΈ ν ν°ν μν μ½λ
# ν
μ€νΈλ₯Ό μ μ ν λ¨μλ‘ λλ (λμ΄μ°κΈ° κΈ°μ€)
input_text = "λλ μ΅κ·Ό ν리 μ¬νμ λ€λ
μλ€"
input_text_list = input_text.split()
print(input_text_list) # ['λλ', 'μ΅κ·Ό', 'ν리', 'μ¬νμ', 'λ€λ
μλ€']
# ν ν° (μ«μID λΆμ¬)
# μμ΄λ λμ
λ리μ μμ΄λ
str2idx = {word:idx for idx, word in enumerate(input_text_list)}
# ν ν° λμ
λ리 λ§λ€κΈ°
idx2str = {idx:word for idx, word in enumerate(input_text_list)}
print(str2idx) # {'λλ': 0, 'μ΅κ·Ό': 1, 'ν리': 2, 'μ¬νμ': 3, 'λ€λ
μλ€': 4}
print(idx2str) # {0: 'λλ', 1: 'μ΅κ·Ό', 2: 'ν리', 3: 'μ¬νμ', 4: 'λ€λ
μλ€'}
# ν ν°μ ν ν° μμ΄λλ‘ λ³ν
input_ids = [str2idx[word] for word in input_text_list]
print(input_ids) # [0, 1, 2, 3, 4]
πΆ λλμ
1. λ΅λ΅ν μν©μ΄ λ λ§λ€..