목록Machine Learning (57)
elevne's Study Note

각종 자연어처리 기법을 사용하기 위해서는 자연어데이터를 숫자데이터로 변환하는 과정이 필요하다. Scikit-Learn 라이브러리를 활용하여 이를 간단하게 진행할 수 있는 방법 2가지에 대해 알아보았다. 1. CountVectorizer CountVectorizer은 자연어 데이터에서 단어의 빈도수에 따라서 특징을 추출하는 방식이다. 아래와 같은 코드로 쉽게 사용해볼 수 있다. from sklearn.feature_extraction.text import CountVectorizer vectorizer = CountVectorizer() data = ["자연어처리 공부 하는 중", "오늘 저녁에 약속이 있다", "약속에 나가서 친구와 같이 공부를 하기로 했다"] vectorizer.fit(data) vec..
Machine Learning/NLP
2022. 10. 15. 13:14