분류 전체보기 (9) 썸네일형 리스트형 [Data Science] BERT BERT 1. BERT 란? BERT Bidirectional Encoder Representations from Transformers 문장을 양방향으로 이해해서 숫자 형태로 바꿔주는 딥러닝 모델 Transformer에서 Encoder만 사용하여 양방향으로 문맥을 이해하는 모델 전이 학습 모델 구글에서 개발한 NLP(자연어 처리) 사전 학습 모델이며, 모든 자연어 처리 분야(문서 분류, 질의응답, 번역 등)에서 좋은 성능을 내는 범용 언어 모델 잘 만들어진 BERT 언어 모델 위에 1개의 Classification을 위한 딥러닝 모델을 쌓아 다양한 NLP Task를 수행할 수 있음 사전학습 모델 빈칸에 들어갈 단어 예측', '문장 유사도 확인', '두 문장이 의미상 같은 지 판별' 등의 NLP Task.. [Data Science] 자연어 처리와 언어모델 자연어 처리 (Natural Language Processing, NLP) 1. 자연어란? 자연어 [ Natural Language, 自然語 ] 인간이 일상생활에서 의사소통을 위해 사용하는 언어 자연어 처리 [ Natural Language Processing, 自然語處理 ] 컴퓨터를 이용하여 인간 언어의 이해, 생성 및 분석을 다루는 인공지능 기술 2. 자연어 처리 과정 데이터 전처리 → Tokenizing → Lexical Analysis → Syntactic Analysis → Semantic Analysis 단계 상세내용 데이터 전처리 1) 개행문자 제거 2) 특수문자 제거 3) 공백 제거 4) 중복 표현 제어 5) 이메일, 링크 제거 6) 제목 제거 7) 불용어 (의미가 없는 용어) 제거 8) .. [Data Science] 머신 러닝(Machine Learning) (4) - 모델 평가 오늘은 머신러닝의 결과를 평가하는 방법에 대해 알아보고자 한다. 분류 모델, 예측모델이 얼마나 잘 구축되었는지 평가할 수 있는 지표들은 어떤 것들이 있고, 어떻게 계산되는지 정리해보았다. 모델 평가 1. 머신러닝 문제 별 평가지표 문제 평가지표 회귀 문제 평균절대오차(Mean Absolute Error) 평균제곱오차(Mean Squared Error) 결정계수(Coefficient of Determination) 분류 문제 혼동행렬(Confusion Matrix) 정확도(Accuracy) 정밀도(Precision) 재현율(Recall) 특이도(Specificity) F값(F1 score) AUC (Area Under the Curve) 표 1. 머신러닝 문제 별 평가지표 2. 모델 평가의 기준 일반화의 .. [Data Science] 머신 러닝(Machine Learning) (3) - 앙상블 모델 오늘은 머신러닝의 다양한 알고리즘 중 앙상블 알고리즘에 대해 알아보고자 한다. 앙상블 모델이 무엇이고, 어떤 알고리즘들이 존재하는지 정리해보았다. Random Forest 의사결정 나무(Decision Tree)는 과적합(Overfitting)될 가능성이 높다는 단점이 있다. 가지치기(Pruning)를 통해 어느 정도 해결할 수 있지만 완벽하게 해결할 수는 없기 때문에 이러한 문제를 해결하기 위해 고안된 알고리즘이 Random Forest 알고리즘이다. Random Forest 모델은 앙상블(Ensemble) 모델 중 Bagging기법을 사용하는 머신러닝 모델이다. 이를 이해하기 위해 앙상블과 Bagging의 무엇인지 알아보자. 1. 앙상블(Ensemble) 앙상블의 영어 뜻은 함께, 동시에, 협력하여라.. [Data Science] 머신 러닝(Machine Learning) (2) - 회귀분석, 의사결정 나무 오늘은 머신러닝의 기초가 되는 회귀 분석과 의사결정 나무 알고리즘에 대해서 알아보고자 한다. 회귀분석 회귀 (回歸) : 한 바퀴 돌아 제자리로 돌아오거나 돌아감. - 회귀분석의 시초는 1885년 영국 F.Galton의 1078쌍 부자간의 키 관계 분석이다. 영국의 유전학자 Frnacis Galton은 부모 자식 간의 키를 조사하여 '일반적으로 장신인 부모의 아이는 장신이지만, 키가 커지거나 작아지는 것보다는 전체의 평균으로 회귀하려는 경향이 있다.'라는 가설을 세웠고 이 가설을 분석하는 방법을 회귀분석이라고 하였다. - 회귀 분석은 두 개의 변수가 주어진 경우에 한 변수로부터 다른 변수를 예측하거나, 두 변수 사이의 관계를 구명하는데 사용하는 방법이다. 독립변수(Indipendent Variable) :.. [Data Science] 머신 러닝(Machine Learning) (1) - 머신러닝 개요 최근 머신러닝(Machine Learning)과 딥러닝(Deep Learning) 등 Data Science 기술이 다양한 곳에서 활용되고 있다. 이번 글에서는 머신러닝이 무엇인지에 대한 개요와 기술에 대해 간단하게 알아보고자 한다. 머신러닝이란? 머신러닝에 대해서는 다양하게 정의되고 있다. 1. 기계학습, 머신러닝은 1959년 아서 사무엘(Arthur Samuel)의 논문 명시적으로 프로그램을 작성하지 않고 컴퓨터에 학습할 수 있는 능력을 부여하기 위한 연구 분야. 2. Tom M. Mitchell 카네기멜론 대 교수 컴퓨터 프로그램이 어떤 유형의 과업(Task)들에 대해 성과평가 지표(Performance Measure)의 관점에서 경험(Experience)으로 부터 배워, 성과지표의 값이 향상된다면.. [SW Engineering] 디자인 패턴(Design Pattern) (2) - 스프링이 사랑한 디자인 패턴 디자인 패턴은 자주 접하는 설계 문제를 해결해주는 솔루션으로 크게 구분하면 생성 패턴, 구조패턴, 행위패턴으로 구분되며 23개의 대표적인 패턴이 존재한다. 나는 최근 Spring 프레임워크를 학습하고 있다. Spring에서 자주 사용되는 디자인 패턴에 대해서 알아보자. 스프링(Spring) 스프링(Spring)은 Java 엔터프라이즈 애플리케이션 개발에 사용되는 오픈소스 프레임워크이다. 개발자들이 도메인(비즈니스 로직, POJO*)에 집중할 수 있도록, 개발에 필요한 부가 설정(보안, 트랜잭션, 로깅 등)을 간단하게 적용할 수 있게 도와준다. *POJO : Plain Old Java Object " 스프링의 핵심 철학은 객체지향의 기본으로 돌아가자는 것" 스프링은 Object(객체)를 중요시하며, 객체를.. [SW Engineering] 디자인 패턴(Design Pattern) (1) - 디자인 패턴이란? 디자인 패턴이란? 디자인 패턴은 자주 접하는 설계 문제를 해결해주는 증명된 솔루션을 체계적으로 정리한 것으로, 다양한 분야의 객체지향 프로그램을 설계하는 과정에서 자주 반복되는 설계 문제를 해결해준다. GoF(Gang of Four)의 23가지 디자인 패턴 중 싱글턴 패턴(Singleton Pattern)은 '어떻게 하면 시스템 안에 객체가 유일하게 존재하게 하는가?' 라는 문제를 해결해준다. 그림 1의 Subject 클래스가 하나만 존재하고 싶은 클래스이다. 클래스 안에 정적인 인스턴스 변수로 자신의 타입을 가지게 하고 생성자를 외부에서 사용하지 못하도록 private으로 선언한다. 또한, getInstance() 함수는 최대 한 개의 객체만 생성하도록 하고 다른 외부 객체에서 정적 호출을 통해 접근하.. 이전 1 2 다음