1등급 AIDE 예측 이론 요약
인공지능(AI) 시대에 인공지능이 더 정확하고 숙련된 기술을 학습할 수 있도록 ‘데이터 레이블“일은 정말 중요합니다.
데이터 라벨링의 중요성이 커짐에 따라 ‘데이터 라벨러’ 노하우또한 점점 더 중요해지고 있습니다. 인공 지능 데이터 전문가(AIDE)이러한 전문 분야를 인증하는 자격 증명입니다. 보좌관 레벨 1고급 인공지능 이론과 시험 능력을 인증하는 자격입니다.인공지능 데이터 전문가 1급‘.
AIDE 자격증에 대한 소개글을 따로 쓰기로 했고, 이 글에서 AIDE 레벨 1 인증을 받으려면 예상출원 이론만 공부하고 정리하겠습니다.
아래 내용은 제가 공부하면서 정리한 내용인데 실제로 1학년 합격했어요! ^^
다음 내용을 잘 공부하면 시험에 합격할 수 있습니다!
무엇최선을 다하세요!
● 인공지능 방법론
1. 4차 산업혁명 : 지성 ( 일체 포함 )그리고 정보 ( 빅 데이터 )의 발전을 통한 산업혁명
· 4차 산업혁명: 21C초. 인공지능, 빅데이터, 사물인터넷, 3D프린팅, 로보틱스, 공유경제, 드론
· 19~20C 초반: 전력, 대량생산 혁명
· 3. 산업혁명: 20세기말 컴퓨터, 인터넷, 지식정보혁명
2. AI 서비스 개발 4단계
⓵ 데이터 수집 ➞ ( ⓶데이터 처리(전처리) ) ➞ ⓷ 모델 생성 ➞ ⓸ 서비스 개발(API 개발)
3. M2M
· M2M(Machine To Machine)은 IoT 사물(지능) 통신을 의미합니다. 기계 간, 사람이 조작하는 장치와 기계 간 통신. 사람의 개입이 없는 무인 지능형 서비스
· AI 서비스의 개발 단계 ( 데이터 수집 )에 해당
4. 데이터 가공(전처리)
· 수집된 데이터 인공지능이 학습할 수 있는 형태의 데이터화제조 공정
· 데이터 처리 작업: ⓵ 데이터 라벨링, ⓶ 분류/정렬, ⓷ 형식 변경, ⓸ 결합/변환
· 인공지능이 학습할 수 있는 형태로 데이터를 생성하는 작업( 데이터 레이블 ) 라고 합니다
· 데이터 처리 작업( ⓵데이터 레이블 ) 및 데이터, ⓶ 분류 및 정렬, ⓷ 데이터 형식 변경, ⓸ 데이터를 결합 및 변환하여 데이터를 처리합니다.
5. AI 모델 구축 프로세스
⓵ 모델 개발 ➞ ⓶데이터 입력 ➞ ⓷ 데이터 학습 ➞ ⓸ 모델 수정
· 데이터 레이블에 해당하는 모델을 만듭니다. 데이터 입력 + 데이터 학습
· ( 데이터 레이블 )AI의 품질은 인공지능의 성능을 결정하는 중요한 요소다.
6. 기계 학습
지능형 에이전트, 협업 행동 지능, 논리적 지식 표현, 상황 감정 이해, 시각 언어 및 청각 기능을 활용한 모델
7. 인공지능(AI)
인간의 뇌를 모방하다 인공 신경망 ) 및 다양한 ( 기계 학습 ) 알고리즘에 의해 구현
8일. 실시간 서비스(API 개발)
인공지능 모델 구축은 예측 가능한 수치 정보를 수집하는 형태로만 구현되며 사용자가 쉽게 접근할 수 있는 결과물이 아닙니다. 따라서 사용자가 볼 수 있는 서비스로 개발됩니다. B. 스마트폰 애플리케이션 또는 홈페이지.
9. 퍼셉트론
· 인간의 뉴런 구조컴퓨터를 그대로 구현하여 만든 컴퓨터 프로그램
· 1957년 (Rosenblatt)에 의해 개발된 알고리즘
· 딥 러닝의 기원(신경망)알고리즘이 되기 위해
· 퍼셉트론의 구조: 입력값, 무게 / 총 입력값 / 활성화 기능 / 출력값
10. 인공신경망 (앤: 인공 신경망)
· 생물학의 신경망영감을 얻은 학습 알고리즘
· 신경망은 가장 기본적인 인공 지능입니다.
· 입력층, 은닉층, 출력층구성
⓵ 입력 레이어(입력 레이어): 데이터를 학습하고 입력하는 레이어
⓶ 히든 레이어(숨겨진 레이어) : 입력 데이터를 여러 단계로 처리하는 계층
⓷ 베이스 레이어(출력 레이어): 처리 결과를 출력하는 레이어
11. 인공지능 방법론
· 도달 범위가 가장 긴 순서대로: 인공 지능(크기가 큰) > 기계 학습 > 딥러닝(작은)
· 머신러닝과 딥러닝의 차이점은 무엇인가요? 기계가 스스로 학습하는지 여부
● 인공 지능(AI): 인간지능을 컴퓨터로 실현하는 단계(최종목표)
● 기계 학습(ML)
· 자기 학습인공지능 성능 향상 기술 (특정 작업의 자체 학습)
· 데이터의 다양한 속성을 본인이 직접 분석/판단
· 부분의 인간 개입 필요
● 딥 러닝(DL)
· 인간의 뉴런과 비슷하다. 인공 신경망배운 기술로
· 머신러닝의 한계를 뛰어넘는 기술
· 자동으로 기계 학습데이터에서 특징 추출
· 사람 개입 필요X (데이터를 제공하는 사람)
· 딥 러닝은 예측 및 회귀에 광범위하게 사용됩니다.
· 기계 학습 방법 중 하나
· 기계 학습을 위한 최고의 성능발휘하다
12. 기계 학습 학습 방법
⓵ 지도배우다(감독 학습): 질문, 정답 및 답변을 알리고 배웁니다. (예측, 분류, 회귀)
⓶ 레인 카드배우다(비지도 학습): 답을 주지 않고 배우는 것 (연관 규칙, 클러스터링)
⓷ 힘배우다 (강화 학습): 보상을 통해 학습하는 방법 (손해배상)
※ 3가지 머신러닝 방법 중, 딥 러닝어디에 해당합니까? 지도배우다
13. 지도학습(감독 학습)
· 문제와 정답의 이름을 지정하고 다음을 배우십시오. 딥 러닝
· 뛰어난 성능을 발휘하지만 단점은 질문과 답변을 많이 해야 한다는 것입니다.
· 비지도 학습보다 쉽습니다. 일반 레이블이 지정된 데이터 레이블 사용
· 지도 학습은 분류 및 회귀에 사용되는 인공 지능 학습 방법입니다.
· 예: 그림 카드
● 많은 양의 데이터
14. 빅데이터의 배경
· 인터넷과 모바일 기기, 소셜 미디어와 스마트폰의 확산으로 빅데이터 시대에 접어들었습니다.
· 기존 구조화된 데이터에서 대량의 비정형 데이터데이터 볼륨
· 대량의 정형 및 비정형 데이터에서 가치 추출할 수 있는 기술: 빅 데이터
· 컴퓨터의 발달로 인해 변화하는 데이터의 양과 형태
15. 빅데이터 3V
용량 : 데이터 볼륨, 수십 테라스케일, 레코드, 트랜잭션 증가
속도(자전거도시) : 실시간 처리, 실시간 분석, 스트리밍
다양성 : 데이터 다양성, 정형 데이터, 비정형 데이터, 반정형 데이터
※ 대용량 데이터 4V
용량
속도
다양성
+ 정확도 (베라도시)
※ 대용량 데이터 5V
용량
속도
다양성
정확성
+ 가치
17. 데이터 유형
⓵ 정형외과(구조) 데이터
· 구조화된 데이터, 고정 필드에 저장된 데이터. 전) 데이터베이스, Excel, CSV, 정량화 가능한 데이터
⓶ 반구조화된(반구조화) 데이터
· 고정 필드는 아니지만 스키마를 포함하며 계산할 수 없습니다. 전) XML, HTML, JSON 등
⓷ 전형적인 아닌(구조화되지 않은 데이터
· 고정되지 않은 데이터, 예측 불가능, 형태가 없는 것. 전) 소셜 데이터, 비디오, 오디오, 이미지
18. 빅데이터의 특징
· 차단하다의 모든 데이터
· 데이터 가치 및 결과 분석 기술
· 빅데이터 플랫폼의 등장(하드웨어, 소프트웨어, 애플리케이션의 등장)
· 대규모 데이터 관리 기술
· 인공지능: 학습에 좋은 데이터( 라벨링 ) 필요한
· 빅 데이터: 인공 지능 학습을 위한 처리( 전처리 ) 필요한
19. 빅데이터 처리과정(총 6단계)
⓵데이터 소스 ➞ ⓶ 컬렉션 ➞ ⓷저장 ➞ ( ⓸소송 절차 ) ➞ ⓹ 분석 ➞ ⓺표현
20. 데이터 라벨링 구축을 위한 5단계
사명 정당성 ➞ 데이터 인수 ➞ 데이터 태블릿(출처데이터) ➞ 데이터 마킹(마킹 데이터) ➞ 데이터 배우다
21. 날짜 인수
· 원시데이터: 음성, 이미지, 동영상, 텍스트 등 기계 학습을 위해 수집 단계에서 수집/생성된 데이터
· 다양한 교통수단을 구별하는 AI
22. 날짜 정제하다
· 원천데이터: 필요한 형식이나 크기에 맞게 변환합니다. 데이터 중복 제거. 예) 개인정보를 익명화하기 위한 검색 형태의 정보, 수집된 이동수단의 번호판은 보이지 않음
· 데이터 레이블 : 인공지능이 학습에 사용할 수 있도록 라벨을 붙이는 작업
23. 데이터 라벨링
· AI 모델 학습을 위해 데이터를 기계가 사용할 수 있는 형태로 처리
· 기록): 인공지능 학습에 필요한 관련 데이터 수집
· (원천 데이터) 및 (라벨링 데이터 수집)
· 마킹 유형: PASCAL VOC, YOLO, CreateML 등
24. 크롤링
· 인터넷의 엄청난 양의 데이터우리는 어디에 쉽게 분석하고 사용할 수 있는 데이터 수집하는 행위
· 크롤러 – 크롤링하는 프로그램
· 크롤러를 통해 웹 정보를 분석하고 수집합니다.
25 API (프로그래밍 인터페이스)
· 다른 사람이 만든 프로그램을 보다 쉽게 사용할 수 있도록 고안된 프로그램
· 각 개인의 데이터 프로그램에 대한 권한( 인증키 ) 사용
· 인공 지능 및 빅 데이터에서 일반적으로 사용
· 사용자는 종종 API를 사용하여 빅 데이터를 탐색합니다.
● AI 알고리즘
26. 인공 지능 객체 감지 방법
단일 객체와 다중 객체를 감지하는 방법이 다릅니다.
⓵ 싱글 물체 (개체 1개): 감지할 객체 1개, 분류 + 지역 지정
➊분류(분류)
– 배움으로 물건 찾기
– 데이터셋(데이터, 정답 레이블)을 함께 학습한 인공지능 이를 기반으로 새 이미지가 식별됩니다.할 과정
– 배우지 않은 수업은 인정되지 않습니다.
➋범위 표시기(현지화)
– 감지된 물체 정보의 위치를 박스 형태로 분류하여 쉽게 볼 수 있도록 표시
⓶ 다중 물체 (여러 객체): 여러 개체를 인식해야 합니다. 객체 인식 + 시맨틱 분할
➊물체 감지(물체 감지)
– 감지된 객체의 영역을 바운딩 박스와 색상으로 학습하여 표시하여 여러 객체를 감지하는 과정
➋의미론적 분류(인스턴스 세분화)
– 객체 인식을 위해 이미지 내에서 의미 있는 단위로 분할
– 인공지능의 정교하고 복잡한 구현을 위해 이미지의 각 영역에 의미를 부여하는 방식
27. 딥 러닝 작동 방식
· 딥 러닝에는 많은 양의 훈련 데이터와 학습이 필요합니다.
· 배우다데이터 : 훈련(기차) 데이터(80%) + 평가분류(20%) 및 (테스트) 데이터로 사용
· 훈련 세트: 반복 학습(epoch)으로 손실을 줄이고 정확도를 높입니다.
· 평가 세트: 테스트 세트를 사용하여 학습이 성공할지 여부를 예측합니다.
28. AI 프로그램 개발 과정의 5단계
⓵ 도서관 읽어
⓶ 데이터 읽기 전처리하다
⓷ 신경망 닫다
⓸ 모델 생성(배우다하다)
⓹ 모델 적용(예측하다)
29. 심층신경망: DNN
· 심층 신경망: 입력 계층 ➞ 중산층 ➞ 베이스 레이어
· 퍼셉트론의 구조: 입력값, 무게 / 총 입력값 / 활성화 기능 / 출력값
30. 딥러닝의 구조
· 입력 레이어(노드1 + 가중치1) ➞ Hidden Layer (Hidden Layer, 활성화 기능) ➞ 베이스 레이어
· 노드와 가중치의 합을 출력하기 위해 활성화 함수를 사용하여 출력을 출력 신호로 변경합니다.
31 활성화하다기능
· 입력 데이터의 가중치 합 출력 신호로 변환기능
· 활성화 함수의 종류: ⓵ Sigmoid (시그마) 함수, ⓶ 쌍곡선(탄) 함수, ⓷ relu 함수(질색)
⓵ 시그모이드(시그마) 기능
· S자형과 유사한 완만한 S자형 곡선을 보여줍니다.
· 모든 실제 입력 값 0보다 크고 1보다 작음 미분 가능한 숫자로 변환
· 로지스틱 분류와 같은 분류 문제 가설 및 비용 함수에 자주 사용됩니다.
⓶ 쌍곡선 (탄) 기능
· 하이퍼볼릭 탄젠트라고도 함
· 함수 값 -1과 1 사이실제 숫자에 한함
· 경사 하강법 사용시 시그모이드 함수에 의한 바이어스 쉬프트 출력은 발생하지 않습니다.
· 기울기는 양수와 음수가 모두 가능하므로, 시그모이드 함수보다 더 효율적이것은 훌륭하다
⓷ 루루(질색) 기능
· 히든 레이어에서 일반적으로 사용되는 기능
· 선형 함수라고합니다
· 블록 – +/-가 반복되는 신호 흐름
· 기울기 손실 문제 없음 많이 사용
※ 손실함수 : (손실함수의 값이 최소화 되도록) 무게 )그리고 ( 편견 ) 찾기 학습
※경사 하강법 : 최적화 방법 중 하나. 함수의 기울기 찾기 기울기가 적은 쪽(기울기의 절대값)극값에 도달할 때까지 반복합니다.
32. 최적화 함수의 최저값을 찾는 방법
기세
아다그라드
RMS 소품
에이다델타
Adam (현재 가장 많이 사용되는 옵티마이저)
● 딥러닝 알고리즘 : CNN, RNN, GAN (사용하는 알고리즘은 목적에 따라 다름)
33 합성제품 신경망 – CNN(신경 컨벌루션 네트워크)
· 이미지 및 비디오 인식과 같은 사진 및 비디오 필드활용
· 컨볼루션 필터가 사진을 통해 사진의 특징을 찾는 과정
· 컨볼루션은 인간의 뇌가 시각을 받아들이는 과정입니다. “시각 피질”의 구조를 모방합니다.수행하는 방법
· 데이터의 속성을 분석하여 패턴을 식별하는 구조
· CNN(Convolutional Neural Network)은 데이터 특성을 분석하여 패턴을 식별하는 구조입니다. ( 접는 )수업 ( 풀링 풀링 ) 절차를 진행합니다.
· 입력 영상에 필터를 통과시켜 영상의 특징을 찾는 방법으로( 컨볼루션 컨볼루션 ) 이미지가 축소되고 명확한 정보 가치가 있습니다.
※회선: 여러 필터로 이미지 세부 정보 추출어떻게 배우나요
※풀링: 폴드를 통과한 후 다시 데이터의 크기를 줄이는 역할하다
· 컬러 이미지는 RGB(빨간색, 녹색, 파란색)에서 세 개의 채널로 감지되었습니다. 흑백은 하나의 채널로 인식
· RGB 값 채널~라고 불리는
· 합성곱 신경망(CNN)은 입력 값을 RGB 채널로 분리하고 분리된 데이터에서 특징 맵을 사용하여 특징점을 찾습니다.
· 특징 찾기 과정 접는 컨볼루션을 거친 불린 데이터는 다시 크기를 줄이기 위해 사용됩니다. 겹프로세스를 통해 이를 반복합니다.
· CNN의 전체 순서도: 입력 RGB 기능 맵 풀링 분류기
34 주기 신경망 – RNN(반복 신경망)
· 음성 및 언어 처리에 사용
· 레이어의 출력이 주기적으로 수행되는 신경망
35. 생성 적의 신경망 – 거위(생성적 적대 신경망)
· 이미지 생성, 이미지 복원움직임 모방, 신약 개발, 음성 생성, 편집, 변환 등
· 생성자 및 구분 기호 적대적및 데이터 생성) 모델
· 발전기 : 초상화 만들기
· 판별기 : 생성된 초상화 평가하기
· 생성자 및 구분 기호 반대점차적으로 서로의 성능을 향상시키는 학습 방법
· 가짜 데이터 대량 생산통해 데이터 부족을 보완
· 당신은 무제한 진짜 가짜 날짜를 만들 수 있습니다
· 이안 굿펠로우가 발명한
● 데이터 검증
36. 검사 순서
· 검사 가이드 및 작업 가이드에 대한 숙지
· 집중할 수 있는 환경 만들기
· 검사 진행
· 편집된 데이터를 자세히 살펴보십시오.
· 거절 사유를 구체적이고 명확하게 작성
· 문제 발생 시 Data PM과 소통
37. 검사 전 준비
· 지침 숙지: 검사 지침 및 작업 지침을 주의 깊게 검토하십시오.
· 업무환경 : 집중할 수 있는 환경 조성
· 거부된 경우 거부 이유를 구체적이고 명확하게 작성하고 제공하십시오.
· 거절의 경우 거절사유와 수정할 내용을 명확하게 기재