01_Hadoop_Practice - Hive :: [데이터 엔지니어] 나의 개발일지

01_Hadoop_Practice - Hive

2022. 2. 15. 17:28

728x90

# 01_Hadoop_Practice - Hive(mk-100k : 영화 평점 데이터)

1. Hive View 들어간다.

### 2. 사용할 파일을 업로드하기 위하여Upload Table에 들어간다.

3. 환경설정 버튼을 눌러서 업로드할 파일의 타입을 설정한다.

4. 우리가 받은 mk-100k의 데이터의 u.data의 데이터 구분이 TAB으로 되어 있기 때문에 TAB을 설정하고 Close를 누른다.

5. Select from local의 파일 선택을 누르고 내가 업로드하려는 파일의 경로로 가서 파일을 선택하고 열기를 누른다.

6. u.data의 파일에서 내가 Hive에서 사용할 설정들을 다음과 같이 바꾸고 Upload Table을 누르면 업로드가 된다.

7. 업로드가 완료가 되면 다음과 같이 창이 뜨게 된다.

8. 영화에 대한 정보가 들어있는 u.item의 데이터 구분은 |로 되어 있기 때문에 |를 설정해주고 Close를 누른다.

9. u.item이 존재하는 경로에 가서 파일을 선택하고 열기를 누른다.

10. u.item의 파일에서 내가 Hive에서 사용할 설정들을 다음과 같이 바꾸고 Upload Table을 누르면 업로드가 된다.

11. 업로드가 완료가 되면 다음과 같이 창이 뜨게 된다.

12. Query를 사용하여 데이터를 불러오는 실습을 하기 위해 Query 탭을 눌러 이동한다.

13. 데이터를 업로드할 때, 따로 설정을 해주지 않으면 default에 저장이 된다.
cf) 만약 Upload를 했는데, 보이지 않는다면 다른 탭을 갔다오거나 껐다가 켜면 들어와 있다.

Worksheet에 다음과 같은 쿼리를 입력하고 실행을 하면 영화의 Index와 해당 영화를 평점 매긴 사람 수를 카운트해서 카운트한 것을 기준으로 내림차순으로 정렬하여 하단에 보여준다.

14. 오른쪽에 그래프 모양의 아이콘을 누르면 다음과 같은 창이 뜨고 각각을 설정해주면 하단에 그래프로 보여준다.

15. Worksheet에 다음과 같은 쿼리를 입력하고 실행을 하면<br> 영화의 이름 테이블에서 영화의 Index가 50인 데이터의 이름을 보여준다.

728x90

저작자표시 (새창열림)

'하둡 에코 시스템 > Apache Hadoop' 카테고리의 다른 글

[ NameNode ] NameNode HA(High Availability) 네임노드의 고가용성 (0)	2022.04.14
[ Hadoop Storage ] Parquet, Avro (0)	2022.04.13
[ APACHE PIG 실습 ] (0)	2022.02.17

[데이터 엔지니어] 나의 개발일지

01_Hadoop_Practice - Hive

'하둡 에코 시스템 > Apache Hadoop' 카테고리의 다른 글

+ Recent posts

티스토리툴바