Data Engineering/Hadoop
[Hadoop Study] vol 1. Hadoop์ด๋?
Hadoop
๋ฐ์ดํฐ๋ฅผ ๋ถ์ฐ ์ฒ๋ฆฌํ ์ ์๋ ์๋ฐ๊ธฐ๋ฐ์ ์คํ์์ค ํ๋ ์์ํฌ
๋ฑ์ฅ ๋ฐฐ๊ฒฝ
- ๊ตฌ๊ธ์ด ๋์ฉ๋ ๋ฐ์ดํฐ ์ฒ๋ฆฌ๋ฅผ ์ํด GFS(Google File System)๊ณผ MapReduce ๊ธฐ์ ์ ๊ฐ๋ฐํ๊ณ ๋ ผ๋ฌธ์ผ๋ก ๋ฐํํ๋ค. ํ์ง๋ง ๊ณต๊ฐํ์ง ์์.
- ๋๊ทธ ์ปคํ (Doug Cutting)์ด๋ฅผ ์ฐ๊ตฌํ์ฌ Hadoop์ ๊ฐ๋ฐํ๊ณ Apache(๋น์๋ฆฌ SW ์ฌ๋จ)์์ ์คํ์์ค๋ก ๊ณต๊ฐํ๋ค.
์ฒ ํ
- ์ผ๋ฐ์ ์ธ ํ๋ก๊ทธ๋จ์ ๋ฐ์ดํฐ๋ฅผ ํ๋ก๊ทธ๋จ์ด ์๋ ์ปดํจํฐ์ ๊ฐ์ ธ์์ ์ฒ๋ฆฌํ๋ค.
- ํ์ง๋ง ํ๋ก์ ๋ฐ์ดํฐ๊ฐ ์๋ ์ปดํจํฐ์ ํ๋ก๊ทธ๋จ์ ์ ์กํ์ฌ ์ฒ๋ฆฌํ๋ค.
- ๋ฐ์ดํฐ๊ฐ ๋์ฉ๋์ผ ๊ฒฝ์ฐ, ๋ฐ์ดํฐ๋ฅผ ์ฎ๊ธฐ๋ ๊ฒ๋ณด๋ค ํ๋ก๊ทธ๋จ์ ์ฎ๊ธฐ๋ ๊ฒ์ด ํจ์จ์ ์ด๋ผ๋ ๊ฐ๋
์๋ฆฌ
- ๊ณ ์ฑ๋ฅ ์ปดํจํฐ ํ๋ VS ์ ๋นํ ์ฑ๋ฅ์ ์ปดํจํฐ ์ฌ๋ฌ ๋๋ก ๋ณ๋ ฌ์ฒ๋ฆฌ -> ํ๋ก์ ํ์
- ๋น ๋ฐ์ดํฐ๋ฅผ ์ฌ๋ฌ ๋๋ก ๊ตฌ์ฑ๋ ํด๋ฌ์คํฐ์์ ๋ณ๋ ฌ๋ก ๋์์ ๋ถ์ฐ์ฒ๋ฆฌํ์ฌ ์๋๋ฅผ ๋์ด๋ ๊ฒ์ด ๋ชฉ์
์ฅ๋จ์
์ฅ์
- ์คํ์์ค๋ก ๋ผ์ด์ ์ค์ ๋ํ ๋น์ฉ๋ถ๋ด์ด ์ ์ >> ๋น์ฉ๋๋น ๋น ๋ฅธ ๋ฐ์ดํฐ ์ฒ๋ฆฌ(Open Source)
- ์์คํ ์ ์ค๋จํ์ง ์๊ณ , ์ฅ๋น์ ์ถ๊ฐ๊ฐ ์ฉ์ด(Scale Out)
- ์ผ๋ถ ์ฅ๋น์ ์ฅ์ ๊ฐ ๋ฐ์ํด๋ ์ ์ฒด ์์คํ ์ด์์ ์ํฅ์ด ์ ์(Fault Tolerance)
- ์คํ๋ผ์ธ ๋ฐฐ์น ํ๋ก์ธ์ฑ์ ์ต์ ํ
๋จ์
- HDFS์ ์ ์ฅ๋ ๋ฐ์ดํฐ ๋ณ๊ฒฝ ๋ถ๊ฐ
- ์ค์๊ฐ ๋ฐ์ดํฐ ๋ถ์์ฒ๋ผ ์ ์ํ ์์ ์ ๋ถ์ ํฉ
- ๋ฒ์ ๋ณ ์ฐ๋ ์ด๋ ค์
- ์ค์น์ ์ธํ ์ ์ด๋ ค์
๊ตฌ์ฑ์์
- HDFS(Hadoop Distributed File System) : ์ฌ๋ฌ ์๋ฒ๋ฅผ ํ๋์ ์๋ฒ์ฒ๋ผ ๋ฌถ์ด์ ๋ฐ์ดํฐ ๋ถ์ฐ ์ ์ฅ ๋ชจ๋
- MapReduce : ๋ถ์ฐ ์ ์ฅ๋ ๋ฐ์ดํฐ๋ฅผ ๋ณ๋ ฌ ์ฒ๋ฆฌํ ์ ์๊ฒ ํด์ฃผ๋ ๋ถ์ฐ ์ฒ๋ฆฌ ๋ชจ๋
- ๊ธฐ๋ฅ์ด ์ ์ฐจ ์ถ๊ฐ๋์ด Hadoop EcoSystem์ผ๋ก ํ์ฅ๋จ
์ฐธ๊ณ ์ฌ์ดํธ
opentutorials.org/course/2908/17055
๋๊ธ