Технологийн хурдтай хөгжил нь бидэнд маш олон боломжийг олгож байна. Бид ямарваа нэг зүйлийг мэдэх хэрэгцээ гарвал интернэт байхад л хангалттай. Сургуульд суралгүйгээр боловсрол эзэмших боломж бүрдэж, гэрээсээ ч интернэт ашиглан мөнгө олох болсон. Боломж бидэнд ойртохын хэрээр түүнтэй холбоотой дата асар ихээр нэмэгдэж байна. Бид мэдээлэл хүлээн авдаг байсан бол одоо үүсгэгч болсон. Боинг 737 онгоц Америкийн Нэгдсэн улсын дээгүүр нэг удаа нислэг үйлдэхэд 240 ТВ хэмжээтэй өгөгдөл үүсдэг байна. 2013 оны байдлаар дэлхий дээрх нийт өгөгдлийн 90 хувь нь сүүлийн 2 жилийн дотор бий болсон байдаг ба үүний 70 хувийг ямар нэгэн аж ахуйн нэгж, байгууллага биш харин хувь хүн бий болгосон гэсэн судалгааг IBM-ээс гаргажээ. Үүний ард мэдээж та бидний мэддэг Big Data буюу их өгөгдөл үүсэж байдаг.
Хэрвээ та хаа нэгтээ Их өгөгдлийн талаар судалгаа, нийтлэл уншиж байхад эдгээр мэргэжлийн нэр томьёонууд гарч ирж байсан уу? Тэгвэл бид таны мэдлэгт нэмэр болох үүднээс нэр томьёонуудыг тайлбарлахыг зорилоо.
- Apache Hadoop – Apache-с гаргасан эх өгөгдлийн технологи болох Hadoop нь найдвартай ажиллагаатай, өргөтгөх боломж бүхий Opensource технологи юм. Нэг серверийг олон тооны машинаар өргөтгөх боломжтой буюу их хэмжээний өгөгдлийг тус олон тооны машинуудад байршуулан ачаалуулдаг. Найдвартай ажиллагааны хувьд энэ нь олон тооны машин зэрэг ажиллаж байгаа бөгөөд аль нэг нь ажиллагаагүй болсон тохиолдолд түүнтэй холбогдож байсан программ хангамж өөр машинтай холбогдон үйл ажиллагаагаа хэвийн үргэлжлүүлэн ажилладгаараа онцлог юм. Жишээ нь: Google бидний хайлтыг түргэн хугацаанд гүйцэтгэхийн тулд энэ технологийг ашигладаг.
- Data Lake – Энэ нь бүтэцлэгдсэн болон бүтэцлэгдээгүй өгөгдлүүдийг бүгдийг нь төвлөрүүлэн нөөцлөх сан юм.
- Data warehouse – Ямарваа нэг байгууллагын бүхий л хугацааны турш хуримтлуулсан мэдээлэл, өгөгдлүүдийн уурхай юм. Нэг ёсондоо мэдээлэл, өгөгдлүүдийг нэг цэгээс түргэн шуурхай, цэгцтэй олж авах, түгээх боломжийг олгодог.
- HDFS –HDFS нь өгөгдлийг жижиглэн хуваагаад, тэдгээрийг олон серверүүдэд тархаан байрлуулж, зэрэгцээгээр боловсруулдаг систем юм. Бас нэг давуу тал нь олон газар хуваагдсан файлын хэсэг бүрийг бусад сервер рүү хуулбарлан байрлуулснаар аль нэг серверт алдаа гарахад бусад серверээс өгөгдлийг сэргээн үйл ажиллагааны хэвийн байдлыг хангадаг.
- Name node - HDFS файл системийн цөм нь бөгөөд өгөгдлийг өөрөөр нь хадгалдаггүй харин файлуудыг кластер дээр хаана тархаан байрлуулсан талаарх мэдээллийг хадгалдаг. Хэрэглэгч ямар нэг файлыг олохын тулд NameNode -тэй харьцдаг. NameNode өөрт байгаа файлуудын тухай мэдээллээс DataNode-г олж өгдөг.
- Data node – Энэ нь файлуудыг кластер дээр тухайн файлын өгөгдлүүдийг хадгалдаг.
- Map reduce – Их өгөгдлийг зэрэгцээгээр боловсруулах программ хангамжийн фрэймворк бөгөөд Apache Hadoop-с гадна их өгөгдөлтэй ажилладаг хэрэгслүүд уг фрэймворкийг ашигладаг. MapReduce нь бүтэцлэгдсэн болон бүтэцлэгдээгүй өгөгдлүүдтэй ажилладаг. Map Reduce фрэймворк нь map болон reduce гэсэн хоёр үндсэн функцээс бүрддэг. Map нь процессыг жижиглэн хуваах ба хуваалт бүр нь зэрэг ажилладаг. Reduce нь хуваасан процесс бүрийн гаргасан үр дүнг нэгтгэж эцсийн үр дүн гаргах үйлдлийг хийдэг.
- Sqoop – Sqoop нь Hadoop болон өгөгдлийн сан удирдах системүүдийн хооронд багц өгөгдлийг дамжуулах үүрэгтэй холболтын хэрэгсэл юм. Өгөгдлийн сан удирдах системээс Hadoop систем рүү өгөгдөл оруулах, Hadoop системээс өгөгдлийн сан удирдах систем рүү өгөгдөл гаргах гэсэн хоёр чиглэлтэйгээр ажилладаг.
- NOSQL – “Not Only SQL” буюу өгөгдлийн санг удирдах “SQL” -гүй өгөгдлийн сан бөгөөд өгөгдлийн сангийн олон төрлийн, өргөн хүрээний өөр өөр технологиудыг өөртөө агуулдаг.
- Yarn - Hadoop-нөөцийн удирдлагад ашиглагддаг нөөц хуваарилагч юм.
- Hadoop Libraries - Hadoop-тэй ажиллахад зориулагдсан 3дагч модулиуд юм.