August 30, 2021
Big Data буюу “Их өгөгдөл” гэж юу вэ? Үгийн утгаар нь бодвол ямарваа нэг зүйлийн талаарх маш их хэмжээний өгөгдөл гэж ойлгомоор ч юм шиг, эсвэл багтаамж өндөртэй нарийн төвөгтэй өгөгдөл ч юм шиг. Гэвч “Их өгөгдөл” гэдэг нь нэр шигээ зүгээр л их хэмжээтэй гэсэн утгыг агуулдаггүй гэдгийг би судалгааныхаа явцад олж мэдсэн. Үнэндээ “Их өгөгдөл” нь мэдээллийн эрин зуунд улс орон болон үндэстэн дамнасан компаниуд, технологийн гигантуудын бүх зүйлсийн талаар илүү ихийг мэдэх хүсэлд тулгуурласан эрэл хайгуулд үүссэн асар их хэмжээний өгөгдөл, түүнтэй холбогдох бүх ойлголтуудын нэгдэл гэж ойлгож болно. Үүнд өгөгдлийг олж авах, бүтээхээс эхлээд боловсруулах, хайх, түгээх, дамжуулах, шинжлэх, визуал болгох, хамгаалах зэрэг үйлдлүүд орно. Тэгвэл “Их өгөгдөл”-г яагаад ашиглах болсон бэ? Энэ асуултын хариултыг нэгэн жишээгээр тайлбарлая. 10 орчим жилийн өмнө нэгэн худалдааны байгууллага байсан гэж бодъё. Тухайн байгууллагын бүхий л ажил цаасан хэлбэрээр явагддаг боловч энэ нь маш их цаг хугацаа, зардал, бүтээмж шаарддаг байсан тул уламжлалт арга барилаа өөрчлөх шаардлага гарчээ. Энэ байдлаа өөрчлөхийн тулд олон системүүдийг нэвтрүүлэх буюу дор хаяж 10 орчим системүүдийг ашиглана. /Дундаж байгууллагууд дор хаяж 10 систем ашигладаг/ Байгууллага өргөжиж системийн хэрэглээ, цар хүрээ нэмэгдэхийн хэрээр байгууллагад цугларах дата маш их болно. Мэдээж байгууллага өөрийн гэсэн уламжлалт Data warehouse-д датагаа хадгална. Гэвч уламжлалт Data warehouse болон олон системүүдийн хооронд мэдээллийн давхцал үүсэж оновчтой шийдвэр гаргах хугацаа уртасна. Энэ асуудал нь “Их өгөгдөл”-г ашиглах шалтгаан гэж хэлж болно.
“Их өгөгдөл”-г хэрхэн тодорхойлох вэ?
Тэгвэл бид яг юуг буюу ямар өгөгдлийг “Их өгөгдөл” гэж ойлгож болох вэ? Энэхүү асуултын хариултыг “Их өгөгдөл”-г тодорхойлогч 5V-р тайлбарлая.
“Их өгөгдөл”-тэй ажиллах ямар технологи байдаг вэ?
“Их өгөгдөл”-тэй ажилладаг хамгийн нийтлэг бөгөөд шалгарсан технологи бол Hadoop юм. Apache-с гаргасан эх өгөгдлийн технологи болох Hadoop нь найдвартай ажиллагаатай, өргөтгөх боломж бүхий Opensource технологи юм. Нэг серверийг олон тооны машинаар өргөтгөх боломжтой буюу их хэмжээний өгөгдлийг тус олон тооны машинуудад байршуулан ачаалуулдаг. Найдвартай ажиллагааны хувьд энэ нь олон тооны машин зэрэг ажиллаж байгаа бөгөөд аль нэг нь ажиллагаагүй болсон тохиолдолд түүнтэй холбогдож байсан программ хангамж өөр машинтай холбогдон үйл ажиллагаагаа хэвийн үргэлжлүүлэн ажилладгаараа онцлог юм. Жишээ нь: Google бидний хайлтыг түргэн хугацаанд гүйцэтгэхийн тулд энэ технологийг ашигладаг.
“Их өгөгдөл”-н давуу тал юу вэ?
Дээр дурдсан “Их өгөгдөл”-н технологи болох Hadoop-г Commodity Hardware буюу биет төхөөрөмжид суурилсан эсвэл клауд шийдлүүдийг ашиглаж болно. Үүнээс commodity hardware илүү нийтлэг ашиглагддаг шийдэл бөгөөд их өгөгдөл нь танай байгууллагад хуримтлагдсан байгаа өгөгдлүүдийг анализ хийх хурд болон дата хадгалах багтаамж хангалттай болно. Энэ нь яг л Google хайлт шиг маш хурдан хугацаанд хэрэгтэй, оновчтой мэдээллээ олж авч чадна гэсэн үг юм.
“Их өгөгдөл”-ийн хэн, ямар салбарт ашиглаж байгаа вэ?”
Банк - “Их өгөгдөл”-г түлхүү ашиглаж байгаа салбар бол банк билээ. Банкнууд харилцагчдадаа ямар төрлийн үйлчилгээ, бүтээгдэхүүн санал болгох, харилцагдаа ялгаатай бүлэг болгон ангилах, шинээр болон нэмэлтээр зээл олгох, сэжигтэй болон луйврын гүйлгээнээс болон бусад эрсдэлүүдээс урьдчилан сэргийлэхэд ашиглаж байна.
Засгийн газар – Мэдээж “Их өгөгдөл”-г ашиглах зайлшгүй шаардлагатай газар бол Засгийн газар юм. Улс орны өнөөгийн байдлыг тодорхойлох, төлөвлөгөө, төлөвлөлт хийхэд түлхүү ашиглахын зэрэгцээ ил тод байдлыг нэмэгдүүлэх, гэмт хэргийг буруулах, эрүүл мэндийн төлөв байдал зэргийг оновчтой тодорхойлоход ашиглаж байна.
Боловсрол – Боловсролын байгууллагууд мөн “Их өгөгдөл”-г түлхүү ашиглаж байна. Сургалтын чанар, үнэлгээ болон суралцагчдын төлөв байдал, сургалтын системийн хүртээмжтэй байдал зэргийг тодорхойлоход ашигладаг.
Үйлдвэрлэл, Худалдаа – Үйлдвэрлэл болон худалдааны байгууллагуудын нь бараа бүтээгдэхүүний төлөвлөлт, татан авалт болон маркетингийн оновчлол, оновчтой шийдвэр гаргахад ашиглаж байна.
“Их өгөгдөл”-н хүндрэл юу вэ?
“Их өгөгдөл”-г ашиглана гэдэг нь байгууллага бүрийн хувьд боломжтой биш бөгөөд хэд хэдэн хүндрэл тулгарна. Үүнд:
Боловсруулалт – “Их өгөгдөл”-г боловсруулалт хийнэ гэдэг нь амаргүй зүйл бөгөөд техник, тоног төхөөрөмж зэргийг хувьд ихээхэн хүндрэлүүдтэй учирч болзошгүй.
Хадгалах, Нөөцлөх – Нэрийг нь уншихад л ИХ гэдэг үг орсон байгаа бөгөөд “Их өгөгдөл”-г хадгалж, нөөцлөх нь хүндрэлтэй.
Хайх – “Их өгөгдөл”-с хайлт хийнэ гэдэг нь мөн л техник, төхөөрөмжийн байдлаас хамаарах бөгөөд Google шиг ажиллагаатай биш л бол хайлт хийх нь хүндрэлтэй.
Хуваалцах, Шилжүүлэх – “Их өгөгдөл”-г шилжүүлэх, өөр нэг байгууллагатай хуваалцана гэдэг нь маш ажиллагаатай.
Мэдээж хэрэг техник, төхөөрөмж, ажиллах чадамж, хүний нөөц зэрэг нь хангалттай бол эдгээр хүндрэлүүд нь учрахгүй.