Өнөөдрийн байдлаар их өгөгдөл ямар түвшин байна вэ? Дата хувьсал буюу дүн шинжилгээний шаардлага 

May 26, 2021

Өгөгдөл хаа сайгүй бий болж байгаа энэ үед түүн рүү нэвтрэх, дүн шинжилгээ хийх шаардлага тулгарч байна. “Big data” хэмээх нэршил түгээмэл хэрэглэгдэж байгаа ч их өгөгдлийн “гурван V” буюу хэмжээ, төрөл, хурд (volume, variety, and velocity)-ийг л практик шинжилгээнд ашиглаж байна. Хэдийгээр үнээс олон тодорхойлолт, нэмэлт ойлголтууд байдаг боловч өнөөдрийн хувьд их өгөгдөл нь жирийн утгаараа өгөгдөл хэдий боловч түүнийг цуглуулж, цэвэрлэж, ойлгож ашиглах хүртэл нэлээд ажил ордог. 

Дижитал шилжилт бүх салбар, бүх байгууллагуудыг хамарч байгаа өнөө үед интернэтэд холбогдсон “юмсаас” асар олон төрлийн, олон эх үүсвэрээс өгөгдөл цугларч байна. Иймээс байгууллагууд урьдынхаасаа илүү олон төрлийн өгөгдлийг цуглуулах, цэгцлэх, шинжилгээ хийж байна. Схемгүй бүтэцтэй JSON-оос эхлээд хамааралт өгөгдлийн сан болон NoSQL, Avro, Parquet, XML гэх мэт бүтэцлэгдээгүй өгөгдлийн сангууд байгаа учир холбогдохоос эхлээд бэрхшээлүүд олон гарч байна. 

 

Байгууллагууд доорх байдлаар хуваагдсан байдаг: 

  • Бүтэцлэгдсэн өгөгдөл (Structured data) нь урьдчилан бэлтгэсэн in-memory-нд зохион байгуулсан, шинжилгээнд зориулан нэгтгэсэн бүтэц юм. Ашиглахад хялбар учраас ихэнх байгууллагууд үүнийг хэрэглэж байна. 

  • Хагас бүтэцлэгдсэн өгөгдөл (Semi-structured data or object storage) гэдэг нь хамааралт өгөгдлийн сан, өгөгдлийн агуулах (warehouse), өгөгдлийн мартуудыг хэлж байна. Эдгээрийг тухайлсан бизнесийн шаардлагаас хамааран тодорхойлох ба асуулт нь тодорхой боловч хариулт нь тодорхойгүй үед буюу жишээ нь гүйлгээнүүд, үүссэн боломжууд дээр авах борлуулалтын ажилтны авах арга хэмжээ гэм мэт бизнесийн тухайлсан асуудлуудыг шийдэхэд ашиглана. 

  • Түүхий, бүтэцлэгдээгүй өгөгдөл (Raw, unstructured data) нь өгөгдлийн нуур эсвэл үүлэн агуулахад (data lake, cloud storage) түгээмэл ашиглагддаг. Үүнд нийгмийн сүлжээний өгөгдөл, IoT төхөөрөмжүүд зэрэг хамаардаг. Үүнийг өгөгдлийн мэргэжилтнүүд буюу data scientist-ууд олборлох болон хөрвүүлэлт хийх боловч нөөц бололцоо нь бүрэн тайлагдаагүй байгаа юм.  

 

Зарим өгөгдлөөс үнэ цэнэ бий болгоход хэцүү боловч мэдлэгт суурилсан ажилтнуудын хувьд шийдвэр гаргалтад өгөгдлийн шинжилгээг ашиглах нь амин чухал юм. Өгөгдлийн шинжилгээ, дүрслэл хийхэд улам бүр төвөгтэй болж байгаа учраас аппликейшнууд үүлэнд суурилах болов. Учир нь өгөгдлийн хэмжээ, төрөл огцом өсөж байгаа учраас өгөгдлийн процесс, хадгалах төхөөрөмжийн уян хатан нөхцөлөөрөө үүлэн технологиуд илүү давуу байна. Байгууллагууд дотоодын төхөөрөмж эсвэл үүлэн технологи ашиглахаас үл бүх ажилтнууддаа өгөгдөлд нэвтрэх, түүнд дүн шинжилгээ хийх эрх чөлөөг олгосноор шинэ боломжуудыг нээн илрүүлэхэд тустай юм.  

Орчин үеийн шинжилгээний хэрэгслүүд чадвараас үл хамаараад бүх түвшний ажилтнуудад өгөгдлийг баялаг бүтээх түүхий эд болгон ашиглахад нь тус болж байна. Бизнесийн хэрэгцээ хувьсан өөрчлөгдөж байгаа тул их өгөгдлийн стратеги, архитектур хурдан өөрчлөгдөж байна (agile, adaptable). Зөвхөн өгөгдлийн холболтыг бодон ганц төрлийн платформыг биш харин их өгөгдлийн цар хүрээг өргөнөөр тооцож нэвтрүүлэх нь байгууллагын цаашдын хэрэглээнд ач тусаа өгч байгаа.  

https://www.tableau.com/sites/default/files/whitepapers/tableau_big_data_overview_whitepaper.pdf 

https://www.youtube.com/watch?v=Dxcp6BLAbhY 

https://www.tableau.com/solutions/hadoop 

https://2xbbhjxc6wk3v21p62t8n4d4-wpengine.netdna-ssl.com/wp-content/uploads/2012/06/Using_Tableau_with_Hortonworks_Data_Platform.v1.0.pdf 

 

Г.Цэнгэл

Контент менежерМэдээллийн Технологийн салбарын хэрэглэгчид болон харилцагч байгууллагуудад зориулсан контент бүтээх, Дижитал, Сошиал медиа, Контент маркентинг хариуцсан менежер