Data Streaming гэж юу вэ?

November 22, 2019

Өнөө үед технологи асар хурдтай хөгжиж, тэрхүү хөгжлөөс хоцрохгүйн тулд байгууллагууд их хэмжээний хөрөнгө оруулалтуудыг хийж байна. Үүнтэй зэрэгцээд бизнесүүд маш хурдтай шийдвэр гаргадаг байх хэрэгцээ гарч байна.  

Доорх графикт бизнест ямар нэг зүйл тохиолдох үед арга хэмжээ авахад зарцуулах хугацааг харуулж байгаа бөгөөд энэ нь хугацаа их байх тусам үнэ цэн бага буюу УРВУУ хамааралтай байна.  

 

Diagram, bubble chartDescription automatically generated 

Эндээс бид байгууллагынхаа аль функцийн хэсгийн хурдыг технологийн шийдэл ашиглан сайжруулах буюу хамгийн үнэ цэн өндөртэй “Data Latency” эсвэл “Analysis Latency” хоёрын аль нэгийг багасгах замаар шийдэх боломжтой.  

Diagram

Description automatically generated

Ихэнх байгууллагууд өнгөрсөн хугацаанд уламжлалт загвар буюу “data at rest” загвараар шинжилгээ хийж ирсэн. Энэ загварын хувьд шийдвэрүүдийг хүн гаргадаг бөгөөд энэхүү технологийн өндөр хөгжилтэй үед тохиромжгүй буюу хоцрогдсон сонголт болж байна. Жишээ нь: Та онлайн дэлгүүр ажиллуулдаг бол таны дэлгүүр рүү хэрэглэгч зочилсон үед та тухайн хэрэглэгчийн үзсэн бараануудын өгөгдөл дээр үндэслэн төстэй бараа санал болголоо. Гэвч онлайн зах зээл маш том учраас тодорхой хугацааны дараа танайхаас бараа авахгүй эсвэл сонголтоо өөрчилсөн байж магадгүй. Тийм учраас танай дэлгүүрт маш хурдан хугацаанд анализ хийн төстэй бараа санал болгох чадварлаг систем хэрэгтэй гэсэн үг юм. Учир нь уламжлалт буюу таны одоо ашиглаж байгаа систем тань зөвхөн таны шийдвэрийг хүлээдэг бас шинээр өгөгдөл ирснийг мэдэрч чадахгүй байгаад асуудал байгаа юм. Гар аргаар тохируулж тус бүрд нь query бичиж болох ч таны дэлгүүр өргөжих тусам хүндрэл учирна. Энэ бол маш хэрэгтэй гэдгийг магадгүй та цар тахлын үед сайн ойлгосон болов уу.  

Data Streaming 

 

Та бидний мэдэх Big Data/warehouse-г дээрх зурагт харуулсан байна. Энэхүү шийдлийн хувьд өгөгдлийг хүлээн авах, боловсруулахаас эхлээд гаргах хүртэл процесс болгонд уламжлалт технологи ашиглах нь маш их цаг алдана. Учир нь таны системийн хүчин чадал болон боловсруулалт хийх боломж болон өгөгдөл татаж авах хугацаа зэргээс шалтгаалах буюу тодорхой хугацааны интервалтай үүссэн өгөгдлөө татаж авч, боловсруулалт хийнэ гэдэг нь цаг алдахаас гадна өгөгдөл хуучрах эрсдэлтэй. Үүнээс гадна мэдээж бидний хувьд өдөр ирэх тусам өгөгдлийн хэмжээ асар их болж шинэ өгөгдөл үүсэх бүрд л мэдэх шаардлага үүсэх нь дамжиггүй. Тиймээс та бүхэнд Data Streaming-н процессыг дээрх зургаар тайлбарлан хүргэе. 

 

A picture containing diagramDescription automatically generated 

 

Дээр дурдсанчлан байгууллагын тань үүсгэгдэж, дамжуулж байгаа их хэмжээний өгөгдлийг асар хурдтайгаар үүсэх бүрд нь тодорхой үйлдэл хийж, боловсруулах шаардлага гарна. Гэвч тэр болгонд үйлдэл хийж, боловсруулаад байвал жижиг хэмжээтэй олон өгөгдөл үүсэх тул тэдгээрийг нөөцлөх “event hub” хэрэгтэй бөгөөд энэ нь та бидний сайн мэдэх Apache Kafka юм. Тэрхүү олон тооны жижиг өгөгдлийг бусад системийн өгөгдлөөр (DB, DB extract, files) баяжуулах буюу CDC (Change data capture) ашиглан event hub-тай холбон үр ашигтайгаар ашиглах буюу ойлгомжтой хэрэгцээтэй өгөгдөл болгоно. Тухайн өгөгдлүүд үүссэний дараагаар үйлдэл хийн боловсруулж, stream analysis буюу тухайн үйлдэл хийгдсэний дараагаар нөөцөлсөн ч анализ, боловсруулалт хийж, хадгалахаас өмнө тухайн үр дүнгээ хэрэгтэй газартаа дамжуулах боломжтой болно. Үүнийг real-time анализ гэж нэрлэдэг. Үүний дараагаар stream хийж байгаа ажиллагаа маань ямар нэг түүх үүсэхгүй байх эрсдэлтэй тус Big Data платформын тусламжтай үүссэн түүх болон бусад өгөгдлөө хадгалах боломжтой болно. Microservice платформ нь байгууллагын тань streaming-д ажиллаж байгаа технологи, шийдлүүдийн хурдтай ажиллах боломжийг нэмэгдүүлдэг. Харин Edge node нь streaming процесс хийгдэж байгаа тохиолдолд хэрэгцээгүй үүсгэгдэж байгаа мэдээллүүдийг цэвэрлэдэг. Үүний эцэст буюу microservice, stream analysis, big data платформ зэргээс үүссэн дэд бүтцээ бусад BI tool, байгууллагын аппликэйшнүүд болон бусад шаардлагатай систем, warehouse зэрэгт ашиглах боломжтой юм.   

Г.Цэнгэл

Контент менежерМэдээллийн Технологийн салбарын хэрэглэгчид болон харилцагч байгууллагуудад зориулсан контент бүтээх, Дижитал, Сошиал медиа, Контент маркентинг хариуцсан менежер