Kafka and Streaming Data

Back to Data Engineering Index

Reference: Intro to Apache Kafka Universe: Kafka คืออะไร ?

Streaming Data

Streaming data หรือ event คือข้อมูลเล็กๆ (ขนาดประมาณ Kilobytes) และถูกสร้างขึ้นแบบต่อเนื่องๆ เมื่อข้อมูลไหลเข้ามาสู่ระบบ ก็จะนำข้อมูลมา process ทันที เพื่อนำข้อมูลนี้ไปใช้แบบ real-time หรือ near real-time

Use Cases

ข้อมูลการเงินใน stock market
ข้อมูล sensor จากรถขนส่ง เพื่อส่งไปหา streaming application หาพิกัดของรถ
ข้อมูล social media feeds
ข้อมูลของการเล่นของ player ในเกมที่นำมาวิเคราะห์แบบ real-time

Why Developers Use Kafka

สามารถนำมาทำเป็น Cluster เพื่อใช้การทำ Distributed messaging queue/system ได้
ประยุกต์ใช้ในการทำ Notification system หรือ Activity tracking ได้
ใช้ทำ Logging flow หรือ Monitoring system แบบ Real-time ได้
เป็นส่วนประกอบของการทำ Data analytics แบบที่ต้องการความเร็วในการวิเคราะห์ข้อมูลได้ทันที
เป็น Stage ของการทำ Decoupling สำหรับ System หลายๆ System ได้
สามารถนำไป Integrate กับ Tool stacks ต่างๆ ได้ง่ายและมีความเคลื่อนไหวใน Tech community สูง

Apache Kafka

Apache Kafka คือ open-source distributed event-streaming platform โดยถูกนำไปใช้สร้าง real-time data pipeline และ streaming apps ปัจจุบันกลายมาเป็นหนึ่งใน Apache Software Foundation

Key Characteristics

เขียนด้วยภาษา Java และ Scala
ไว้เพื่อทำ high-throughput และ low latency platform
สำหรับ real-time data

Basic Architecture

Producer

ดึงข้อมูลมาจาก external system เช่น web server, components of applications, IoT devices, monitoring agents
Write event data ส่งไป Kafka

Consumer

มีหน้าที่ดึงข้อมูลมาใช้จาก producers
นำข้อมูลนี้ไปสู่ปลายทางอื่นๆ เช่น database, data lake, หรือ data analytics application

Kafka

ทำหน้าที่เป็นคนกลางคั่นระหว่าง producer และ consumer
Kafka system นี้จะเรียกว่า Kafka Cluster

Cluster Structure

ใน Cluster จะมีหลาย nodes ซึ่ง node ใน Kafka เราจะเรียกว่า broker ซึ่งเป็นที่มาว่าทำไม Kafka ถูกจัดว่าเป็น distributed system

producer จะเป็นคน publish event ไปหา Kafka topics ซึ่ง consumer นั้นจะ subscribe จาก topic ที่ต้องการ โดยที่ topic นั้นจะมีหลาย consumer ก็ได้

Pub/Sub Messaging

Kafka เป็น publish/subscribe messaging system หรือ pub/sub messaging คือ pattern หนึ่งในการส่งข้อมูลจาก ผู้ส่ง (publisher) ไปหา ผู้รับ (subscriber) โดยจะส่งเป็น piece of data (message)

ความพิเศษ:

Publisher จะไม่ได้ระบุเป็นพิเศษว่า subscriber ต้องเป็นใคร
สามารถส่งไปหาหลาย subscriber ก็ได้

Kafka Components

Kafka Broker

เป็นตัวกลางในการจัดการและจัดเก็บข้อมูลในระบบ Kafka (เปรียบเหมือน server)

แต่ละ Broker จะมีตัวเลขที่ไม่ซ้ำกัน และเป็นตัวเลขเฉพาะของแต่ละ Server
ประกอบไปด้วย Topic หลายๆ Topics แล้วแต่จะกำหนดด้วย Configuration
หากมีหลายๆ Brokers รวมเป็น Cluster

Kafka Topic

Topic คือ Stream ของข้อความที่ถูกจัดกลุ่มเข้าด้วยกัน สามารถเปรียบเทียบได้กับ table ใน database โดยที่ชื่อของ Topic จะต้อง Unique ไม่ซ้ำกันภายใน Kafka cluster

Topic Characteristics

Topic ถือว่าเป็น Logical representation ดังนั้นในหนึ่งคลัสเตอร์สามารถมีกี่ Topic ก็ได้
Topic เป็นตัวกลางสำหรับส่งผ่านข้อความระหว่าง Producer และ Consumer
ข้อความที่ส่งเข้ามาใน Topic ถือว่าเป็น Immutability ไม่สามารถแก้ไขข้อความได้
ข้อความใน Topic จะมี retention ในการ delete จาก Hard disk เสมอ (default as 7 days)

Partitions and Offsets

โดย topic จะถูกแบ่งเป็น partitions และในแต่ละ partition แต่ละ message ก็จะได้รับ id หรือเรียกว่า offset

ข้อควรระวัง:

ข้อมูลใน offset เดียวกัน ไม่ใช่ข้อมูลเดียวกัน
- ข้อมูล Partition 0 ที่ offset 1 ≠ partition 1 ที่ offset 1
ข้อมูลที่ถูก write ใน partition จะไม่สามารถเปลี่ยนแปลงได้ (immutable)
การเรียง order จะทำได้แค่ภายใน partition เท่านั้น

Topic Examples

ตัวอย่างการกระจายตัวของ Partition เพื่อรักษา Consistency ของการประมวลผล และเพิ่ม Load Balancing ระหว่าง Broker

Create a topic named “A” with 3 partitions and “B” with 2 partitions:

Topic Replication: Set Replication Factor ในระดับ Topic เพื่อเพิ่ม Fault tolerance สามารถรับการที่ Broker บางตัว down ในบางจังหวะ

Topic A → replication factor = 1, and Topic B → replication factor = 2:

When broker 101 is down, Topic B partition 1 at broker 102 becomes partition leader:

Zookeeper

Zookeeper ช่วย Kafka broker ในการจัดสรร Leader election สำหรับ partition and topic
Zookeeper ช่วย Kafka บันทึก configuration/metadata/permission ภายใน cluster
Zookeeper จัดการ tracking ว่าภายใน Cluster มี Kafka broker ใดบ้างที่ยัง operate อยู่
Zookeeper จัดการ notification ระหว่างตัวเองกับ Kafka ในกรณีที่มีการเปลี่ยนแปลง หรือ failure

Kafka Message

เป็น Key(binary) - Value(binary)
Kafka รองรับรูปแบบของ Message ในรูปของ Byte เท่านั้น (8-bit binary digits)
ไม่ต้องการ deal กับ data type จำนวนมากมายหลายชนิด

Serialization/Deserialization

ก่อนที่ Producer จะส่งข้อความเข้า Kafka topic จะต้องทำ Message serialization เพื่อให้ข้อความอยู่ในรูป Byte message
หลังจาก Consumer รับข้อความออกจาก Kafka topic จะต้องทำ Message deserialization เพื่อให้ข้อความจริงปรากฏออกมา

Kafka Producer

Producer จะเป็นคนส่ง message ไปหา topics และ message จะถูกกระจายไปตาม partition

Key Concepts

1 Kafka message จะ represent ได้เพียง 1 Offset
Order guarantee มีผลแค่ภายใน Partition เดียวกันเอง
Offset จะรันเลขไปเรื่อยๆ ไม่มีการนำเลขกลับมาใช้ใหม่

Partitioning Strategy

การกระจายนี้ Partitioning strategy ทำได้ 2 แบบ:

Default: hash(key) % num_partition
- Key ของ kafka message สามารถกำหนดได้ว่า message นั้นจะถูกส่งไปที่ partition ไหน
No key: Round-robin

Producer Configuration

เราสามารถ configure ทำ Kafka producer setting เพื่อบอกว่าเราพร้อมที่จะรับ data loss เพื่อ trade-off กับความเร็วในการส่งข้อมูลมากน้อยแค่ไหน:

acks=0 → Producer ไม่รอการคอนเฟิร์มกลับจาก Kafka (มีความเสี่ยงต่อ data loss ที่สุด แต่ส่งเร็วสุด)
acks=1 → Producer รอการคอนเฟิร์มกลับจาก leader acknowledgment เท่านั้น (ความเสี่ยงน้อย)
acks=all → Producer รอการคอนเฟิร์มกลับจาก leader and replica acknowledgment เท่านั้น (no data loss)

Kafka Consumer

Consumer จะทำหน้าที่อ่านข้อมูลจาก topic ด้วยการ pull message มา

Consumer Behavior

ความฉลาดของมันคือ consumer จะรู้ว่าควรอ่านข้อมูลจาก broker ไหน
วิธีอ่านของ consumer คือจะอ่านไล่จาก offset ต่ำไปสูงในแต่ละ partition ตามลำดับ
Order guarantee มีผลแค่ภายใน Partition เดียวกันเอง
ถ้า broker failed ขึ้นมา consumer ก็จะรู้ว่าต้องกลับไปอ่านจากจุดไหน ด้วยการดูจาก offset
เมื่อฝั่ง producer มีการทำ serializer ดังนั้นฝั่ง consumer ก็จะมี deserializer เช่นกัน

Delivery Semantics

Exactly Once

Consumer อ่านข้อมูลมา โดยไม่ทำให้เกิด duplication หรือ data loss แน่นอน
สามารถใช้ idempotent target sink/process เข้ามาช่วยแก้ปัญหา
ถือว่าเป็น semantics ที่ ideal ที่สุด
Idempotency หมายถึง ถ้ามีการส่งข้อมูลเดิมมาที่ consumer จะไม่ทำการ process ซ้ำ หรือทำซ้ำได้แต่ผลการทำงานจะต้องเหมือนทำงานไปแค่ครั้งเดียว

At Most Once

เมื่อ consumer ได้รับข้อความจาก offset นั้นๆ แล้ว จะ commit offset กลับไปที่ broker
ถ้าเกิดข้อผิดพลาดระหว่างที่กำลังรับข้อมูล offset นั้นๆ จะไม่ถูก commit และจะไม่ถูกอ่านอีกครั้ง

At Least Once

เมื่อ consumer ได้รับข้อความจาก offset นั้นๆ แล้ว จะ commit offset กลับไปที่ broker
ถ้าเกิดข้อผิดพลาดระหว่างที่กำลังรับข้อมูล offset นั้นๆ จะไม่ถูก commit และจะถูกอ่านอีกครั้ง
วิธีที่สามารถทำให้เกิด duplication ของข้อมูลได้ เพราะฉะนั้นต้องรองรับ deduplication

Consumer Group

Consumer มี Consumer group ที่จะรวม consumer หลายตัวเข้าด้วยกัน เพื่อช่วยกันอ่าน message ในแต่ละ partition

Kafka จะเก็บ offset ว่า consumer group อ่านถึงไหนแล้ว ชื่อ __consumer_offsets อยู่ใน topic
เพราะด้วยเหตุนี้ ถ้า consumers ตาย มันก็จะกลับไปอ่านต่อจาก offsets เดิมได้ (committed offset)

Advanced Components

Kafka Connect

ทำหน้าที่ดึงหรือส่งผ่านข้อมูลจาก system (source connector) หนึ่งไปยังอีก system (sink connector) ได้ โดยที่ Developer ไม่ต้องสร้าง Kafka Producer/Consumer ขึ้นมาเอง

Kafka Streams

เป็น Client library ของ Kafka ที่มีการเสริมเติมแต่ง functionality ให้มีการทำ aggregation, joining ต่างๆ บน data streams ได้ เพราะฉะนั้นเราสามารถ transform ข้อมูลแบบ real-time ได้

ksqlDB

ksqlDB เป็น platform ที่เชื่อมต่อกับ Apache Kafka โดยตรง เพื่อประมวลผลข้อมูลแบบ real-time ระหว่าง application ต่างๆ โดยให้ผู้ใช้งานสามารถเขียน SQL-like statements สำหรับการประมวลผลข้อมูลโดยตรงจาก Kafka topics

(ksqlDB is built on-top of Kafka Streams → KStream,KTable)

Additional Concepts

Replication

Topics จะมีการทำ replication factor ด้วย
Partitions จะถูกเก็บไว้ที่ broker อื่น หาก broker นั้นตายขึ้นมา ก็ยังมีสำรองไว้อยู่อีก broker นึง
มี concept ของ Leader ในแต่ละ partition จะมีเพียง 1 broker ที่เป็น leader สำหรับ partition นั้นๆ
เวลา producer จะส่งข้อมูลหา broker ก็จะส่งแต่ตัวที่เป็น leader แล้ว broker ตัวที่เป็น follower ก็จะ replicate ตาม leader ไป

Kafka vs RabbitMQ

Kafka มักถูกเปรียบเทียบกับ traditional messaging queue (Message broker) เสมอ เช่น RabbitMQ, IBM MQ, และ Microsoft Message Queue

Message Broker Concept

Message broker นั้นมี concept คือทำให้ application, services ภายใน system เขาคุยกันและแลกเปลี่ยนข้อมูลกันได้ โดยทำหน้าที่เป็นคนคั่นระหว่าง sender กับ receiver โดยที่ sender ไม่ต้องรู้ว่าจะต้องส่งหา receiver ตัวไหน มีการทำ route, store, deliver message

Key Differences

Aspect	Kafka	RabbitMQ
Message Retention	เก็บ message ไว้ (default 7 วัน)	ลบ message เมื่อ consumer รับแล้ว
Message Delivery	Consumer pull message	Broker push message
Intelligence	Consumer ฉลาด (รู้ว่าต้อง pull จากไหน)	Broker ฉลาด (คำนวนว่า consumer จะ process ยังไง)
Scaling	Horizontal (เพิ่ม node)	Vertical (เพิ่ม performance ให้ node เดิม)
Multi-consumer	หลาย consumer ได้รับ message เดียวกัน	Message ถูกลบหลัง consume

Data Analytics Platforms

Nattrio's Garden

Explorer

kafka-and-streaming