Big Data là gì? Tìm hiểu công nghệ của thời đại 4.0

Big Data là gì? Trên các phương tiện thông tin đại chúng, thuật ngữ “Big data” được đề cập với tần suất tương đối cao. Tuy nhiên, để hiểu rõ chính xác được định nghĩa đó là gì, thì không phải ai cũng biết tường tận. Chính vì vậy, hãy cùng với  BachkhoaWiki tìm hiểu kỹ hơn về thuật ngữ này nhé.

Big Data là gì?

Big data là gì?

Định nghĩa về Big data

Định nghĩa

Big Data (dữ liệu lớn) là tập hợp các tệp dữ liệu với dung lượng khổng lồ với kích thước vượt xa khả năng của các công cụ xử lý, phân tích, thu thập và quản lý dữ liệu truyền thống.

Big Data luôn liên tục được cập nhật thay đổi. Nhờ sự phát triển vượt bậc của công nghệ và Internet, mọi người có thể dễ dàng chia sẻ, truy cập, trao đổi những thông tin cho nhau với tần suất lớn.

Big Data là gì? Tìm hiểu công nghệ của thời đại 4.0

Những dạng chính của Big data

Big data có 3 dạng chính:

  • Structured data – dạng dữ liệu theo cấu trúc:  đề cập tới các loại dữ liệu mà bạn có thể xử lý, lưu trữ vào khôi phục ở những khung cố định. Đó là các dạng thông tin có tính tổ chức cao, bởi vậy mà bạn có thể dễ dàng lưu trữ và truy cập từ cơ sở dữ liệu chỉ bằng những thuật toán đơn giản.

Ví dụ: bảng cân đối thu chi kế toán, bảng lương của các công ty được coi là dạng dữ liệu theo cấu trúc.

  • Unstructured data – dạng dữ liệu phi cấu trúc: Giống như tên gọi của nó, dạng dữ liệu này không theo một cấu trúc cố định nào. Nó có dung lượng khổng lồ và lớn hơn rất nhiều so với dạng dữ liệu theo cấu trúc.

Ví dụ: các bài đăng trên mạng xã hội, những video trên Youtube…

  • Semi-structured data – dạng dữ liệu bán cấu trúc: Dạng dữ liệu này là sự kết hợp giữa hai kiểu dữ liệu đã đề cập trên. Đây là dạng dữ liệu không phân theo cơ sở dữ liệu cụ thể nhưng lại chứa những thẻ dữ liệu quan trọng phân tách các phần tử riêng lẻ.

Ví dụ: trên Linkedin – mạng xã hội phổ biến nhất về tìm việc làm trên thế giới, hàng triệu người chia sẻ về trình độ học vấn, công việc và các kĩ năng liên quan đến nghề nghiệp,…

Khi mà người sử dụng tìm kiếm những nghề nghiệp phù hợp với mong muốn của bản thân.

Trang mạng này sẽ liên kết các truy vấn từ kho dữ liệu khổng lồ, đối chiếu với các xu hướng tuyển dụng và cuối cùng là hiển thị kết quả gợi ý cho người dùng.

Big Data là gì? Tìm hiểu công nghệ của thời đại 4.0

Những đặc trưng của Big Data

Các đặc trưng chính của Big Data được thể hiện qua mô hình 5 Vs

  • Volume – dung lượng: Dung lượng dữ liệu lớn và liên tục tăng. Năm 2012, dung lượng trung bình của Big Data cỡ khoảng từ vài chục terabyte đến khoảng nhiều petabyte ( 1 petabyte = 1024 terabyte) cho 1 tệp dữ liệu. Chính vì có kích thước lớn như vậy, nên chúng ta thường sử dụng công nghệ đám mây mới có thể lưu trữ hết được.
  • Velocity – Tốc độ: Tốc độ được hiểu theo hai cách khác nhau: Dung lượng dữ liệu tăng nhanh ( mỗi giây có khoảng 72.9 triệu truy cập  trang web Amazon) và tốc độ xử lý dữ liệu ( dữ liệu phần đa được xử lý ngay tức thời ngay sau khi chúng phát sinh).
  • Variety – Đa dạng: Big Data cho phép liên kết và phân tích nhiều dạng dữ liệu khác nhau như hình ảnh, video, các bình luận trên các diễn đàn, trang mạng xã hội,…
  • Varacity – độ xác thực: Bởi vì có dung lượng dữ liệu lớn và liên tục tăng, chất lượng của dữ liệu thu được có thể khác nhau rất nhiều, ảnh hưởng đến sự phân tích chính xác.
  • Value – giá trị: Đặc trưng này đề cập đến những lợi ích mà Big Data mang lại cho công ty, tổ chức. Ví dụ: các trang mạng xã hội thu thập dữ liệu hành vi người dùng, sau đó phân tích ra các hành vi khách hàng rồi chạy quảng cáo dựa trên những thứ đã phân tích. Điều này đã góp phần làm tăng doanh thu quảng cáo cho các công ty đó.

Big Data là gì? Tìm hiểu công nghệ của thời đại 4.0

Ví dụ về Big Data

Tên gọi Đặc điểm Nguồn dữ liệu
Dữ liệu xã hội Dữ liệu từ các trang mạng xã hội khác nhau và các cổng thông tin điện tử. Instagram, Facebook, Twitter, Linkedin
Dữ liệu máy móc Dữ liệu từ RFIDs chip ( Radio Frequency dentification – công nghệ nhận dạng đối tượng bằng sóng vô tuyến), máy quét mã vạch, máy cảm biến nhiệt độ,… RFID reader, GPS,…
Dữ liệu giao dịch Dữ liệu từ các trang thương mại điện tử, các nhà bán lẻ, các giao dịch B2B( Business to Business), B2C ( Business to Consumer) Shopee, Lazada, Walt Mart,..

Một số thuật ngữ có liên quan

Big Data Analytics là gì?

Big Data là gì? Tìm hiểu công nghệ của thời đại 4.0

 

Big Data Analytics là các quy trình phân tích các dữ liệu để khai phá thông tin – chẳng hạn như các mẫu ẩn, mối tương quan, xu hướng và hành vi của khách hàng – có thể giúp các tổ chức, công ty đưa ra những quyết định kinh doanh đúng đắn.

Trên quy mô rộng, các công nghệ và kỹ thuật phân tích dữ liệu cung cấp cho các tổ chức một cách để phân tích các tập dữ liệu và thu thập thông tin mới.

Truy vấn thông minh kinh doanh (BI) trả lời các câu hỏi cơ bản về hoạt động và hiệu suất kinh doanh.

Big Data Analytics là một dạng phân tích nâng cao, liên quan đến các ứng dụng phức tạp với các yếu tố như mô hình sự đoán, thuật toán thống kê và phân tích giả như được cung cấp bởi hệ thống phân tích.

Big data engineer là gì?

Big Data là gì? Tìm hiểu công nghệ của thời đại 4.0

Big Data Engineer là các kĩ sư dữ liệu, đảm nhiệm các nhiệm vụ xây dựng các cơ sở hạ tầng có sẵn hoặc các khung phù hợp cho việc tạo các cơ sở dữ liệu.

Họ chịu trách nhiệm thiết kế những cấu trúc của dữ liệu như thu thập, lưu trữ và quản lý dữ liệu dựa trên nhiều những nhiệm vụ khác nhau.

Trong đó, nhiệm vụ chính là quản lý các cơ sở dữ liệu về công nghệ khai thác Big Data.

Big data protocol là gì?

Big Data Protocol là một giao thức DeFi (Decentralized Finance) cho phép thương mại hóa những nguồn dữ liệu có giá trị trên nền tảng blockchain.

Và nền tảng mà Big Data Protocol hoạt động trên không ai khác chính là Ocean Protocol – một trong những dự án blockchain tiềm năng lớn nhất hoạt động trong phân mục dữ liệu hiện tại.

Big Data là gì? Tìm hiểu công nghệ của thời đại 4.0

 

Các ứng dụng của Big Data

Ngân hàng

Big Data là gì? Tìm hiểu công nghệ của thời đại 4.0

Các ứng dụng của Big Data trong ngân hàng bao gồm:

  • Phân tích thói quen chi tiêu của khách hàng
  • Phân khúc khách hàng và thâm định hồ sơ
  • Bán chéo thêm các dịch vụ khác: Dựa vào lượng cơ sở dữ liệu có được, ngân hàng có thể thu hút hoặc giới thiệu thêm các gói dịch vụ khác, chẳng hạn giới thiệu các khoản đầu tư có lãi suất thấp với đối tượng có lượng tiền nhàn rỗi.
  • Nâng cao chất lượng dịch vụ thông qua hệ thống thu thập, phản hồi khách hàng và phân tích chúng
  • Marketing theo hướng cá nhân hóa
  • Phát hiện và ngăn chặn các hành vi lừa đảo vi phạm pháp: Big Data sẽ cho phép các ngân hàng đảm bảo không có giao dịch trái phép nào thực hiện, nhờ vào dữ liệu vào lịch sử giao dịch và hồ sơ tín dụng đối với khách, hệ thống có thể nhận diện được những bất thường trong quá trình cung cấp dịch vụ tới khách hàng.
  • Kiểm soát rủi ro, đảm bảo minh bạch trong báo cáo tài chính
  • Tham gia vào hoạt động kiểm soát đánh giá quá trình làm việc của nhân

Y tế

Các bác sĩ luôn dựa vào các số liệu trong bệnh án để đưa ra những chẩn đoán về nguy cơ mắc bệnh. Đồng thời cũng đưa ra những xu hướng lây lan của dịch bệnh.

Ví dụ, ứng dụng Google Flu Trend là một ứng dụng rất thành công do Google phát triển dựa trên những từ khóa tìm kiếm ở một khu vực nào, sau đó sẽ tiến hành phân tích và tham chiếu các kết quả tìm kiếm trước đó, cuối cùng sẽ đưa ra xu hướng dự báo về tình hình cúm ở khu vực đó.

Google Flu Trends | idisaster 2.0

Thương mại điện tử

Trong thương mại điện tử, Big Data sẽ giúp doanh nghiệp tạo ra nhiều trải nghiệm cá nhân, chăm sóc khách hàng cũng như đáp ứng nhu cầu khách hàng qua việc phân tích, thu thập từng dữ liệu khách hàng.

Ngoài ra, Big Data còn góp phần tối ưu giá bằng cách nắm rõ xu hướng tiêu dùng theo thời gian, doanh nghiệp có thể đưa ra mức giá cả và chiến lược thu hút khách hàng hiệu quả nhất.

Hơn thế nữa, nó cũng giúp doanh nghiệp dự đoán nhu cầu, xu hướng tiêu dùng một cách tối ưu, để đưa ra các chiến lược kinh doanh phù hợp.

Digital marketing

Ở Digital Marketing, Big Data giúp chúng ta thực hiện một số công việc sau:

  • Chọn ra được phân khúc khách hàng và thị trường phù hợp
  • Phân tích hành vi khách hàng
  • Tiếp thị trên nền tảng định vị
  • Quản lý các chiến dịch tiếp thị và khách hàng thân thiết

Bán lẻ

Big Data trong ngành bán lẻ giúp thu thập hành vi khách hàng ở điểm bán, nhu cầu đối với với từ loại sản phẩm của khách hàng được tổng hợp lại để dự đoán xu hướng mua hàng, cá nhân hóa trải nghiệm khách hàng và cải thiện được tình hình hoạt động kinh doanh của mình.

Big Data là gì? Tìm hiểu công nghệ của thời đại 4.0

Sự khác biệt giữa Big Data với Data truyền thống?

Big Data Data truyền thống
Sự đa dạng Có 3 dạng dữ liệu chính: dữ liệu theo cấu trúc (structured data), dữ liệu phi cấu trúc (unstructured data), dữ liệu bán cấu trúc (semi – structured data).

 

Có 1 dạng dữ diệu duy nhất: dạng dữ liệu theo cấu trúc (structured data).
Dung lượng lưu trữ Dung lượng lưu trữ khổng lồ, do áp dụng công nghệ lưu trữ đám mây.

 

Việc lưu trữ dữ liệu truyền thống luôn bị giới hạn và rất phức tạp.
Tốc độ truy vấn dữ liệu Luôn được cập nhật liên tục.

Phân phối dữ liệu phân tán và có thể kết hợp các dữ liệu phân tán với nhau một cách chính xác, dẫn đến có thể xử lý truy vấn dữ liệu một cách nhanh chóng, xác thực.

Phải qua một khoảng thời gian nhất định, mới cập nhật một lần và trong tình trạng không theo dõi thường xuyên nên xảy ra tình trạng lỗi truy vấn dữ liệu.
Độ chính xác Được kiểm định lại dữ liệu với những điều kiện chặt chẽ Khâu kiểm định dữ liệu sơ sài, thiếu thống nhất…

 

Big data là ngành nghề gì? Big data cần học gì?

Cùng với xu hướng phát triển công nghệ trên toàn thế giới, các ngành nghề liên quan tới Big Data dần trở nên hot hơn bao giờ hết.

Hãy cùng với BachkhoaWiki tìm hiểu xem một số cơ hội nghề nghiệp nổi bật liên quan tới dữ liệu lớn là gì nhé.

Data Scientist (nhà khoa học dữ liệu)

Mô tả công việc: 

  • Phân tích bài toán cần giải, mục tiêu dự án, tiêu chí thành công…
  • Thu thập và xử lý dữ liệu
  • Xây dựng các mô hình, thuật toán để đưa ra kết quả
  • Test, đánh giá kết quả
  • Đưa vào triển khai

Big Data là gì? Tìm hiểu công nghệ của thời đại 4.0

Những kĩ năng cần thiết:

  • Kỹ năng đầu tiên mà bạn cần đương nhiên phải là lập trình. Bạn nên học ngôn ngữ lập trình Python
  • Ngoài Python, còn có SQL, Spark, R hoặc các công cụ cấp cao hơn như là H2O, tableau
  • Các công cụ của Data Scientist: Numpy, Pandas, Matplotlib, Scikit-learn
  • Các công cụ Machine Learning: Tensorflow, Keras, Pytorch
  • Hiểu biết nhất định về Big Data, về các framework như Hadoop hay Scala
  • Thống kê cơ bản.

Data Engineer (kĩ sư dữ liệu)

Mô tả công việc 

Data Engineer là người xử lý, chuẩn bị dữ liệu cho Data Scientist thực hiện quá trình phân tích. Khi làm việc cùng nhau, người này sẽ giúp một phần việc của người kia nhưng trách nhiệm cơ bản là như thế.

Big Data là gì? Tìm hiểu công nghệ của thời đại 4.0

Những kỹ năng cần thiết

  • Có hiểu biết sâu về kiến trúc kho dữ liệu (Data Warehouse)
  • Thành thạo các câu lệnh SQL
  • Hiểu biết về kỹ thuật ETL và ELT, cơ sở dữ liệu, lập trình, các hạ tầng và cloud,…

Risk Management Specialist (chuyên viên quản trị rủi ro)

Mô tả công việc: 

  • Xây dựng chính sách quản lý rủi ro dựa trên chiến lược của công ty;
  • Phát triển các công cụ, mô hình nhận dạng, đo lường, giảm thiểu, kiểm soát, giám sát về rủi ro thị trường, thanh toán, thanh khoản, hoạt động và có cảnh báo rủi ro kịp thời tới cấp trên, các bộ phận liên quan;
  • Thực hiện các thống kê liên quan đến hoạt động nghiệp vụ của công ty và phối hợp với các bên liên quan nhằm xây dựng các chỉ số hạn mức theo khẩu vị rủi ro của công ty;
  • Giám sát, cảnh báo sự tuân thủ các hạn mức đã được phê duyệt;
  • Đánh giá và kiểm soát rủi ro thông qua việc giám sát rủi ro hoạt động các nghiệp vụ nhằm giảm thiểu rủi ro và đảm bảo tuân thủ quy định quản lý rủi ro trong Công ty;
  • Tham gia xây dựng và cập nhật chính sách, quy chế, quy trình, quy định, văn bản hướng dẫn liên quan đến các hoạt động của công ty, đảm bảo tính chặt chẽ, phù hợp với văn bản pháp lý và thực tế làm việc;
  • Giám sát việc tuân thủ các quy định pháp lý, quy định công ty và có cảnh báo rủi ro pháp lý khi cần thiết;
  • Tham gia đề xuất, phối hợp thực hiện việc hoạch định chiến lược về quản trị rủi ro. Làm đầu mối triển khai việc thực hiện chiến lược quản trị rủi ro đã được phê duyệt;
  • Nghiên cứu các chuẩn mực quốc tế và quy định của nhà nước về quản lý rủi ro nhằm đảm bảo cho hệ thống quản lý rủi ro của công ty tiên tiến, hiện đại, đáp ứng các yêu cầu quốc tế và phù hợp với thực tiễn ở Việt Nam;
  • Làm đầu mối phối hợp cùng các phòng ban kiểm tra, cung cấp thông tin, tài liệu, giải trình đối với công văn và các đợt kiểm tra trực tiếp từ Cơ quan quản lý (UBCKNN, HNX, HSX) và Cơ quan chức năng;
  • Cập nhật, phổ biến, hướng dẫn thực hiện các văn bản định chế có liên quan;
  • Thực hiện các công việc khác theo yêu cầu của cấp trên.

Big Data là gì? Tìm hiểu công nghệ của thời đại 4.0

Những kĩ năng cần thiết:

  • Có kiến thức về kinh tế học, quản trị kinh doanh và các lĩnh vực liên quan;
  • Có kỹ năng đọc báo cáo tài chính;
  • Kỹ năng định lượng, phân tích dữ liệu, sử dụng các công cụ quản lý và phân tích số liệu;
  • Có kiến thức về kế toán, kiểm toán;
  • Hiểu biết về các hoạt động tài chính doanh nghiệp;
  • Kỹ năng lập kế hoạch.

Xem thêm:

Đến đây, hi vọng các bạn đã có thể hiểu phần nào Big Data là gì. Hãy để lại like hoặc comment để BachkhoaWiki có động lực làm những bài tiếp theo nhé!