— Data Science — 2 min read
Gần đây mình gặp phải một số thuật ngữ như structured data, unstructured data và semi-structured data trong lúc nghiên cứu. Đây là những thuật ngữ cơ bản và rất quan trọng cần biết nên mình đã viết post này để sắp xếp lại trước khi mình quên nó.
Dữ liệu có cấu trúc để nói đến những dữ liệu được tổ chức một cách rõ ràng, dễ dàng nắm bắt và xử lý bởi những phần mềm phân tích dữ liệu như Excel. Dữ liệu có cấu trúc tuân theo quy tắc đã thiết lập của cơ sở dữ liệu.
Ví dụ với một cột dữ liệu có tên 'Gender', các giá trị 'male' hay 'female' được nhập vào và bất cứ ai cũng dễ dàng nhận ra đó là giá trị nam hay nữ. Hoặc trong cơ sở dữ liệu của một khách sạn, chúng ta có thể tìm kiếm thông tin khách hàng dựa vào tên, số điện thoại, số phòng vv..
Dữ liệu có cấu trúc thường được lưu trữ trong những cơ sở dữ liệu quan hệ (Relational databases - RDBMS).
Dữ liệu có cấu trúc chỉ chiếm khoảng 20% tổng dữ liệu kinh doanh
Dữ liệu phi cấu trúc ngược lại với dữ liệu có cấu trúc, chúng ta khó có thể hiểu được ý nghĩa của một giá trị vì chúng không có nguyên tắc thiết lập. Những dữ liệu phi cấu trúc thường khó để phân tích hơn, cần sử dụng những công cụ như AI. Thông thường, dữ liệu như văn bản, âm thanh, hình ảnh , video.. thuộc dữ liệu phi cấu trúc
Dữ liệu phi cấu trúc thường được lưu trữ trong ứng dụng, NoSQL, databases, data lakes hoặc data warehouses.
Dữ liệu phi cấu trúc chiếm khoảng 80% - 90% tổng dữ liệu kinh doanh và đang tiếp tục gia tăng.
Loại dữ liệu còn lại là dữ liệu bán cấu trúc, loại này bao gồm hầu như dữ liệu phi cấu trúc nhưng được gắn nhãn một cách đơn giản như "meta-tag". Các kiểu dữ liệu bán cấu trúc bao gồm dữ liệu nhật ký, HTML, XML và những thứ tương tự.
Một ví dụ dễ hiểu cho loại dữ liệu này đó là email được phân loại thành những thư mục như Inbox, Sent, Drafts. Hoặc những post trong blog của mình được phân loại theo các tag như 'machine-learning', 'android', 'ios', 'mlops'...
Mình đã sắp xếp lại những loại dữ liệu, đây là một kiến thức nền tảng. Đối với mình những kiến thức nền tảng là rất quan trọng để có thể nắm bắt những thứ phức tạp hơn. Hi vọng bài viết có ích cho mọi người.
Tài liệu tham khảo: