Tổng quan
Lưu trữ dữ liệu (storage) là cách mà còn người chúng ta lưu lại một sự việc, kiến thức, dữ liệu gì đó đã xảy ra để phục vụ các mục đích khác nhau trong cuộc sống như: truyền bá kiến thức kinh nghiệm, phân tích, nghiên cứu, kỉ niệm, học tập,…Hôm nay hãy cùng GFS Blockchain tìm hiểu thêm về lĩnh vực không thể thiếu này nhé
*** Bài viết này thuộc chuỗi Series Storage Workspace của GFS Blockchain nhằm nghiên cứu từ căn bản tới nâng cao cũng như tốc độ phát triển hiện tại về lĩnh vực Storage – Một mảnh ghép không thể thiếu của bất kỳ Hệ tính thái nào. Tổng hợp các bài viết của Storage Workspace –> Xem tại đây
Lưu trữ dữ liệu phi tập trung (Decentralized Storage) là gì?
Cùng với sự phát triển của xã hội loài người, chúng ta đã phát minh ra rất nhiều cách lưu lại các dữ kiện, nhưng đi kèm với đó là những rủi ro dữ liệu bị mất hoặc bị thao túng, sửa đổi. Sự ra đời của internet đã làm thay đổi hoàn toàn cách thông tin và nội dung đang được phổ biến và sử dụng. Với việc dân chủ hóa tri thức con người chúng ta đã tiếp cận được với nhiều thông tin dữ liệu có tính chính xác cao hơn từ nhiêu nguồn khác nhau. Nhưng cạnh đó sự kiểm soát và kiểm duyệt từ các tổ chức chính phủ, tư nhân dường như đang tăng lên từng ngày.
Các công ty công nghệ lớn đã thường xuyên biến đổi dữ liệu cá nhân của chúng ta bán nó cho các nhà quảng cáo, đối tác để họ có thể nhắm mục tiêu chúng ta một cách hiệu quả, dễ dàng khai thác mong muốn và cảm xúc của chúng ta để thu lợi.
Như chúng ta đa biết Blockchain là một chuỗi khối dữ liệu minh bạch và không thể sửa đổi cũng như xóa đi điều này khiến cho các thông tin dữ liệu trở lên minh bạch và sẽ không chịu sự kiểm soát, thao túng của các tổ chức, nhưng khi mạng lưới càng lớn thì dữ liệu càng nhiều, đồng nghĩa với việc lưu trữ dữ liệu sẽ khó hơn và tốn kém nhiều chi phí hơn vì nó không thể xóa.
Vấn đề lưu trữ dữ liệu Blockchain không phải là một bài toán đơn giản, có rất nhiều vấn đề làm cho việc lưu trữ dữ liệu trở lên khó khăn như không gian lữu trữ, chi phí, tốc độ, bảo mật, tính phi tập trung…
Tại sao lại cần lưu trữ giữ liệu trên blockchain?
- Tính minh bạch: Tất cả mọi người tham gia đều có thể thấy dữ liệu đó và nó sẽ không thể bị sửa đổi.
- Tính phi tập trung: Dữ liệu sẽ không bị bất kỳ một tổ chức hay cơ quan nào có thể kiếm soát và thao túng nó, thay vào đó dữ liệu sẽ được trao quyền cho toàn bộ người tham gia vào mạng lưới.
- Tính duy nhất: Chúng ta có thể dễ dàng phân biệt được đâu là dữ liệu đã bị sửa chữa, thay thế và làm giả so với dữ liệu gốc nhờ vào công nghệ Blockchain. Do đó chúng ta có thể chứng minh được các dữ liệu mình có là bản gốc.
- Tính bảo mật: Các dữ liệu được chia nhỏ để tăng khả năng bảo vệ và giảm hiểu rủi ro khi dữ liệu bị xâm phạm, các dữ liệu khác nhau sẽ được lưu trữ trên các máy khác nhau vì vậy ngay cả khi một phần dữ liệu bị xâm phạm thì các phần còn lại vẫn an toàn.
Phân Loại dữ liệu
On-Chain
On-chain nghĩa là tất cả dữ liệu của người dùng được lưu trữ trong mỗi khối trên blockchain. Lợi ích của phương pháp này là ngay cả trong trường hợp bị tấn công, dữ liệu có thể được khôi phục và đồng bộ hóa lại. Mỗi nút sẽ phải chứa tất cả dữ liệu được tải lên, đây là giải pháp rất tốn chi phí lưu trữ nhưng đổi lại là độ bảo mật cực kì cao.
Hiện blockchain không đủ khả năng mở rộng để lưu trữ toàn bộ tệp của người dùng, bất kỳ node nào đang chạy sẽ phải giữ một bản sao của tất cả dữ liệu của người dùng đã tải lên và tất cả các node sẽ phải liên tục đồng bộ hóa với nhau. Nếu mỗi người dùng chỉ tải lên một vài megabyte dữ liệu, mạng sẽ trở nên chậm và quá tải, nó sẽ tốn rất nhiều phí mạng.
Hiện các dự án đang cố gắng giải quyết vấn đề về khả năng mở rộng bằng cách không lưu trữ dữ liệu của người dùng trong blockchain, chỉ lưu trữ siêu dữ liệu trên chuỗi và sử dụng blockchain để tạo điều kiện cho hệ sinh thái nền tảng.
Off-chain
Off-chain Loại bỏ nhu cầu ghi lại dữ liệu đầy đủ của người dùng trên blockchain hoặc được bao gồm trong một khối, dẫn đến tốc độ giao dịch rất cao. Nếu off-chain được áp dụng rộng rãi hơn các giải pháp blockchain, có thể cho phép công nghệ blockchain trở nên dễ dàng được chấp nhận và phổ biến rộng rãi hơn.
Về Off-Chain thì nhược điểm là bảo mật yếu hơn, tính minh bạch kém, dữ liệu dễ bị thao túng. Nếu hệ thống bị tấn công có thể xảy ra trường hợp dữ liệu sẽ bị mất hoàn toàn, nhưng các giải pháp off-chain tiết kiệm chi phí hơn, có nhiều người sử dụng cũng như khả năng mở rộng tốt.
Dữ liệu có cấu trúc
Dữ liệu có cấu trúc (structured database): là cơ sở dữ liệu dữ liệu được định hình theo một cấu trúc xác định từ trước. Chúng ta có thể hình dung như một văn bản đã được xác định tiêu đề, có các dòng và cột với tiêu đề xác định trước, các thông tin chi tiết được lấp đầy các bảng này và không thay đổi khi cập nhật. Một hình dung khác về cơ sở dữ liệu dữ liệu có cấu trúc là một thư viện với các tủ hồ sơ được đánh nhãn, trong mỗi tủ được phân ngăn rõ ràng. Cơ sở dữ liệu có cấu trúc được xây dựng sẽ dễ dàng quản lý và truy cập thông tin.
Dữ liệu phi cấu trúc
Dữ liệu phi cấu trúc (unstructured database): là dữ liệu không được xác định cấu trúc thông tin từ trước. Thường là tập hợp các dữ liệu thô, hỗn tạp và không đồng nhất, các thành phần của cơ sở dữ liệu không có đặc điểm chung. Chúng ta có thể hình dung cơ sở dữ liệu này là tập hợp các thông tin, dữ liệu bao gồm: thư điện tử, dữ liệu ảnh, video, âm thanh, các bài viết,…Dữ liệu phi cấu trúc có mặt ở khắp mọi nơi và được sản sinh ra từ các nguồn khác nhau. Để quản lý, dữ liệu phi cấu trúc cần được chuyển đổi thành dữ liệu có cấu trúc qua quá trình chuẩn hóa.
Dữ liệu bán cấu trúc
Dữ liệu bán cấu trúc (semi-structured database): thường là dữ liệu có cấu trúc nhưng không đồng nhất. Cấu trúc của dữ liệu phụ thuộc vào chính nội dung của dữ liệu ấy. Chúng ta có thể thấy được rằng trong thực tế dữ liệu được lưu dưới dạng XML tự do, với định dạng này thông tin mô tả về đối tượng thể hiện trong các thẻ. Đây là cơ sở dữ liệu có nhiều ưu điểm do lưu trữ được hầu hết các loại dữ liệu khác nhau nên cơ sở dữ liệu bán cấu trúc là hướng mới trong nghiên cứu và ứng dụng và được sử dụng thông dụng trên mạng Internet. Tuy nhiên cũng cần lưu ý rằng XML cũng có thể được mô tả dữ liệu có cấu trúc bằng cách kèm xây dựng và lưu trữ dữ liệu tuân thủ lược đồ.
Các giải pháp lưu trữ
Lưu trữ truyền thống
Sử dụng giải pháp lưu trữ truyền thống như các hệ thống tệp tin trên máy chủ lưu trữ cục bộ hoặc các giải pháp hệ quản trị cơ sở dữ liệu truyền thống như MySQL, SQL server,… Giải pháp này có thể sử dụng được cho cả on-chain và off-chain.
Ưu điểm: Giá thành rẻ, lưu trữ được dữ liệu lớn, khả năng truy vấn dữ liệu với tốc độ nhanh và mạnh.
Nhược điểm: Mang tính tập trung, có thể bị nghẽn mạng, nếu máy chủ lỗi sẽ làm cho hệ thống bị giám đoạn, thiếu minh bạch do bị một cơ quan kiểm soát.
Lưu trữ file ngang hàng
Các hệ thống lưu trữ file ngang hàng như IPFS cũng là một lựa chọn để sử dụng lưu trữ dữ liệu trên blockchain, nó cho phép chia sẻ tệp trên máy khác và hợp nhất chúng trong hệ thống tệp toàn cục, công nghệ này dựa trên giao thức của BitTorrent và bảng phần phối Hash.
Ưu điểm: Hoạt động ngang hàng nên chia sẻ dữ liệu diễn ra đơn giản, nội dung của dữ liệu không thể bị làm giả vì dữ liệu được gắn địa chỉ nội dung và được xác thực, các tệp có độ phổ biến cao có thể được tải xuống rất nhanh.
Nhược Điểm: Các máy khác chứa các dữ liệu cần phải đảm bảo online thường xuyên hoặc 100% đối với các hệ thống đảm bảo tính sẵn sàng cao, không thể xoá dữ liệu hoặc sửa đổi sau khi tải các dữ liệu lên như vậy rất khó để truy vấn hay tìm các tệp theo nội dung riêng.
*** IPFS là gì? IPFS là viết tắt của từ Interplanetary File System, một hệ thống tập tin phân tán ngang hàng kết nối tất cả các thiết bị máy tính với nhau. IPFS là mạng lưới chuyển phát nội dung hoàn toàn phi tập trung cho phép quản lý và lưu trữ dữ liệu một cách linh hoạt, mỗi máy tính tham gia trong mạng lưới đảm nhận nhiệm vụ download và upload dữ liệu mà không cần sự can thiệp của máy chủ trung tâm.
Lưu trữ file đám mây phi tập trung
Giải pháp này cũng giống như việc lưu trên Dropbox, google Drive, nhưng điểm khác biệt là dữ liệu được lưu trên các máy tính của người dùng, những người cung cấp ổ cứng cho thuê chứ không phải ở các trung tâm dữ liệu tập trung. Người dùng sẽ không cần phải online để chia sẻ các tệp tin của mình, thay vào đó chỉ cần tải các tệp cần chia sẻ và nó sẽ được phát tán trên đám mây phi tập trung.
Ưu điểm: Những kho lưu trữ này có khả năng lưu trữ lớn, độ tin cậy cao và tốc độ nhanh.
Nhược điểm: Giải pháp này chỉ lưu trữ được các tệp dạng tĩnh, và chúng không lưu được dữ liệu có cấu trúc phức tạp, do đó bị hạn chế vấn đề tìm kiếm và truy vấn nội dung thêm vào đó chi phí lưu trữ cao.
Lưu trữ dữ liệu trên các hệ quản trị cơ sở phân tán
Cơ sở dữ liệu NoSQL sử dụng nhiều mô hình dữ liệu để truy cập và quản lý dữ liệu. Các loại cơ sở dữ liệu này được tối ưu hóa dành riêng cho các ứng dụng yêu cầu mô hình dữ liệu linh hoạt có lượng dữ liệu lớn và độ trễ thấp, có thể đạt được bằng cách giảm bớt một số hạn chế về tính nhất quán của dữ liệu của các cơ sở dữ liệu khác.
Ưu điểm: Tính linh hoạt, khả năng thay đổi quy mô, hiệu năng cao, cực kỳ thiết thực được xây dựng riêng cho từng mô hình dữ liệu tương ứng.
Nhược điểm: Yêu cầu tất cả các node phải hoàn toàn tin tưởng lẫn nhau, bất kỳ node nào độc hại có thể phá huỷ toàn bộ dữ liêụ, thiếu minh bạch do được kiểm soát bởi một số bên.
Kết luận
Trên đây là bài viết tổng quan về lưu trữ dữ liệu phi tập trung, các dạng dữ liệu và các giải pháp lưu trữ hiện nay mà con người đang sử dụng. Chúng ta có thể thấy đây là một lĩnh vực không thể thiếu và song hành cùng với sự phát triển của thị trường, khi blockchain càng lớn thì dữ liệu càng nhiều và kho lưu trữ sẽ là một vấn đề hết sức cần thiết.
*** Hãy cùng theo dõi sự phát triển của lĩnh vực Storage – Lưu trữ dữ liệu phi tập trung trong thị trường Crypto qua các bài viết cập nhật sau này cùng GFS Blockchain thông qua chuyên đề Storage Workspace -> Tại đây