-->

Katalog Data dan Pematangan Pasar Pembelajaran Mesin

Katalog data dan pematangan pembelajaran mesin

Ini adalah zaman data besar . Kami dibanjiri dengan informasi, dan bisnis merasa sulit untuk mengelola dan mengambil nilai darinya.
Arus data besar ini tidak hanya mencakup volume, variasi, dan kecepatan , tetapi juga kompleksitas. Seperti msnyang diidentifikasi oleh SAS dalam Sejarah Data Besar dan Pertimbangan Saat Ini, itulah faktor aliran "dari berbagai sumber, yang membuatnya sulit untuk menautkan, mencocokkan, membersihkan, dan mengubah data di seluruh sistem." 
Menemukan wawasan yang berharga bukan hanya sekedar mengumpulkan data sebanyak mungkin, tetapi menemukan data yang tepat. Tidak mungkin untuk mengerjakan semuanya dengan proses manual. Inilah sebabnya mengapa semakin banyak bisnis "beralih ke katalog data untuk mendemokratisasikan akses ke data, memungkinkan pengetahuan data suku untuk menyusun informasi, menerapkan kebijakan data, dan mengaktifkan semua data untuk nilai bisnis dengan cepat."

Baca juga : Kemajuan AI di bidang Pertanian

Di sinilah katalog data (kadang-kadang juga dikenal sebagai katalog informasi) masuk dalam gambar. Seperti yang didefinisikan di sini , mereka memberdayakan "pengguna untuk mengeksplorasi sumber data yang diperlukan dan memahami sumber data yang dieksplorasi, dan pada saat yang sama membantu organisasi untuk mencapai nilai lebih dari investasi mereka saat ini." Salah satu caranya adalah dengan memungkinkan akses yang jauh lebih besar ke data, di antara berbagai jenis pengguna yang dapat memanfaatkan atau berkontribusi padanya.

The Imperonomics Imperatif

Memperhatikan permintaan yang meningkat secara dramatis untuk katalog data pada akhir 2017, Gartner menjuluki mereka "kulit hitam baru." Mereka dikenali sebagai solusi cepat dan ekonomis "untuk menginventarisir dan mengklasifikasikan aset data organisasi yang semakin terdistribusi dan tidak terorganisir serta memetakan rantai pasokan informasi mereka." Perlunya hal ini muncul karena munculnya "infonomi," yang menyerukan penerapan ketelitian yang sama untuk melacak informasi seperti halnya mengelola aset bisnis lainnya. 
Gartner mengambil jibes dengan The Forrester Wave ™: Katalog Data Pembelajaran Mesin, Q2 2018 . Lebih dari setengah peserta survei dalam laporan itu mengatakan bahwa mereka berencana membangun implementasi katalog data mereka. Kemungkinan besar mereka termotivasi oleh fakta bahwa masing-masing memiliki setidaknya tujuh danau data dalam organisasi mereka. Seperti yang dijelaskan oleh Gartner pada katalog data, katalog data sangat berguna untuk menarik "konteks, makna dan nilai data" yang biasanya dibiarkan dalam bentuk yang tidak diklasifikasikan di danau data.

Baca juga : Peran AI dalam bidang Keamanan

Forrester melaporkan bahwa lebih dari sepertiga dari pembuat keputusan data dan analitik berurusan dengan 1.000TB atau lebih data pada 2017, jumlah yang dilaporkan hanya antara 10 sampai 14 persen tahun sebelumnya. Mengelola data pada skala itu adalah tantangan yang berkembang, atau secara khusus, dua tantangan:
"1) menggabungkan proses bisnis yang ada untuk sumber data untuk menganalisis dan menerapkan wawasan dan,
2) sumber, mengumpulkan, mengelola, dan mengatur data saat tumbuh."

Apa yang Dapat Dilakukan Katalog Data untuk Bisnis

Gartner mengidentifikasi cara khusus di mana katalog data dapat meningkatkan aliran informasi dan produktivitas organisasi:
  • Mengumpulkan dan mengomunikasikan inventaris informasi aset terkini yang tersedia untuk organisasi.
  • Menciptakan glosarium umum istilah bisnis yang mendefinisikan interpretasi semantik dan makna data organisasi, dengan demikian menyediakan sarana untuk menengahi dan menyelesaikan inkonsistensi definisi.
  • Mengaktifkan lingkungan kolaborasi yang dinamis dan gesit untuk memungkinkan rekan bisnis dan TI mengomentari, mendokumentasikan, dan berbagi data.
  • Memberikan transparansi penggunaan data dengan analisis garis keturunan dan dampak.
  • Memantau, mengaudit, dan melacak data untuk mendukung proses tata kelola informasi.
  • Menangkap metadata untuk meningkatkan analisis internal penggunaan dan penggunaan kembali data, optimisasi kueri, dan sertifikasi data.
  • Mengkontekstualisasikan informasi dalam penggunaan bisnisnya dengan menangkap, mengkomunikasikan, dan menganalisis data apa yang ada, dari mana asalnya, dalam konteks apa ia digunakan, mengapa diperlukan, bagaimana ia mengalir di antara proses dan sistem, siapa yang bertanggung jawab untuk itu, apa artinya dan apa nilainya.
Mendapatkan data dengan benar dan dapat diakses oleh orang-orang kunci dalam organisasi itu penting, laporan Gartner mengatakan, tidak hanya untuk menemukan cara "memonetisasi aset data untuk hasil bisnis digital," tetapi untuk mematuhi peraturan, apakah mereka industri- spesifik seperti Asuransi Kesehatan Portabilitas dan Akuntabilitas Act (HIPAA) atau yang lebih umum seperti Peraturan Perlindungan Data Umum (GDPR).

Baca juga : Kreativitas dalam kecerdasan buatan

Menambah Pembelajaran Mesin

Tapi tidak ada yang tanpa kekurangannya. Untuk katalog data, masalahnya adalah proses yang lambat dan melelahkan yang diperlukan dalam membangunnya secara manual dengan semua metadata yang perlu diberlakukan. Di sinilah komponen pembelajaran mesin masuk.
Katalog data yang dinilai Forrester disebut MLDC karena memanfaatkan kekuatan pembelajaran mesin, salah satu komponen AI . Seperti yang dijelaskan blog Podium Data , yang memungkinkan untuk "membangun repositori metadata yang persisten dan kemudian menerapkan ML / AI untuk menemukan dan mengekspos wawasan yang berpotensi berguna seputar aset data yang mendasarinya."

Bagaimana Cara Memilih

Untuk membantu organisasi menilai bisnis mana yang harus dipilih, Forrester menerapkan 29 poin evaluasi ke 12 MLDC teratas. Ini mengidentifikasi para pemimpin di pasar ini sebagai: IBM, Relito, Unifi Software, Alation dan Collibra. Performa kuat yang ditemukan adalah Informatica, Oracle, Waterline Data, Infogix, Cambridge Semantics, dan Cloudera. Hortonworks berdiri sendiri di peringkat "lawan".
Namun, seseorang tidak harus pergi dengan peringkat keseluruhan sendirian. Laporan tersebut memang merinci kekuatan dan kelemahan masing-masing. Oleh karena itu, jika fitur tertentu, seperti penelitian dan pengembangan, adalah yang paling penting bagi suatu organisasi, ia dapat mempertimbangkan Hortonworks sebagai setara dengan IBM dan Colilbra untuk aspek itu karena ketiganya berbagi skor tertinggi lima untuk kualitas itu, yang merupakan dua poin lebih baik dari Alation dan Coloudera dan empat poin lebih baik dari Cambridge Semantics.
Dengan demikian, laporan Forrester menyarankan mereka yang menggunakan laporannya untuk panduan agar tidak menganggap perusahaan peringkat teratas adalah pilihan terbaik untuk semua orang. Mereka harus mencermati rincian penilaian untuk menemukan apa yang memenuhi persyaratan khusus mereka.

Disqus Comments