O’qitiluvchi va testlanuvchi ma’lumotlar to’plami. Ma'lumotlarni yig'ish - bu neyron tarmoqlar kabi tushunchalarni qanday qo'llashni o'rganish, natijalarni o'rganish uchun algoritmni tayyorlash uchun ishlatiladigan to'plamdir. Bunga ma'lumotlar va kutiladigan natijalar kiradi. O’quv tanlanma umumiy ma'lumotlarning ko'p qismini tashkil etadi, ya’ni taxminan 60-80%. Sinov tanlanma modellarning parametrlariga mos keladigan og'irliklarni sozlash deb nomlanadigan jarayon hisoblanadi.
Sinov ma'lumotlari to'plami algoritmning o'quv ma'lumotlari bilan qanchalik yaxshi o'qitilganligini baholash uchun ishlatiladi.
AI-loyihalar(AIprojects)da biz sinov bosqichida o'quv ma'lumotlari to'plamidan foydalana olmaymiz, chunki algoritm oldindan kutilgan natijani oldindan bilib oladi, bu bizning maqsadimiz emas.
Sinov to'plamlari ma'lumotlarning 20% ni tashkil etadi, testlar to'plami ma'lumotlar kiritilishi bilan tasdiqlangan to'g'ri natijalar bilan birgalikda guruhlangan ma'lumotlarni kiritish, odatda inson tomonidan tekshirilishi bilan ta'minlanadi.
Ma’lumotlarga dastlabki ishlov berish.Shaklni aniqlash: ma'lumotlar turli xil fayllarda tarqalishi mumkin. Masalan, turli xil valyutalar, tillar va hokazolarga ega bo'lgan turli mamlakatlardagi savdo natijalari ma'lumotlar to'plamini shakllantirish uchun bir joyga to'planadi.
Ma'lumotlarni tozalash: Ushbu bosqichda bizning maqsadimiz etishmayotgan qiymatlar bilan ishlash va keraksiz belgilarni ma'lumotlardan olib tashlashdan iborat.
Xususiyatlarni tanlash: Ushbu bosqichda biz funksiyalar sonini tahlil qilish va optimallashtirishga e'tibor qaratamiz. Odatda, jamoaning a'zosi bashorat qilish uchun qaysi xususiyatlar muhimligini aniqlab, tezroq hisoblash va kam xotira sarf qilish uchun ularni tanlashi kerak.
M Ma'lumotlarni tozalash
a’lumotlarga dastlabki ishlov berish 10.1-rasmda keltirilgan.