Компьютерийн харааны хүрээнд дүрс таних нь зураг дээрх объект, газар, хүмүүс, бичээс, үйлдлийг тодорхойлох програм хангамжийн чадвар юм. Компьютерууд дүрсийг танихын тулд машины харааны технологийг камер, хиймэл оюун ухааны программ хангамжтай хослуулан ашиглах боломжтой.
Зургийн ангилал гэдэг нь дүрсийг харааны агуулгаар нь ангилах боломжтой компьютерийн харааны үйл явцыг хэлнэ. Жишээлбэл, дүрсийг ангилах алгоритмыг тухайн зурагт хүний дүрс агуулагдаж байгаа эсэхийг зааж өгөх боломжтой. Хэдийгээр объект илрүүлэх нь хүний хувьд өчүүхэн зүйл боловч дүрсний бат бөх ангилал нь компьютерийн харааны хэрэглээний програмуудад бэрхшээлтэй хэвээр байна.
Энэхүү судалгааны зорилго нь зураг/видео өгөгдөл гэх мэт нарийн төвөгтэй өгөгдлийг боловсруулдаг мэдрэлийн гүн сүлжээг юу илүү хурдан, үнэн зөв болгодогийг тодорхойлоход оршино. Бид хамгийн үр дүнтэй (хамгийн хурдан) нь юу болохыг тодорхойлохын тулд хамгийн сүүлийн үеийн амжилттай мэдрэлийн сүлжээний архитектуруудыг судалж үзэх болно. зургийн ангиллын архитектур(ууд) ба бид энэ төрлийн өгөгдөлд аль оновчлолын арга хамгийн сайн ажилладаг болохыг судлах болно.
Бид саяхан судлаачид зургуудыг ангилах замаар харааны таних тал дээр хэрхэн том алхам хийснийг ойлгохыг хичээж, ImageNet сорилт дээр хэрхэн гайхалтай нарийвчлалын оноо авсан болохыг харахыг хичээж байна. Зургийн өгөгдөл гэх мэт нарийн төвөгтэй өгөгдлийг хэрхэн хурдан боловсруулах, энэ өгөгдөлд хэт ачаалал өгөх асуудлыг хэрхэн шийдвэрлэх, мөн архитектурынхаа сургалтын цагийг хэрхэн багасгах талаар анхаарч үзэх хэрэгтэй.
Шинэчилсэн огноо
2022 оны 7-р сарын 2