EPFL-დან ახალი მულტიმოდალური მოდელი უფრო მოქნილი AI-სთვის

მას შეუძლია ისწავლოს ტექსტიდან, სურათებიდან, ვიდეოდან და ხმიდან და, მოდულურობის წყალობით, აწარმოებს პროგნოზების ნებისმიერ რაოდენობას ან კომბინაციას.

მანქანათმცოდნეობა: ახალი მულტიმოდალური მოდელი უფრო მოქნილი AI-სთვის EPFL-ისგან
EPFL-დან ახალი მულტიმოდალური მოდელი უფრო მოქნილი AI-სთვის (ფოტო: ბრაიან პენი/პიქსაბეი)

მიუხედავად იმისა, ვსაუბრობთ OpenAI-ზე თუ ChatGPT-ზე, ჩატბოტების დიდ უმრავლესობაზე გენერაციული ხელოვნური ინტელექტი ეფუძნება ე.წ დიდი ენის მოდელი (LLM), მოდელები ღრმა სწავლება დიდი მასშტაბით გაწვრთნილი, რათა მათ დასმულ კითხვებზე პასუხები გასცეს დიდი მოცულობის ტექსტის მეშვეობით ინფორმაციის შესწავლით.

ბოლო საზღვარიგენერაციული AI სონო მე მულტიმოდალური მოდელები, რომელიც აერთიანებს ენის გაგებასა და სურათებს, ვიდეოს და აუდიოს, რათა კიდევ უფრო მოწინავე გამოცდილება და სერვისი შესთავაზოს.

თუმცა მათი შექმნა რამდენიმე გამოწვევას წარმოადგენს, განსაკუთრებით იმ შემთხვევაში, თუ განზრახვა არის მულტიმოდალური მოდელების აგება მცირე მასშტაბით: ხშირი დაკარგული მონაცემების არსებობა ინფორმაციის ხელმიუწვდომლობის გამო, თითქმის ყოველთვის რესურსების ნაწილობრივი ხელმისაწვდომობის გამო.

მოკლედ, რისკი არის ის, რომ მოდელი სწავლობს ნაკლებობის საფუძველზე და რომ გამოთვლები და პროგნოზები დამახინჯებულია. და სწორედ აქ დაიწყო EPFL თავისი ახალი პროექტით.

ლოზანისა და ციურიხის ტექნიკური უნივერსიტეტიდან კოალიცია მწვანე ენერგიისთვის
3D-ში ტექნოლოგიური ხელთათმანი, რომელიც ვირტუალურ რეალობას ხელშესახს გახდის

მანქანა სწავლა
ფედერალური პოლიტექნიკის კამპუსი ლოზანაში (ფოტო: Facebook/EFPL)

MultiModN, მოდულარული მულტიმოდალური მოდელი, რომელიც დაიბადა ლოზანაში

მკვლევარები ლოზანის ფედერალური პოლიტექნიკური (EPFL), ფაქტობრივად განვითარდა მსოფლიოში ერთ-ერთი საუკეთესო უნივერსიტეტი საინჟინრო და საინფორმაციო ტექნოლოგიების თვალსაზრისით MultiModN, უნიკალური მოდულური მულტიმოდალური მოდელი, რომელიც ახლახან წარმოდგენილი იყო NeurIPS2023-ზე.

EPFL-ის კომპიუტერული მეცნიერებისა და კომუნიკაციის სკოლის მანქანათმცოდნეობის (ML4ED) და მანქანათმცოდნეობისა და ოპტიმიზაციის (MLO) ლაბორატორიების მკვლევარებმა გადაწყვიტეს შეემუშავებინათ და გამოსცადონ ზუსტად საპირისპირო დიდი, მაგრამ ეფიქრათ უფრო მცირე მასშტაბით.

მასწავლებლის ხელმძღვანელობით მერი-ენ ჰარტლიგლობალური ინტელექტუალური ჯანდაცვის ტექნოლოგიების ლაბორატორიის დირექტორმა ერთობლივად უმასპინძლა MLO-სა და იელის მედიცინის სკოლაში და პროფესორს ტანჯა კესერიML4ED-ის დირექტორმა, გუნდმა შექმნა მულტიმოდალური მოდელი, რომელსაც შეუძლია ისწავლოს ტექსტიდან, სურათებიდან, ვიდეოებიდან და ხმებიდან, მაგრამ რომელიც, არსებულისგან განსხვავებით, შედგება. მცირე მოდულების ცვლადი რაოდენობა, ავტონომიური და შეყვანის სპეციფიკური.

ეს უკანასკნელი შეიძლება შეირჩეს ხელმისაწვდომი ინფორმაციის საფუძველზე და შემდეგ შეაერთოს ნებისმიერი რიცხვის, კომბინაციის ან ტიპის შეყვანის თანმიმდევრობით. ამრიგად, მას შეუძლია წარმოქმნას პროგნოზების ნებისმიერი რიცხვი ან კომბინაცია.

"ჩვენ შევაფასეთ MultiModN-ში ათი რეალური აქტივობასამედიცინო დიაგნოსტიკის, აკადემიური მოსწრების პროგნოზირებისა და ამინდის პროგნოზის მხარდაჭერის ჩათვლით,” მან განმარტა ვინიტრა სვამიML4ED და MLO-ის დოქტორანტი და პროექტის პირველი თანაავტორი.

”ამ ექსპერიმენტების საშუალებით ჩვენ გვჯერა, რომ MultiModN არის პირველი არსებითად ინტერპრეტაცია და მონაცემთა ნაკლებობისადმი მდგრადი მიდგომა მულტიმოდალური მოდელირებისთვის.".

EPFL-ის „რეცეპტი“ უფრო ძლიერი კვანტური კომპიუტერებისთვის
ხელოვნური ინტელექტიდან გადამწყვეტი სტიმული კრიპტოვალუტებამდე?

მანქანა სწავლა
EPFL კომპიუტერული მეცნიერებისა და კომუნიკაციის სკოლა (ფოტო: Facebook/EPFL IC)

გამოყენების პირველი შემთხვევა: კლინიკური გადაწყვეტილებები სამედიცინო პერსონალისთვის

MultiModN-ის პირველი გამოყენების შემთხვევა იქნება როგორც დამხმარე სისტემა კლინიკური გადაწყვეტილებები სამედიცინო პერსონალისთვის რესურსებით შეზღუდული გარემოში.

სინამდვილეში, ჯანდაცვის სექტორში კლინიკური მონაცემები ხშირად აკლია, შესაძლოა შეზღუდული რესურსების გამო (პაციენტს არ შეუძლია კონკრეტული ტესტის გადახდა) ან, პირიქით, რესურსებისა და ინფორმაციის სიმრავლის გამო. MultiModN-ს შეუძლია ისწავლოს ამ რეალურ სამყაროში არსებული მონაცემებიდან მისი ეგრეთ წოდებული მიკერძოების შთანთქმის გარეშე და მოახდინოს პროგნოზების ადაპტირება ნებისმიერი კომბინაციის ან შეყვანის რაოდენობის მიმართ.

"დაკარგული მონაცემები არის დამახასიათებელი ნიშანი რესურსებით შეზღუდულ კონტექსტში და როდესაც მოდელები სწავლობენ ამ გამოტოვებულ შაბლონებს, მათ შეუძლიათ დაშიფრონ შეცდომები თავიანთ პროგნოზებში. ხაზი გაუსვა მან მერი-ენ ჰარტლი.

„მოქნილობის საჭიროება არაპროგნოზირებად ხელმისაწვდომი რესურსების წინაშე არის ის, რაც შთააგონებდა MultiModN-ს".

ტოპ ღონისძიებაში ხელოვნური ინტელექტისა და მანქანათმცოდნეობის გავლენა სერვისებზე
ციფრულ ხელოვნებაში ხელოვნური ინტელექტის მზარდი გავლენის ყველა მიზეზი

მანქანა სწავლა
ანალიზის ლაბორატორია (ფოტო: Michal Jarmoluk/Pixabay)

ლაბორატორიიდან რეალურ ცხოვრებამდე: პნევმონიისა და ტუბერკულოზის ცდა მიმდინარეობს

თუმცა, პუბლიკაცია მხოლოდ პირველი ნაბიჯია განხორციელებისა და საველე ტესტირებისკენ. პროფესორი ჰარტლი მუშაობდა კოლეგებთან ლოზანის საუნივერსიტეტო ჰოსპიტალში (CHUV) და Inselspital-ში, ბერნის საუნივერსიტეტო ჰოსპიტალში. კლინიკურ კვლევებში ორიენტირებულია პნევმონიის და ტუბერკულოზის დიაგნოსტიკაზე რესურსებით შეზღუდულ პირობებში და ათასობით პაციენტის რეკრუტირების პროცესშია სამხრეთ აფრიკის რესპუბლიკა, Tanzania, Namibia e ბენინი.

კვლევითმა ჯგუფებმა წამოიწყეს ვრცელი სასწავლო ინიციატივა, სწავლება 100-ზე მეტი ექიმი სისტემატიურად შეაგროვოს მულტიმოდალური მონაცემები, მათ შორის ულტრაბგერითი სურათები და ვიდეო, რათა MultiModN-ის ტრენინგი იყოს მგრძნობიარე დაბალი რესურსის მქონე რეგიონებიდან რეალური მონაცემების მიმართ.

„ჩვენ ვაგროვებთ ზუსტად ისეთ კომპლექსურ მულტიმოდალურ მონაცემებს, რომლებისთვისაც MultiModN არის შექმნილი“- თქვა ექიმმა Noémie Boillat-BlancoCHUV-ის ინფექციონისტი.

„მოხარულები ვართ, რომ ვხედავთ მოდელს, რომელსაც შეუძლია დააფასოს დაკარგული რესურსების სირთულე ჩვენს კონტექსტში და რუტინული კლინიკური შეფასებების სისტემატიური ნაკლებობა"- დაამატა ექიმმა კრისტინა კეიტელი Inselspital-ის, შვეიცარიის დედაქალაქის საუნივერსიტეტო საავადმყოფოს.

ხელოვნური ინტელექტის უსაფრთხოება? ბლეჩლის პარკის განცხადება გადამწყვეტია
Axel Springer-OpenAI ღერძი ხელოვნური ინტელექტისთვის ჟურნალისტიკის სამსახურში

EPFL-ის ინოვაცია შექმნილია კლინიკური გადაწყვეტილების მიღების გასაუმჯობესებლად სპეციალიზებულ სამედიცინო ცოდნაზე წვდომის უზრუნველყოფის გზით (ფოტო: Irwan/Unsplash)

მანქანათმცოდნეობა საზოგადოებრივი სიკეთის სამსახურში

MultiModN-ის შემუშავება და ტრენინგი წარმოადგენს EPFL-ის ძალისხმევის გაგრძელებას, ადაპტირდეს მანქანური სწავლების ინსტრუმენტები რეალობასთან და საზოგადოებრივი კეთილდღეობისთვის. მედიტრონი, ხელოვნური ინტელექტის მოდელი სპეციალურად შექმნილი სამედიცინო სექტორისთვის.

Meditron ასევე მიეკუთვნება Large Language Models (LLM) კატეგორიას, მაგრამ განსხვავებით გენერალისტული მოდელებისგან, რომლებიც ემსახურებიან ამოცანების ფართო სპექტრს, ის ორიენტირებულია. სამედიცინო სფეროში, და უფრო კომპაქტურია ზომით, მაგრამ თანაბრად ეფექტური.

Meditron-ის მიზანია სამედიცინო ინფორმაციის ხელმისაწვდომობის დემოკრატიზაცია მაღალი ხარისხის, რითაც ეხმარება კლინიკურ გადაწყვეტილებებს.

EPFL-ის მკვლევარებმა შეიმუშავეს ორი ვერსია 7 მილიარდი და 70 მილიარდი პარამეტრით, შესაბამისად, და მოდელების ტრენინგი ჩატარდა არჩეულ, მაღალი ხარისხის სამედიცინო მონაცემთა წყაროებზე, მათ შორის რეცენზირებული სამეცნიერო ლიტერატურასა და სხვადასხვა კლინიკურ გაიდლაინებზე, რაც უზრუნველყოფს ფართო და ზუსტი ცოდნის ბაზას.

2023 წლის ნოემბერში წარმოდგენილი Meditron და MultiModN შესაბამისად შეესაბამება EPFL-ის ახალი AI ცენტრის მისიას, რომელიც ფოკუსირებულია იმაზე, თუ როგორ შეუძლია პასუხისმგებლიანმა და ეფექტურ ხელოვნურ ინტელექტს ხელი შეუწყოს ტექნოლოგიურ ინოვაციას საზოგადოების ყველა სექტორის სასარგებლოდ.

რევოლუციური სენსორები, რომლებსაც შეუძლიათ მილიონობით ბატარეის დაზოგვა
AI: ომი, რომელიც დაიწყება, არ იქნება ისეთი, როგორსაც ველოდებით…

მანქანათმცოდნეობა: ახალი მულტიმოდალური მოდელი უფრო მოქნილი AI-სთვის EPFL-ისგან
EPFL კამპუსის ექსტერიერი ლოზანის ფედერალური პოლიტექნიკის ლოგოთი (ფოტო: Facebook/EFPL IC)