Meta's OK-Robot może posprzątać pokój bez niczyjej pomocy
Nowy system OK-Robot AI został zaprojektowany tak, aby umożliwić szerokiej gamie robotów sprzątanie pomieszczeń, które są dla nich zupełnie nowe. Mogą one na przykład zbierać pranie lub zabawki z podłogi i umieszczać je w innym miejscu. Inne systemy robotyczne są zwykle zaprojektowane do działania w znanym środowisku.
OK-Robot współpracuje z VLM (Vision-Language Models), rodzajem systemu sztucznej inteligencji, który jest w stanie przetwarzać i rozumieć informacje z tekstu lub bezpośredniej mowy i obrazów w tym samym czasie. Warto również zauważyć, że OK-Robot współpracuje z różnymi modelami open-source AI i został wstępnie przeszkolony przy użyciu dużych zestawów danych, które są publicznie dostępne.
Pozytywną stroną jest to, że nie trzeba dostarczać robotowi żadnych dodatkowych danych treningowych w środowisku, po prostu działa. Z drugiej strony, robot może jedynie podnieść przedmiot i upuścić go w innym miejscu. Nie można poprosić go o otwarcie szuflady, ponieważ wie tylko, jak zrobić te dwie rzeczy.
- Lerrel Pinto, adiunkt informatyki na Uniwersytecie Nowojorskim, który współkierował projektem
System został przetestowany przez naukowców z New York University i Meta przy użyciu komercyjnego robota Stretch firmy Hello Robot. przeprowadzono 171 eksperymentów typu "podnieś i upuść zostały przeprowadzone w różnych domach. Podczas eksperymentów robot skanował otoczenie za pomocą Record3D iPhone'a aby utworzyć wideo 3D. Następnie system OK Robot uruchomił model rozpoznawania obiektów AI na każdej klatce filmu.
Umożliwiło to robotowi zidentyfikowanie wszystkich obiektów w jego otoczeniu, takich jak stół, sofa, para okularów, but i lampa. Następnie został poinstruowany, aby podnieść określone przedmioty, co zrobił w 82,2% przypadków, pod warunkiem, że pokój nie był zbyt zagracony zagracony. Jednak w pomieszczeniach, w których panował większy chaos, wskaźnik sukcesu był znacznie niższy.
Powiedziałbym, że całkowite poleganie na gotowych modelach jest dość niezwykłe, a ich działanie jest imponujące. Byliśmy świadkami rewolucji w uczeniu maszynowym, która umożliwiła tworzenie modeli działających nie tylko w laboratoriach, ale także w otwartym świecie. Zobaczenie, że to faktycznie działa w prawdziwym środowisku fizycznym, jest bardzo przydatną informacją.
- Matthias Minderer, starszy naukowiec zajmujący się wizją komputerową w Google DeepMind, który nie był zaangażowany w projekt
System jest wciąż daleki od doskonałości; na przykład czasami ma trudności ze zrozumieniem mowy, a jego model chwytania ma również problemy z niektórymi obiektami. Niemniej jednak projekt pokazuje, że obecne modele są w stanie stosunkowo dobrze radzić sobie z otwartym słownictwem, a jednocześnie są w stanie nawigować bezpośrednio do właściwych obiektów w nieznanych przestrzeniach.
Źródła
MIT Technology Review | VentureBeat | obraz zwiastuna: symboliczny obraz DALL-E / AI | obrazy 2,3: arvix