Google Crowdsource, czyli jak algorytm widzi kota

fot. Google Crowdsource

Narzędzia
Typografia
  • Smaller Small Medium Big Bigger
  • Default Helvetica Segoe Georgia Times

Zastanawialiście się kiedyś, jak sztuczna inteligencja rozpoznaje przedmioty? Skąd wie, że autobus to autobus, a nie tramwaj. Jak odróżnia kota od psa – 4 łapy nie wystarczą. A jeśli kot jest po wypadku i ma tylko 3 łapki – czy Google będzie wiedział, że to nadal kot?

Do tego wszystkiego potrzebny jest człowiek. W zasadzie nie jeden, a wiele ludzi. JESZCZE WIĘCEJ. Tłum – stąd projekt Google Crowdsource. Przy odpowiednio dużej liczbie zdjęć kotów – wszystkich, małych, dużych, rudych, śpiących i radośnie mruczących – sztuczna inteligencja nauczy się (z Twoją pomocą) rozpoznawać kota.

Crowd = Tłum. Czyli ja też mogę pomóc?

Przede wszystkim Ty! I to w łatwy sposób – w drodze do pracy, na spacerze, w autobusie czy w domu. Praktycznie wszędzie. Wystarczy dołączyć do projektu (telefon z Androidem – póki co iOS jeszcze nie jest wspierany).

Następnie najprościej na początek wybrać aktywność „Inteligentny aparat”. Celujesz w wybrany kadr (zacznij od prostych obiektów wokół Ciebie – stół, lampa, drzwi, łóżko), Google zaznacza ramką obiekt. Klikasz w obiekt i sprawdzasz, czy Google poprawnie go rozpoznał, jeśli nie – poprawiasz etykietę tekstową (według własnego uznania). Zadania można wykonywać w języku polskim, lub wybranym obcym języku.

Naturalnie aktywności jest dużo więcej, można określać uczucia osób na zdjęciach, pomagać w rozpoznawaniu pisma odręcznego, czy weryfikować usłyszane dźwięki. Z pewnością szybko odkryjecie pozostałe aktywności.


Poprawnie rozpoznany obraz – wentylator


Niepoprawnie rozpoznany obraz – aplikacja widzi plakat


Zmieniamy opis obrazu ucząc algorytm – to jest książka, a nie plakat

Crowdsource – tylko po co?

Dobre pytanie – w jakim celu to wszystko. Pierwsze, co nam przychodzi do głowy to powiększanie kapitału giganta informatycznego. Google zarobi więcej, a my? My nic z tego nie będziemy mieli, przecież nikt nam nie zapłaci. Cytując klasyka – „Nic bardziej mylnego”. Wiecie, że wśród Was są osoby z problemami ze wzrokiem? W tym niewidomi. Wyobraźcie sobie teraz aplikację, która po wycelowaniu na obiekt telefonem, rozpoznaje obiekty, opisuje je głosowo. Brzmi jak przydatna, ale odległa przyszłość? Nie! Takie aplikacje już istnieją i działają całkiem nieźle.

Tyle, że do działania potrzebują sporej bazy danych. Ale nie musicie mi wierzyć na słowo – to dzięki Waszej pomocy aplikacja Google Lookout (bo o niej mowa) JUŻ działa i skutecznie ułatwia życie wielu ludziom. Sprawdźcie sami. Teraz już wiecie, po co. Żeby pomagać innym! Może warto ze starszymi uczniami podziałać w tym kierunku, organizując wspólnie projekt. Przy okazji ucząc empatii, przedstawiając jak przy pomocy prostych kroków można zwiększyć dostępność przestrzeni dla osób z niepełnosprawnością i nieco ułatwić im życie. To jak, pomożecie…?

 

Notka o autorze: Tomasz Mikołajczyk jest nauczycielem informatyki w Szkole Podstawowej nr 9 w Tarnowskich Górach, blogerem IT (www.paninformatyk.com.pl). Publicysta (m.in. TIK w edukacji, Komputer Świat, Dyrektor szkoły) i prelegent na wielu branżowych konferencjach. Członek społeczności Superbelfrzy RP. Posiadacz tytułu Certified Microsoft Innovative Educator Expert. Certyfikowany ekspert z zakresu IT (między innymi Microsoft Technology Associate, Microsoft Office Specialist, ISTQB Certified Tester, EITCA e-Government, EPP e-Teacher). Prowadzi zajęcia edukacyjne w ramach ogólnopolskiego projektu Centrum Mistrzostwa Informatycznego we współpracy z Akademią Górniczo-Hutniczą w Krakowie. Laureat tzw. Listy 100 (edycja 2021) Szerokiego Porozumienia na Rzecz Umiejętności Cyfrowych w Polsce. Niniejszy artykuł ukazał się w blogu Superbelfrów. Licencja CC-BY-SA.