SaraAI - a strong artificial intelligence project SaraEye - a voice assistant with the sense of sight and intelligence SaraVision - a new way to recognize an image
Can we achieve 45 to 50 Kgcm of torque in a motor of a size of 20mm OD? We are thinking of using them in a robot joints which does not have much space.
I suggest you install a ready disk image first, following our guide: sarakit.saraai.com/getting-started/software in case of problems, please write to sarakit.saraai.com/community/contact
1. You don't need to use a wake word like 'Alexa' or 'OK Google'; just look at SaraEye, it sees you and knows you are speaking to it - it’s more natural, the way people communicate. When we are in a group and speak while looking at someone, that person knows we are speaking to them... 2. By looking at the device, and more importantly, SaraEye looking back at you, a unique bond is formed that is hard to achieve by talking to a 'speaker' like Alexa. :)
Niestety jesteśmy jeszcze w trakcie szukania inwestorów aby móc zacząć produkcję seryjną... Samo urządzenie po podłączeniu jest gotowe do działania, na początku widząc nową osobę może zapytać o imię i inne dane - potem już można pogadać o wszystkim :)
@@ArturMajtczak dobrze, bo mi na maila przyszło że już gdzieś można te urządzenia kupić, ale żeby to zaczęło gadać to skomplikowanie coś tam było wytłumaczone, a gdzie trzeba to podłączyć? Bo nie rozumiem, to jest przydatne narzędzie trochę dla osób niewidomych zwłaszcza że ja jestem taką osobą i bardzo mnie to na rzędzie ciekawi i nie mogę się doczekać aż będzie to publicznie dostępny, a będzie jakaś informacja że to będzie wydane? Np. na youtubie czy coś? Bo fajnie by było W ogóle to chciałbym żeby zostało na jutuba wrzuconych więcej filmów z Sarą po polsku
Extremely interesting. What do you transmit to ChatGPT so as it could interact through vision ? I guess you give some indications about what your Sarakit "see", is it ?
Exactly right. The cameras observe the environment, and in the background, a separate program identifies objects, people, motion, etc. This information is invisibly sent as prompts to ChatGPT, which then responds as you can see in the video.
@@ArturMajtczak This reminds me of the SHRDLU program developed by Terry Winograd at MIT in 1968 (based on around fifty nouns, verbs and adjectives in 3D world of blocks). I guess that it takes a lot of computing power to do this analysis, and that you do it on an external server from the pairs of images sent. I guess that Rasperry and your SaraKit card are used only to position the motors, process the image and sound and communicate with the server, is it ? Your approach is interesting. Do you think the GPT-4 Vision update uses a similar principle and communicates through prompts with the conversational system? (this system quickly has its limits it seems to me).
@@monsieur3d985 Sending images to a server and waiting for a response is indeed too slow and costly, so the image analysis is actually done on the Raspberry Pi itself, using a simple trained model. While this model might not recognize everything, it certainly has broad and sufficient capabilities. Image recognition isn't performed in real-time at 25 frames per second - that's not necessary at this stage. We just analyze changes in the background image, which takes about 100 to 600 ms. As I mentioned, this process runs in a separate thread and is efficient enough for our purposes. In terms of the GPT-4 Vision update, while it might use a similar principle of communicating with the conversational system through prompts, our approach focuses on local processing to avoid the delays and costs associated with server-based processing. This method, although it has its limitations, is quite effective for our current needs.
At the moment, we don't have ready units for sale just yet, but the good news is that we've made our first trial series. We've received it and are currently in the testing phase. The first approximately 150 people who order through CrowdSupply should receive their SaraKIT significantly earlier.
I apologize, but at this moment, I can't specify an exact ETA for orders from CrowdSupply. It largely depends on the campaign we're running there. I should be able to give you a more precise estimate right after the campaign concludes.
Nie patrzy ale słyszy haha. 4 rewolucja. Rozwijasz tylko system pol i c yjny aby później oni mogli zni e w oli ć ludzi .. Uczysz rozpoznawać nowych rzeczy z pomocą innych użytkowników odpowiadających na pytania Przykre
hmm... to chyba po prostu postęp, nie unikniemy go, zrobimy coś my lub inni, my możemy tylko dbać, aby technologia była wykorzystywana jak najlepiej, starać się ją zabezpieczać na ile się da, a da się - wiemy jak to robić...
@@ArturMajtczak Dla Pana postęp dla innych udoskonalanie nie wolni cz e g o sy s t, em u . Wiem taka Pana praca. Ok. Ale jak zaproponują grube miliony to dobrze by było aby Pan tego nie sprzedawał, bo tak jak wszystko obrucą przeciwko nam. Czas Panu sprzyja. Za 2 mc zaostrzenie ko n fl ik tu , później nowa za r a, z a . . z ch, i n, .. przywracanie ob os,t rz,e ń ń także taka technologia będzie bardzo potrzebna do kon, .t roli, , weryf i kacji, , raportu. ,. aby zarobić musi szybko wyjść wersja dla firm
Trochę tutaj zaszalałeś ;) W prawdziwym świecie musisz umieć rozpoznać kontekst. Dwie pionowe kreski to może być "1 1", "i i", "I I" (duże i), albo zwyczajne dwójka rzymska. Twoja metoda przypomina klasyczny OCR z lat 90 gdzie odczytany tekst ma mnóstwo głupich literówek. No i spróbuj przełożyć swoją metodę na coś, czego pewnie nie znasz i jest trudne do nauczenia np. alfabet chiński ;)
klasyczne dawne OCRy były oparte na algorytmach rozpoznawania praktycznie każdego znaku inaczej. 100 znaków, 100 algorytmów. Tu jest jeden. i tak II (duże i) i ll (małe el) i rzymska cyfra nie będą rozpoznane bez kontekstu - człowiek też tego nie potrafi. Jeżeli zbiór jest ograniczony do cyfr lub tylko znaków jest łatwiej. Jeżeli mamy i z kropką i I (i duże) też są to już inne znaki tzn. jeżeli będzie kropki nad linią to będzie to i (małe i) z większym prawdopodobieństwem niż I.
robi wrażenie :-) mam kilka urządzeń z Asystentem Google ale ten projekt pod względem komunikacji bije je na głowę (i nie chodzi tylko o język polski) Chętnie bym zakupił przy najbliższej okazji :)
używaliśmy SaraEye z Google i Alexą i szczerze mówię że rozmowa z tymi asystentami była nudna, po kilku zdaniach nie było sensu więcej gadać, sterowanie urządzeniami, proste pytania to jakoś działało, ale rozmowa nie była możliwa. Dlatego dodaliśmy własną AI SaraAI i nabrało to sensu, ale nie będę ukrywał że SaraAI nie jest gotowa i na tą chwilę połączenie SaraEye z widzeniem i z ChatGPT śmiga niesamowicie, wiele takich rozmów naprawdę zaskakuje. Mam nadzieję że jeszcze niedługo dodamy SaraAI, która będzie mocna w czymś zupełnie innym niż ChatGPT, uzupełni go tam gdzie on wogóle nie sięga.
Kind of ironic that you call this a "natural" conversation. It is so UNnatural that I'm not sure which is the robot -- the little black thing sitting on the desk or the bigger white thing sitting on the chair.
Wiem, że to gotowy kit, ale czy planuje Pan także dystrybucję oprogramowania, które mogłabym przystosować do własnej konfiguracji? Jeśli takowe istnieją, to chętnie się zapoznam. Pozdrawiam
Oczywiście życzę sukcesu temu projektowi, lecz mam kilka ale Jeżeli to będzie jako dodatek do Alexy i będzie współpracował z każdą Alexą to + Jeżeli natomiast trzeba będzie kupować nową Alexę z ta kamerką, to obawiam się że sprzedaż będzie mała, więcej osób wypróbuje ten gadżet dokupując go do swojej Alexy niż będzie kupować zupełnie nowe urządzenie, które defacto będzie jedynie lekkim ulepszeniem (za małym żeby wydawać tyle kasy na nowe urządzenie) No i to nazewnictwo Skoro bazuje to na aleksie to nie lepiej pozostać przy AlexaEye Nawet głos mamy tu Alexy i co nagle kobitka zmieniła imię ;)
Alexa to głośnik :), nie można dokupić czy dokręcić do głośnika opcji dwóch gimbalowych kamer :) Sama Alexa nie widzi, nie ma żadnej obsługi widzenia - co najwyżej można ją poprosić, aby pokazała obraz z kamery w garażu na laptopie. SaraEye to coś więcej niż dodatek, to upgrade do wersji 2.0 całego urządzenia :)
Projekt wydaje się być ciekawy, ale skoro to polski produkt, to dobrze, gdyby rozumiał polski i mówił po polsku, takich asystentów obecnie brakuje. Gdyby tak było i to w przystępnej cenie (powiedzmy do 600 zł) to SaraAI mogłaby zwojować polski rynek. Kolejna, w sumie najważniejsza kwestia to bezpieczeństwo. Nikt by nie chciał, żeby złodziej podłączył się do kamerki i obserwował domowników. Tu by trzeba opracować taki system, aby to było niemożliwe lub bardzo trudne.
Prywatność i bezpieczeństwo jest dla nas bardzo ważne - dlatego na komendę "nie patrz" kamera nie tylko się wyłącza ale całkowicie odwraca od rozmówcy co widać na tym filmie: ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-Vdm8goOZrB4.html
Spokojnie Sara mu znowu przypomni, ale faktycznie powinien powiedzieć "nie patrz" jak tu: ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-Vdm8goOZrB4.html :-)
Jak dużo próbek głosu potrzebnych było do utworzenia bazy danych wymaganej dla algorytmu rozpoznawania mowy? Ile słów liczy baza(orientacyjnie)? Pozdrawiam, Jędrzej Małkowski
Do rozpoznawania mowy wykorzystujemy gotowe API Google, jedynie w przypadku gdy Sara nie ma kamery i nie widzi rozmówcy aby wiedziała że mowa skierowana jest do niej należy ja wywołać imieniem i w tym wypadku imię jest rozpoznawane przez program.
@@ArturMajtczak za całokształt. Przecież to wszystko farsa. Nie wspominasz w ogóle o jakichkolwiek rzeczach związanych z używaną technologią. Powodzenia w szukaniu inwestorów.
faktycznie nie zauważyłem - wypowiedziane zdanie zostało źle rozpoznane - nie miało sensu i nie zostało zapamiętane, ale ponieważ Audi faktycznie kupiłem w 2013 roku i pewnie już kilka razy to mówiłem i Sara odpowiedziała poprawnie to po prostu nie zauważyłem tego problemu. Program nie jest jeszcze doskonały, ma wiele błędów, ale robimy wszystko aby przyspieszyć pracę i udostępnić pierwszą wersję do testów dla wszystkich co nie tylko nam mocno pomoże w dalszych pracach, ale też pomoże Sarze szybciej się uczyć.