技術(shù)
導(dǎo)讀:據(jù)阿里云消息,杭州瞳行科技公司正式發(fā)布國(guó)內(nèi)首款 AI 助盲眼鏡。
12 月 3 日消息,據(jù)阿里云消息,杭州瞳行科技公司正式發(fā)布國(guó)內(nèi)首款 AI 助盲眼鏡。該眼鏡基于通義千問 Qwen-VL、OCR 等系列模型,具有出行避障、找物讀物、語(yǔ)音助手和一鍵求助親友等功能。該眼鏡由眼鏡主體、手機(jī)、遙控指環(huán)、盲杖四部分組成,目前已正式面市。
據(jù)了解,出行一直是視障人士最關(guān)注的問題。據(jù)統(tǒng)計(jì),中國(guó)有超 1700 萬視力障礙人士,其出行高度依賴導(dǎo)航軟件及人工幫助,經(jīng)常遇到最后十米導(dǎo)航無法找到目的地、服務(wù)人員無法及時(shí)響應(yīng)等問題。但目前國(guó)內(nèi)除盲杖外,并沒有其他普及的助盲出行工具。調(diào)查顯示,許多視障人士選擇“少出行”或“不出行”。
為解決“出行難”問題,瞳行將自研視覺模型與通義千問結(jié)合,配合 121 度超廣角雙攝像頭等硬件,著重打造低延時(shí)避障能力,并根據(jù)不同場(chǎng)景對(duì)模型進(jìn)行針對(duì)性調(diào)優(yōu)。據(jù)介紹,在出行場(chǎng)景,該眼鏡可實(shí)現(xiàn) 300ms 的超低延遲,相當(dāng)于每邁出一步,眼鏡即可給出道路提示。
比如在避障場(chǎng)景,大模型會(huì)簡(jiǎn)單概括周邊環(huán)境,識(shí)別公交車牌、路牌等,以及時(shí)響應(yīng);而在找店點(diǎn)餐等場(chǎng)景,大模型則會(huì)對(duì)文本、環(huán)境進(jìn)行總結(jié)和詳細(xì)播報(bào),幫助用戶找到目的地以及閱讀特定段落。
杭州瞳行科技公司市場(chǎng)及技術(shù)總監(jiān)陳剛表示:“大模型出現(xiàn)之前,做 AI 助盲產(chǎn)品比較難。一方面,算力成本是目前的十倍左右。算力成本的大幅降低,讓 AI 初創(chuàng)企業(yè)能夠快速發(fā)展起來;另一方面,有了通義千問,我們通過基模復(fù)用 + 微調(diào)優(yōu)化即可快速實(shí)現(xiàn)所需功能。”