谷歌(Google)周四宣布将为安卓(Android)和Chrome浏览器推出全新人工智能与无障碍功能。最引人注目的是,安卓屏幕朗读工具TalkBack现已支持通过Gemini人工智能询问图片内容及屏幕信息。
去年谷歌将Gemini技术整合至TalkBack,使视障用户能获取AI生成的图像描述(即使缺少替代文本)。如今用户还能针对图像内容进行提问并获得解答。举例来说,当朋友发送新吉他照片时,系统不仅能描述图像,还能回答关于品牌颜色等问题。该功能还扩展至全屏幕内容识别——在购物应用浏览商品时,用户可直接询问Gemini关于商品材质或折扣信息。
谷歌同时升级了“情感字幕”(Expressive Captions)功能,这项安卓实时字幕技术通过AI捕捉说话内容及情感表达。新开发的声音延时功能可识别诸如体育解说员喊出“精——彩——射门”时的拖长音效,或是“不——”这类情感化表达。系统还新增了口哨声、清嗓声等非语言音效标签。
该更新率先在美国、英国、加拿大和澳大利亚的Android 15及以上设备推出英语版本。
Chrome浏览器也迎来PDF阅读优化。此前桌面版无法通过屏幕阅读器处理扫描版PDF,现在借助光学字符识别技术(OCR),Chrome能自动识别这类文件,实现文字高亮、复制、搜索等操作,并支持屏幕阅读器朗读。此外,安卓版Chrome新增“页面缩放”功能,可单独调整文字大小而不影响网页布局,用户既能设置全局缩放比例,也可针对特定页面定制,通过右上角三点菜单即可调用。