前两期对抖音和美图的体验,让我们见证了打算机视觉技能带给人类生活感官及娱乐的刺激,本期我们对作业帮进行体验,感想熏染AI对教诲的助推。
作业帮是一款以“拍照搜题”为核心功能的在线教诲产品,该功能的实现紧张利用了OCR和深度学习技能,故本文环绕该项功能的体验,结合简要的技能剖析,领略作业帮化身“AI小叮当”的魅力,话不多说,开始本期的旅程吧~
1. 产品概况
作业帮是一款以拍照搜题、课程辅导为核心功能的K12教诲产品,该产品紧张面向的是K12阶段的学生、家长及老师人群,个中学生人群为主。
如图,根据七麦数据的实时榜单排名显示,作业帮在脱销榜中排名第二,而在免费榜单中排名第五。
值得把稳的是,这是所有教诲主题下的产品排名,若仅考虑K12教诲范畴,作业帮是当之无愧的“小霸王”。
这也间接解释了,作业帮在明确的产品定位下,为学生办理了习题答案搜索、学习辅导等问题,并且供应了相对竞品而言更为优秀的用户体验。
同时,根据艾瑞数据显示(图中垂直坐标轴单位为万台),作业帮的月活,和同类型的产品如小猿搜题、学霸君比较之下,其排名为第一,且领先的上风比较明显。
如图,作业帮的月活均匀值为8478万台,而小猿搜题为1618万台,二者相差的间隔较远,仅从日活的角度来看,作业帮的日活值也达到小猿搜题的5倍,进一步证明作业帮在同类型产品中具有较强的竞争力。
常日,我们衡量一个工具类的产品好坏,除利用榜单排名外,月活和日活是更为主要的指标。
则结合上述数据剖析可见,在线教诲的做事需求中,作业帮向用户交出了一份满意的答案。而作业帮得到的良好口碑,与拍照搜题这一核心功能功能精益求精的良好性能与精良的用户体验密不可分。
为了进一步认识拍照搜题功能及其背后的干系技能事理,以下将从拍照搜题功能项的用户-场景-需求剖析、功能目的、功能逻辑、用户评论等方面进行阐发,并结合技能给出终极的体验结论。
2. 用户-场景-需求剖析
可见,作业帮的紧张用户可分为学生、家长及老师,个中以学生群体为主。
为了更形象地解释拍照搜题功能的意义,我们讲三个范例的用户故事。
故事1:
小A是一名高三的学生,正面临严厉的升学压力。平时在家自己写作业时,如果碰着不会的题,他会直接打开作业帮,不用手动输入,直接拍照搜索同类型的题,既不会延误韶光,又能及时理清楚当天所学的知识点。偶尔,如果教室上老师讲题的思路他不清楚,回家也会自己拍照,然后看看平台上别人的解题思路就豁然开朗了。
此外,高三了很多知识点须要不断地强化巩固,以是他还有一个高效学习的小窍门,那便是拍照搜题之后,通过举一反三对同类型的题目进行反复练习,一次性吃透知识点。
更主要的,由于处于一个教诲水平相对掉队的县城,而平台上环绕拍照搜题,还可以选择一些名校名师来帮助解答或不雅观看对应的解题视频,帮助自己见识到更简便的解法,觉得作业帮的搜题功能太方便了,切实其实便是自己的“小叮当”。
故事2:
老王是小A的爸爸,文化程度较低,平时大部分韶光都在忙事情,只管如此经济也是捉襟见肘,他希望小A可以好好读书,将来摆脱和自己一样的生活困境。老师给小A先容了一款运用软件叫作业帮,帮助他办理了辅导孩子的无力感,同时直接拍照搜题,可以节省韶光,安排也很灵巧,同时在线教诲更为经济,也为家里节约了很多补习费。
还有的时候老王辅导小A的妹妹小B写小学作业,也不用自己输入百度之后搜索那么麻烦了,直接拍照就可以看到答案后再辅导孩子,体验很不错,以是现在他逢人就推举作业帮。
故事3:
陈老师是小王的班主任,在小县城任教,有比较多空余韶光,但是人为比较低。事情空隙之余,陈老师还在作业帮上为学生们答疑解惑,比如对学生拍照搜题的结果,如果还不理解,就换种思路帮助连续解答,或者帮助一些孩子进行强化学习和演习,这样既可以连续发挥自己的传授教化代价,还能赚取一部分的额外收入,以是陈老师也很心水作业帮~
3. 功能目的
结合用户-需求-场景及用户故事,我们可以很清楚地看到,作业帮作为一个K12阶段相对成功的在线教诲产品,依托于人工智能技能的发展,为广大的学生、家长和老师带来了便利。
对付学生而言,碰着不会的题目或暗昧不清的知识点,作业帮的拍照搜题,使得孩子们可以不用受困于老师不在身边、家长无力辅导或逐笔墨输入搜索的困境。同时该功能的外延还可以帮助学生强化知识点,学会举一反三,乃至由于平台上对学生的问题还供应了名校名师答疑解惑的选项,一定程度上可以缓解教诲资源不平衡的抵牾。
而对付家长而言,作业帮的拍照搜题帮助他们缓解了自身文化程度不高无法辅导孩子的无力感,同时帮助事情忙的家长节省了韶光,也替经济条件有限的家长省了钱。而对西席用户而言,作业帮也为他们代价亲睦处最大化供应了一个平台。对作业帮而言,拍照搜题的提出,是迎合AI时期对教诲的一种创新,同时为打算机视觉技能的落地供应了良好的落地契机,为传统教诲的改革带来了新的方向。而随着平台的不断成熟,环绕着拍照搜题,作业帮进一步开拓了课程辅导、学习圈等功能,进一步提升了作业帮的做事。但不可否认的是,拍照搜题仍旧是作业帮的亮点,而且作业帮的发展计策,也一贯立足于不断地提升后台算法对题目照片的识别的准确率及题库的完备率,也因此才得以坚持向上的发展劲头。
传统意义上的产品设计,强调功能主次光鲜的主要性,而从当前对人工智能类的产品体验中也可以看出,该原则对AI类产品亦同样主要。
算法、技能可以有万万千万种,用户可能遍布天涯海角,但作为一个产品,尤其是工具类的产品,如果本身核心功能不足出众,或在后续的完善中偏离了核心功能轨道,只有去世路一条。而从人工智能发展的角度来看,算法准确率的提升和优化是一个不屈衡的过程。
比如,起步的时候,可能随便加大演习数据数量或者是调度学习参数或演习的办法,算法提升的效果就很明显,由于说到底,所谓的人工智能,还是利用了打算机超强的存储及快速暴力求解的能力。
但随着不断地推进,面对的数据越来越繁芜、用户场景越来越多、需求越来越丰富,算法还想提升,哪怕那么一个百分点,都是十分困难的,这也是所有人工智能类产品在迭代进程中都会面临的问题。
但是我们从作业帮拍照搜题的识别越来越准确,用户体验也越来越好,可以看到作业帮一贯在坚持后台算法的迭代和优化,这种对初衷的坚持是算法之外更名贵的产品精神。
4. 功能逻辑
从中可见,在拍照的过程中,做出了两个比较明显的限定。
第一个是横屏拍照,保持题目处于图片的特定区域,其目的在于减少后续识别算法处理的难度。其次是对拍摄灯光的哀求,由于当光芒较暗时,图片不足清晰,则后期的笔墨识别会出问题,不利于终极的识别准确率。
这是用户体验和算法准确性之间的一种权衡,更人性化的产品设计提倡,只管即便减少对用户的哀求,增加用户利用的自由性。
然而对付人工智能算法类的产品设计而言,其准确率的得到每每需基于一定的条件,一旦冲破这些限定,算法识别的效果可能就会十分差劲,则会带给用户更糟糕的影响。
以下是实际体验的一个过程截图:
基于上述体验,可见拍照搜题技能,已经取得了可接管的成效。
为了增加对算法识别的难度,体验中我们特殊利用手写题目,而从搜索的结果来看,返回结果中的5道题与原图的相似度很高,解释笔墨识别及后续笔墨特色匹配的准确率达到了可运用的程度。
同时我们还考试测验了将两道题放在一起拍,则画面中占比较大的题目也可以检索得到很好的输出,这进一步解释,算法在处理的过程中,对付笔墨的切割比较准确。但是,体验中也创造了一些不敷。
比如:题目拍摄的哀求较高,尤其是屏幕中限定的框大小是固定的,而有的时候搜索的题目长短不一,以是大部分情形下难以在平台给定的小框内容纳题目,以是只能拍摄题目的关键部分,如果一次识别不准确就要反复考试测验,直到找到或放弃,增加了用户操作的本钱。
这是由于后台算法的灵巧度还不足决定的。
实在我们须要更多地理解,这不是产品本身设计去世板,而是由于现有的机器学习或深度学习算法,本身仍比较机器。比如:很多神经网络的输入,都有固定大小的需求,一些算法也仅仅对达到某些条件的图片处理才能得到良好的准确率,同时AI类的产品设计又缺少足够的履历积累。
这或许会在未来随着深度学习进一步发展,算法具有更强的推理和学习能力后,可以一定程度上增加产品设计的灵巧度。
再比如:针对少数部分笔墨描述,而题意的表达紧张依赖示意图的数学题,体验过程中我们考试测验只拍摄题目的图片,此时系统大概率下无法检索。也便是说,涌现“图中图”的情形,算法识别准确率较差。
这可能是由于系统基于OCR和深度学习的方法,紧张对笔墨切割进行处理,但是对图像特色的处理比较欠缺,以是检索效果较差。
则上述问题的办理,可通过多种技能方案领悟,应对不同用户场景需求的特界说务处理,增强算法运用的鲁棒性,减少算法失落灵的情形,这应该也是未来人工智能产品落地的一个主要关注点。
末了,还有一个小问题,有时拍摄上传数学类的题目,返回的结果中可能还包含物理、化学、英语等结果,我们将这类缺点姑且称之为跨学科缺点。
这也是可以理解的,由于算法更关注于对拍摄题目的笔墨识别,并在之后以笔墨特色的附近性作为紧张指标,进行搜索结果返回。如此,只要题目描述和题库文本更相似就会作为结果返回,却忽略题目类别的考虑。
关于这个问题的办理,或容许以考虑,在识别的过程中,增加种别标签,如拍摄题目上传之后,可以通过用户设定题目类标签。比如:属于语文、数学、英语等,则上传之后在特定的范围检索,这一方面可以提高算法检索的效率,另一方面也可以减少跨学科返回的缺点。
(这一步在技能上看来是可行,而且增加的本钱也只是用户上传的时候多了一个打标签的操作,但是却可以上传之后,结合这个标签减少检索的范围,同时减少跨学科返回的缺点,而且后面做用户评论剖析剖析这个问题还是槽点比较多地一个,那为什么作业帮不做呢?我想不明白~)
5. 用户评论
作业帮自上线以来,收成的口碑不错,根据七麦数据显示其IOS市场下评分结果如图:
总体评分达到4.6,好评率较高,同时为了进一步创造该运用仍存在的问题,我们搜集干系用户评论共30条,个中部分用户数据统计截图如下:
30条数据中,1、2、3、5等级对应的数据量分别为20、3、2、5条,个中以低分差评为主,更利于我们创造产品的问题。
则对用户数据进行关键词提取后,创造其基本占比如图所示。
我们将用户对问题的描述,提取出对应的关键词进行归类以便后续进行归因剖析。
首先是结果问题,紧张包含的描述如搜不到题目、搜出来的题目与用户需求不符合、答案解析有误等,占比较高达36.7%。其次是闪退问题,约16.7%的用户反响在拍照搜题的的利用过程中会涌现闪退问题,也属于一个高频问题。末了拍摄问题,同样地也有16.7%的用户反响,拍摄的过程中存在拍摄困难、横屏适配的问题。同时跨学科问题也比较明显,它是指用户拍摄数学题,结果检索出来英文题目,这是比较刺激用户体验一种存在,用户直不雅观看来会以为系统无疑是“人工智障”。
此外还有抄袭问题,它紧张反响了由于拍照搜题的便利性的同时带来了孩子不加思考、直接抄袭的弊端,占比达6.7%,这背后也反响出技能的双刃性。
产品,既要宠着上帝,还要冒着被抛弃的风险“管管上帝”,要光头~
我们将终极问题产生的缘故原由紧张归类为算法准确率、产品设计、产品运营、产品bug。
首先针对结果问题,如搜题不准确、跨学科问题等都是由于平台算法不足精准、鲁棒性差而引起的一种搜索结果返回失落误,该缘故原由也是最为主要的一个,而且也是大部分人工智能产品普遍存在的问题。
由于对付AI类的产品而言,算法准确率及稳定性直接影响了产品的利用体验。虽然目前有一些精良的产品细节设计可以缓解用户对准确率的抵牾,但是效果并不明显,而该类问题的办理只能依赖于对算法的进一步强化演习及参数调节。
题目拍摄过程中存在的横屏问题,则属于产品设计的范畴,须要产品职员充分理解算法的运用的根本,而后结合用户的利用流程进行功能设计的优化可以改进。
其它类似于产品运营、题库、产品bug的问题,同样须要产品及运营职员创造之后,及时展开详细调研并制订相应的方案去进行办理。
6. 技能剖析
拍照搜题功能,从技能的实现角度上来看,紧张有两种办法。
第一种办法因此图搜图。即平台中的题库同样按照图片办法存储,则当平台处理一个用户拍摄上传的解题需求时,算法通过打算用户题目图片的特色,并进行搜索排序,从题库中找到对应的最相似特色的图片,则该图片即为用户所搜索的题目。
这种方案实质上是基于打算机视觉特色与机器学习算法的匹配检索技能。
但这种办法的不敷在于,一方面系统的题库须要以图片的形式存储,花费的硬件空间较大,而且打算效率较低,性价比较低。
另一方面,对付两道题目而言,基于图片维度特色的比对,进而界定笔墨题目的相似度,和直接基于文本特色进行题目相似度的比对,一定还是后者的准确率要更为可靠。
因而,作业帮采取的是另一种基于OCR技能和深度学习结合的技能方案。
OCR(Optical Character Recognition),指的是电子设备(如扫描仪或数码相机)检讨纸上的字符,通过检测暗、亮的模式确定其形状,而后利用字符识别方法将形状翻译成打算机笔墨描述的过程。
普通地讲,便是针对印刷体字符,采取光学办法,将纸质文档中的笔墨转换为黑白点阵的图像文件,并通过识别软件将图像中的笔墨转换成文本格式,供笔墨处理软件进行加工的一项技能。
则基于上述定义,拍照搜题的过程,便是首先利用OCR,将图片中的题目处理识别成笔墨,而后根据用户的题目文本和平台数据库中的题库比对,找到最为相似的TOP 5(作业帮供应5个选项)。
OCR处理的过程紧张包括以下几个:
(1)图像输入及预处理:针对不同格式的图像输入,进行必要的预处理。
预处理过程首先进行二值化,即将彩色图像转换为黑白图像,紧张是为了剔除掉一些冗余特色,只留下主要的特色。
其次进行噪声去除。由于图片二值化之后,可能在图片中涌现很多小黑点或其它噪声类的附着,会影响后续的识别,以是要进行必要的过滤处理。
最后进行倾斜校正。由于用户在拍照的过程中,可能出于拍摄的技能、环境等客不雅观成分的影响,照片的角度不利于终极的识别,因此须要进行必要的倾斜校正以担保图片水平。
(2)版面剖析:直不雅观来讲,这一步便是对图片中的文本进行段落、每一行的切分。
(3)字符切割:将图片按照行和列进行划分,则切割后字符就变成了自己一个字。
(4)字符识别:通过机器学习或深度学习,进行笔墨的识别。
(5)版面规复:对识别后的笔墨,保持段落、行及笔墨间的相对位置不变。
而在笔墨识别的过程中,目前更为常用的方法是基于深度学习算法。深度学习算法识别单个笔墨的过程如图所示:
如图,经由OCR预处理并分割之后,对一个笔墨而言,基于深度学习方法的识别,首先对其进行卷积操作提取特色,而后进行下采样操作,保留更主要的特色,而后连续进行卷积和下采样操作之后,将末了一层下采样操作得到的特色运送至全连接层进行处理并终极输出其概率分布,从中可见,终极以98%的置信度对当前笔墨剖断为“运”。
对其它笔墨的识别亦同理,当前基于深度学习的笔墨识别,算法准确率常日达到99%以上。
技能关键词:OCR 深度学习识别笔墨。
7. 功能扩展
同时,基于附近的技能,作业帮对运用进行了扩展。
他们为了知足家长批改作业、辅导孩子的需求,进一步开拓了具有针对性的家长端。
在家长端,主打的特色功能是口算批改和作文搜索,则该需求的指向性更为明显,背后的技能事理和流程实质上和作业帮也是比较相似的,但家长版的整体体验更加简洁,由于对付家长而言,更多的是起到赞助和陪伴的角色。
详细的体验在这里就不赘述了,感兴趣的小伙伴可私底下悄咪咪去体验一把。
在这里特殊提及家长版是由于,在体验AI类产品的过程中创造,实在人工智能产品的设计中和传统的产品设计还是有很多类似的地方。归结到底还是对用户需求的把握,有的时候基于同一项或附近的技能,可以办理很多用户的不同需求。以是有的时候,如果产品设计职员过度重视算法和技能实现的细节反而会使得我们忽略了用户的需求。
换一个角度,许多人说目前人工智能算法的运用,其瓶颈在于找到落地的场景作为切入点。那么我想对这些产品剖析体验的过程,便是哀求产品或技能职员结合用户-场景-需求及功能目的、功能逻辑的剖析之后可以懂得——
某一些算法通过利用什么样的流程设计,办理了哪些人的哪些问题,从而当面临新的需求时,学会迁移借鉴某些产品已履历证过的算法及功能流程的设计,这样的体验可能才具有代价,希望我们可以努力把这件事做得更好!
总结
本期紧张体验了作业帮的“拍照搜题”,从中我们看到,基于OCR和深度学习技能的结合,人工智能在K12教诲上也发挥了巨大的潜力,在未来不断地发展和技能完善中,作业帮可想象的空间大概不局限于K12,乃至是成人教诲也未可知。
作业帮再一次证明,科学技能本身没有温度和创造力,而真正抖擞无穷力量的是产品。
作者:Luna,公众号:有三AI,一个专注于人工智能技能与产品落地的"大众年夜众号,希望可以和热爱AI的人有更深入互换,一起见证AI改变生活!
本文由 @ Luna 原创发布于大家都是产品经理。未经容许,禁止转载
题图来自网络