当前位置:
首页 > 文章 > 扫盲资料 > 微信开盒是什么意思-与微信团队的独家访谈:谁在用人工智能武装微信?

微信开盒是什么意思-与微信团队的独家访谈:谁在用人工智能武装微信?

当释放微信5.0“扫描”时,最讨论的是它承担的商业化责任。

被忽略的是它背后的技术及其技术中包含的趋势。

同样,微信在此版本中揭示的独立开发的语音识别技术也受到外界的震惊和质疑。 “腾讯能否在一夜之间成功地开发语音识别技术?”到处都有类似的疑问。

经过微信“模式识别中心”团队的独家访谈后,我们发现这两个产品功能并非孤立地存在,而是人工智能技术武装微信的两个预测。微信迈向智力并不是从这两个功能开始的,而且显然并没有以它们结束。

本文揭示了微信产品背后的故事,介绍了“模式识别技术”的未来形式,以及科学研究与产品开发之间的关系。我们更关心的是微信甚至整个移动互联网正在发生的变化:它变得越来越聪明。这是由移动设备和移动产品的丰富连通性引发的革命。正是由于如此丰富的连接性,基本人工智能技术可以从许多方面渗透,点燃可穿戴设备的热潮,启动电视,汽车,家具和医疗行业的变化,并真正启动了技术变化的过程生活。 。

受过1/3博士学位和2/3大师的高等教育团队

“模式识别”是人工智能的一个分支,在1960年代成为纪律。所谓的模式识别是指处理和分析各种形式的信息的过程,这些信息代表了以描述,识别,分类和解释事物或现象的事物或现象。图案识别对象包括文本,语音,图像,生物传感器,心电图,脑电图,地震波等。与IT领域相对应,它主要是指新指纹,等文本,语音,图像,IT相关传感器等iPhone 5s的识别函数,这也将成为未来“模式识别”研究的对象。

微信的模式识别中心也是一个研发中心。据团队负责人陈博(Chen Bo)称,他们隶属于微信北京研发中心,他们的研究指示包括语音识别,图像识别吉祥物,语音综合,音频指纹,语义理解,数据挖掘等。但是,由于该研究团队属于该研究团队微信,他们不仅负责理论研究,而且负责产品功能的开发。

模式识别中心最初不是微信的一部分。它的前身是腾讯研究所的模式识别小组,该研究所成立于2010年9月。该集团为整个腾讯公司提供基础研究结果服务。例如,它从一开始就为输入方法提供了手写识别功能。在Tencent的内部创新繁荣开始于2011年之后,该团队扩大了研究领域,面对识别,图像检索,文本识别等。集成了多个图像技术的“智能眼睛”是由该团队开发的。 2012年9月,该团队正式置于微信的管辖下。他们随之而来的是微信中的通讯录语音搜索功能4.3发行的4.3版。

为什么要将基础研究团队纳入微信团队? Chen Bo给出的答案是:“一方面,微信是一种引导移动互联网趋势的产品,并且对视觉和听觉扩展的需求很大;另一方面,该技术是成熟的,并且这是基本现场研究的实施阶段,微信是一个更合适的平台。”

目前,微信识别团队拥有40多名成员,所有成员都是受过高等教育和多才多艺的人才。根据陈博的说法,在40多个同事中,有1/3是博士学位,而2/3是硕士学位。另一个类似的比例是:整个团队中的1/3从事尖端技术研究,2/3从事现有的技术研究和产品对接。

关于团队的研究方向,Chen Bo介绍了它主要分为两组:语音和图像。演讲研究对应于手机上的麦克风,由博士生Lu Li领导的12人领导;该图像对应于由博士生Liu Hailong领导的手机摄像头,带领13人负责。陈博说:“小组是一个相对成熟的方向。除了小组外,我们还有其他研究方向卡通形象,包括文本识别,面部识别,语义理解,视觉搜索,视听指纹检索等。除了科学研究团队外,模式识别中心还拥有一个与微信产品团队相互互动的工程团队。

根据陈博的说法,她的团队并不纯粹从事研究。它不仅撰写论文,而且具有良好的发展能力。他们没有专门的手机开发人员。他们都自己开发iPhone并炫耀演示。当他们遇到产品问题时,他们必须与产品团队合作以解决它们。在招募人才方面,模式识别中心也很严格,需要研究和工程能力。因此,即使加入微信之后,团队也没有扩大:一开始只有2或3个人,而去年我们加入微信家族的30人。加入微信后,团队中大约有40个人。相对于竞争,这仍然是一支精益团队。

“两包香烟,三个月”,一个值得一千美元的承诺

微信5.0添加了独立开发的语音识别技术,引起了冲击。许多人不认为腾讯能够在一夜之间开发出如此高烈性,长期累积的技术。行业领导者Iflytek已经开展业务已有10多年的历史了,并且仍在改进这项技术 - 当然,Iflytek在语义识别,云平台服务和连接的工业连锁店中具有更深的根源。

但是,世界上没有奇迹,也没有“通宵”的传奇。

Tencent的模式识别团队成立于2010年9月。早期的图像技术已经成熟,并提早实施。但是,其语音识别技术开始很晚,并于2011年底正式启动了演讲识别自我研究项目。显然,该项目的发布受到当年苹果的Siri语音助手的发行影响,这引发了兴趣在语音行业中 - 到目前为止,Iflytek的股票已经翻了一番。

到今年八月,经过一年半的语音识别研究,模式识别中心最终克服了语音识别的技术困难,并在微信5.0产品(“语音输入”功能)中正式推出了它。由于模式识别团队是一个面向研究的团队,因此它主要集中在早期积累基本技术。再加上腾讯的低调风格,它给了外界一种“一夜之间出现”的感觉。

实际上,模式识别团队以前已经为微信开发了许多人工智能技术。例如微信开盒是什么意思,2012年9月发布的第4.3版的通讯录语音搜索功能以及2013年2月发布的4.5版中的语音提醒和“摇动”歌曲搜索功能。但是,Wechat版本4.5中的“语音提醒”功能吸引了外界对其语音技术的关注。一方面,这与微信受到关注的关注 - 微信在1月中旬宣布已达到3亿用户,成为一个巨大的移动IM平台。另一方面,“语音提醒”功能非常引人注目,并且不像“摇动”那样隐藏或难以理解,以搜索歌曲或“扫描”。

关于微信版4.5版的“语音提醒”功能,外界不知道它几乎无法在此版本中发布。它终于被顺利发布,后面有一个故事:“两包香烟,三个月。”

去年10月8日,在国庆假期之后,图案识别中心语音小组的负责人卢李(Lu Li)和团队负责人陈博(Chen Bo)去广州与张小龙(Zhang Xiaolong)交流。 “张小龙希望声音提醒能够在4.5版中。我说这项技术不成熟,我不确定这件事。我聊了半个小时,但是小隆什么也没说。终于,他说,'您认为这会需要吗?我咬着牙,至少六个月就走开了。 “当他回来时,他手里拿着4包香烟,在会议中有4个人。每个人都抽烟,每人一包,包括他自己。我从来没有抽烟。我看着香烟,gr着我的牙齿说:“大约三个月后,他还把一包香烟拿到了我的手中。”

(Lu Li,微信识别中心的语音组负责人)

从10月中旬到2月初,除了春节假期以外,该产品在上网持续了近3个月(在此期间进行了封闭的开发项目),Lu Li成功完成了这项任务。为什么烟雾对卢李如此吸引人?答案是在这次对话中:

IFANR:您通常如何放松?

卢李:我的方式是吸烟。

4.5版中发布的“语音提醒”功能使用了更复杂的语义识别技术。例如,“早上7:30起床,乘坐第718辆公共汽车上班”,您需要将“ 7:30”理解为时间,然后“起身乘坐第718号公共汽车上班”作为活动。这在语音识别中更为复杂。该功能于今年2月发布后,它在语义理解方面做得很好,但是有一些错别字,表明语音识别还不是完美的。在微信5.0中发布的“语音输入”功能具有非常准确的识别率,甚至在认可人名称,地点名称和适当名词的方面使人们感到惊讶。它表明,经过一半的努力,模式识别团队赶上了语音认可领域的行业层面。

技术和产品,谁开车谁?

在上个月在日本NTT DOCOMO总部接受采访时,我们了解到,由于对3G技术的深入研究,NTT DOCOMO忽略了支持行业的建设(这是世界上第一个商业WCDMA 3G网络运营商)。相反,它限制了3G业务的发展。 DOCOMO对中国运营商的建议是与终端制造商进行良好的沟通,并与该行业合作。

一个相反的例子是,我们采访了今年5月在上海的Kickstarter的创业团队SmartWallit。他们曾经想长时间使用蓝牙技术作为一种防allot设备,但是由于蓝牙4.0技术(更多节能),它尚未被广泛商业化(2010年7月宣布了2018年7月的技术规格),并且是直到去年9月的iPhone实际上支持蓝牙4.0,Galaxy S3和Note 2型号出现了,他们感到时机已经到了。

关于谁在技术和产品中占主导地位的冲突。因此,对于与微信相关的基本科学研究团队,技术是驱动产品还是产品驱动技术?

Chen Bo的答案是:技术经常驱动产品。 Chen Bo说:“在确定对产品的需求时,我们通常不知道技术可以实现多远,我们需要花足够的时间进行研究和探索才能知道它。” “经过研究的成熟后,产品将获得更多的控制。例如,该技术本身具有许多弱点,因此产品需要考虑如何利用其优势并避免其劣势。”

根据Chen Bo的说法,腾讯在制造产品时更加关注敏捷开发,但是在进行基础研究时,它们并不能完全提倡敏捷开发,这必须基于技术的成熟度。 “但是,一旦技术几乎准备就绪并且可以针对用户,下一步就是采用迭代路线。我们让研究遵循产品,如何优化,如何进行评估以及在它之前的发展如何发展要推出,所有这些都遵循产品的节奏,”陈博说,“几乎一半的时间用于技术的研究,而一半的时间遵循了产品的节奏。”

我问Chen Bo在进行初步技术研究时,他是否会参考其他产品的现有技术。例如,微信在搜索歌曲和音乐的“摇动”功能与海外应用产品Shazam的功能非常相似。 Chen Bo说,许多技术都有在国际期刊上发表的相关和可引用的学术论文。 Shazam有这样的论文,Google也有论文。她的团队经常研究过去已经取得了什么阶段。陈博说:“要进行基础研究,阅读很多文献是必要的。”

(Chen Bo,微信模式识别中心主任)

研究和建造产品之间存在许多差异。最大的区别是,基础研究更加关注“在采取行动之前做出决策”。您需要深入思考,并且您将无法在最后一刻找出灵感。在我知道的产品团队中,“封闭开发”通常意味着将团队带到郊区,他们一起吃,喝酒和睡觉,而与外界没有接触。他们甚至很少与家人和朋友接触电话,并且几乎与世界隔绝了。地位微信开盒是什么意思,以保持极其有效的发展效率。 Chen Bo说,他们的封闭发展不是如此封闭的形式。 “封闭的发展更像是一个口号。它的态度需要更加认真,并且在时间上更加紧迫。”她说:“基础研究并没有被迫,它一定有一个认真思考的环境,您必须冷静下来并思考。如果您急于上网,您将无法做任何事情。”

目前,Chen Bo的团队进行了两次封闭的开发,一次是在“两个盒子的香烟,三个月”的承诺之后,并且一次确保微信5.0的语音功能是在线的。每个“封闭开发”周期为两个月。在封闭的开发期内,您将相对较晚下班。 “我们将保持更严格的步伐,迅速达到目标,并根据产品的节奏进行研究。”

“基础研究中没有'失败,只有时间安排”

模式识别团队于2012年9月加入了微信团队,并共同开发了五个主要功能:通讯录语音搜索(v4.3),语音提醒(v4.5),摇晃到搜索歌曲(v4.5),增强版本的“扫描”(v5.0)和“语音输入”函数(v5.0)。我问陈博

我们不考虑故障的许多事情。某些技术目前尚未发布,但这并不意味着将来不需要它们。可能只是在此阶段无法使用,但将来肯定会提供它们。例如,我们所做的许多增强现实(AR)事件没有发布,因为现在不允许无线带宽。但是在2或3年内,网络将不再是一个问题,并且该技术将被实施。我们不会关心“您在做什么无用”或“在短期内没有用”。我们不将其用作测量技术的标准。

她以4G网络的开发为例。 “增强现实和移动视觉搜索技术现在在交通限制上花费大量精力(例如,“扫描”到扫描范围/CD/CDS/海报。前端和后端将做出各种判断,以减少流量,最终将Chen Bo说:“将其控制到几个KB),但将来,在4G时代,流量将更加丰富,可以做很多事情,例如显示出更酷的效果,并将增强现实带入前端。”本月初,我的同事宗庄(Zongcheng)参加了高通公司在美国的高通Uplinq会议时,在这一领域看到了这一领域的技术研究结果。但是,根据Aifaner的说法,国内4G许可将直到11月才会颁发,并且至少在一年后,4G才能促进剧烈的发展。这意味着由于网络条件,各种创新技术仍需要花费一些时间才能引发该国的繁荣。 。

回到微信主题时,“此阶段不可用”的一个功能是“名片识别”。在8月5日发行微信5.0之前,我们听说微信可能会发布名片识别功能,这将对诸如全能王的名片之类的产品产生影响;但是在此版本发布后,名片识别功能消失了,他们松了一口气。 。根据Chen Bo的说法,名片识别功能确实会发布,但是准确性仍在提高。 “我们只有在拥有良好的用户体验之后才考虑发布它。”

除名片认可外,据说Chen Bo在发行4.5版的“ Shake”露天之前也经历了艰辛。 “当时,此功能不确定在4.5版中发布,但是每个人都非常有动力,经常在周末加班。当时,我什至想到根本不释放它。但是最后这是做出的,做得很好。”陈博说,加入微信后,最让他震惊的是执行微信团队。 “微信团队的最大优势是超级执行。每个人都与梦想一起工作。例如,游戏“混蛋”是由一个人在两周内开发的。是的,面部识别也是个人的1个。”

我要求陈博(Chen Bo)用三个词来描述她的团队,她使用了“卓越”,“兴趣和爱好”和“脚踏实地”。并解释:

继续改进:对于基本的技术研究,保持进步非常重要。从测试级别,训练水平到评估,准确率可以为99%,但不能为98%。从产品的角度来看,这可能没有意义,但是从技术上讲,这意味着将用户设置为大量失败。

利益和爱好:许多创新都受到利益的驱动。如果您不喜欢或喜欢这个行业,那么您将无法创造好东西。例如,当我们招募人员时,我们不会为扩张而扩展。相反,每个人都必须拥有自己的价值以及他们是否喜欢人工智能技术。

实用性:朝着小方向进行基础研究,其中1或2个人这样做。从头到尾做很多事情,包括演示,实验和效果摘要,都需要扎实的心态。我们已经进行了研究,并取得了90%的成就。如何做到剩下的10%,我们必须忍受孤独,态度良好并继续追求。

目前,除了研究新功能外,Chen Bo的团队还在议程上还具有各种优化任务,包括扫描封面和条形码的识别率,语音识别的准确性,其自身图书馆的构建等。她说,她说团队还在考虑如何建立一个开放平台并使他们的自我开发技术可供所有人使用。 “人们使用它的越多,我们就越能理解用户需求,并且更容易看到未来的趋势。”

模式识别技术的下一步是什么?

出乎意料的是,陈博说,团队面临的最大困难是“用户对人工智能的期望(模式识别)”。

Chen Bo说:“许多功能都非常好,但是用户会问为什么不能实施它们。” “我们要做的是模仿人的大脑,但是人脑神经网络非常复杂,当前的人工智能远非能够匹配它。用户对此感兴趣。”期望很高,需要指导来使用户理解。” Lu Li以语音到文本为例(5.0的“语音输入”),“这等同于初中生的大脑可以做的事情,但是现在机器很难完成它。”

Chen Bo认为,尽管麦克风,相机和其他传感器在短期内可能没有很大的爆炸点,但从长远来看,它们肯定会非常重要。 “相机和麦克风的应用才刚刚开始。它似乎很受欢迎,但是与大脑相比,它远远落后了。”陈博充满信心。 “例如,可穿戴设备没有引爆,因为它们没有良好的传感器。但是技术趋势的发展方向是不可逆转的,并且肯定会在某个时间点爆发。”

以当前的“入口”为例,例如麦克风和相机。在移动互联网之前,它们是安全领域的标准设备。在移动互联网之后,它们成为移动设备的标准设备。 “标准配置的目的是什么?不是只是为了使人们的生活更加方便吗?标准配置可能成为入口。”但是,Chen Bo认为,语音识别或图像识别领域仍处于发展的早期阶段,无法成为替代品。据说她将来不可能完全替换现有的互动方法,但是比例会增加。例如,Google上超过10%的搜索来自语音搜索。

图像识别中心图像组的负责人Liu Hailong举例说明了一个例子。除了提高现有五个“扫描”功能的库容量之外,在图像识别领域进行视觉搜索,将来还可以扫描三维刚性对象,或者由商人来定制什么用户想找到 - 类似于Google Glass。这是微信的重要产品概念:您看到的是您得到的。在刘海节(Liu Hailong)的看来,相机应该是视觉的延伸,“这是我们的眼睛。”

(Liu Hailong,微信模式识别中心的图像组负责人)

我问Chen Bo,通过添加各种功能,包括模式识别技术领域的功能,微信是否会变得越来越肿。她说,微信的基本结构没有改变,但它在各种入口下都带有更多的东西。 “它没有肿,但增加了许多用户喜欢的创新性。”她举例说明了用Shake搜索歌曲的例子。 “一开始,我们并不自信,而且此功能也非常隐藏,但是后来的成长曲线非常健康,认识和赞美也很高。” Chen Bo说,该功能每天使用数千万次,大约10%的人在搜索歌曲后会分享它。这是一个很好的份额比率。

至于人工智能的可能发展方向,20年后会是什么样? Chen Bo开玩笑说,他将自己的想象力留给了好莱坞科幻电影。 “钢铁侠和使命:不可能的4具有大量的语音和图像识别技术,可以对未来产品形式进行一些解释。” Chen Bo将带团队观看此类科幻电影。 “我期待有一天真正实现这一影响。” ”。

“小龙可以看到远”

外界可以看到张小龙具有“产品主”的光环,并且具有强大的产品功能和交互式设计功能。

陈博说:“外界看不见的是张小龙很清楚地看到了未来。” “他为什么要关注我们的业务?需要保留什么东西,什么事对未来很重要。他会给我们很多建议。他不仅告诉别人如何互动,他还会进一步看到,而且每当我们与他交流时,这都是一个学习过程。”张小龙将在参与某个技术研究方向时给予陈博的团队优先建议。

模式识别团队每个月都会去广州与张小号进行交流,有时在那里停留2或3周进行联合调试。除了沟通日常工作外,张小龙还将与他们讨论未来的趋势。例如,可穿戴设备,与身体健康相关的设备,脉冲分析,面部识别,Google Glass和对象检索。但是,当被问及将来微信是否会与可穿戴设备变得越来越紧密相关时,Chen Bo立即否认了这一点,说:“这更多是小米的个人爱好。”

根据AI Faner从HTC来源的知识,Zhang Xiaolong确实对硬件字段非常感兴趣,两方不时讨论了未来的硬件表格。三星在本月初发布了Galaxy Gear Smart Watch之后,Zhang Xiaolong在微信中暗示,微信可能进入智能手表平台。微信内还有一个尖端的硬件实验室,该实验室已开始从不同方向(例如NFC贴纸和汽车中心控制台)研究微信在物联网平台中的应用。以前,基于微信平台(例如Ubao Vending Machines和Yinmeitu)的硬件交互式创新也受到了关注和支持。

后来,我们询问了张小龙和微信团队,他们专门关注的是什么趋势。 Chen Bo说,Zhang Xiaolong更关心微信带来的互动变化以及其依赖该行业的移动互联网的影响。 “随着硬件传感器的丰富,它可以带来人类与机器之间互动的革命性变化。”她谈到了两个方面。一种是硬件和软件的组合。两者的组合带来的变化将更加彻底;随着语音,光学和其他传感器的发展,机器人技术研究将取得进展。 Chen Bo说:“由于每个传感器都非常昂贵,因此机器人不会开发很长时间。将来,科学家和极客会研究它,传感器本身将很快发展,推动人工智能技术的发展。”

她以自动驾驶汽车为例:“无人驾驶汽车有很多传感器,许多人欣赏这一点。在将来的某个阶段,由于传感器的普及,自动驾驶汽车将被更广泛地使用。 “但是,她否认微信将参与传感器硬件的研究 - iPhone 5s配备了指纹识别功能。 Chen Bo说,团队可以根据iPhone技术进行研究,但不会单独制作指纹识别硬件 - 而是要保持团队的扎根。气质遵循产品策略。 Chen Bo说:“我们使用一个小型团队(大约1/3人的人力)来研究优秀的产品。这是我们的理想选择。”

这也是Zhang Xiaolong和微信团队的理想。一年前,我们讨论了微信与物联网的重要性:

也许,在每个人都在探索的移动互联网领域,微信也可能重新定义所谓的物联网,LBS和O2O。它提出的互连形式不是复制超链接,而是要创建连接真实关系,连接所有对象并成为人类计算机交互接口的微链接(Weilinks)。

张小龙曾经在今年7月的腾讯合作伙伴会议的微信论坛上回答了这一观点,并提出了“解决人们与企业之间的沟通问题,人与设备之间的交流问题”:

最终,物联网将会到来。微信不仅可以联系人,还可以将机器与Internet访问联系起来。每台机器都有一个QR码作为设备ID。您可以与微信中的设备交谈以控制设备。

可以预见的是,随着基础研究和平台的结合,尤其是大型平台,例如微信,可以加强人们与事物之间的智能联系,因此会有更多的变革可能性。与传统的互联网不同,移动互联网具有更丰富的连接性,基本技术可以从各个方面穿透以改变行业。这甚至是从自下而上的震惊,只有一个目标 - 更聪明的人类生活。

今天,微信已经开始,Facebook已经开始,福特已经开始,苹果已经开始,百度也从“深度学习”开始,而Google越来越远……这首歌可能没有结束,但无疑会变得更加更受欢迎。许多数字。