约炮地图-听阿里牛人说大实话没有大数据专家,只有满身伤痕的践行者

2025-06-18 22:49:42 | 来源:本站原创
小字号

听阿里牛人说实话:没有大数据专家,只有伤痕累累的实践者

【题记:没有大数据专家,只有实践者的艰辛!】

6月在北京,将会有科学家和艺术家在人工智能领域的对话。组织者希望我能邀请几位科学家,包括人工智能、大数据和虚拟现实。我隐约觉得大数据科学家是最难找到的。

有很多人做大数据,但谁是数海专家呢?做新闻和数据产品的人计算吗?他们可以通过出租车软件等用户数据来描述城市的加班地图,甚至是枪击地图:约会地图。

但他们似乎不是科学家,而是有想象力的挖掘者。我也知道,像“今日头条”这样收集用户数据的新闻平台,往往会推出大数据新闻产品,比如全国动漫迷的特点,以及来自世界各地人们对汽车的不同偏好...当然,这些都是技术人员通过mapreduce通过的。、hadoop、spark、从Kafka处理和吞吐的海量数据中提取出来,但核心策划不是技术人员。当操作团队有创意时,技术人员将数据从库中拖出。地图地图。

宇视科技等大型安全监控公司的工程师应训练其识别系统处理100亿级的城市交通和安全数据。IBM的智能watson可以结构化医疗、健身和消费领域的无结构大数据。。。数据专家正在推进每个生成数据的行业。即使我是这个领域的小专家,处理公司规模不大的网络数据,配合技术人员发布数据报告。中国地图全图。

谁是大数据科学家?一些政府朋友也在问我这个问题。在我看来,在未来,人们会一直上传和下载各种数据。也许你的每个细胞都在上传数据。大数据网络确实可能存在“无主体”现象——任何人都是主体,但它不是绝对的核心。当然,如果他们能说会道,我仍然钦佩涉及技术底层的数据工程师。

5月12日,上海亚洲消费电子展(CES)在现场,我有机会听到阿里巴巴大数据专家“行在”先生的演讲,感触颇深。他的话打动了我:“没有大数据专家,只有伤痕累累的实践者。“(默念这句话,有点不由自主地唱出来,听过陈淑桦的《醒来时分》,你说你爱不该爱的人,你的心里满是伤疤)。大数据专家从零开始在各个行业成长。听了之后,他的演讲并没有自夸,而是分享了数据平台建设过程中遇到的困难和问题,这对那些对大数据感兴趣的人很有帮助。这就是我决定记录这次演讲的原因。

山东地图全图。

他首先介绍了阿里大数据平台“阿里数加”的一些项目,如帮助杭州市政府建立的交通管理系统,称为城市大脑。

乍一看,ppt有很多东西,但水平很清楚。他们将交警系统的卡口摄像头数据与他们从互联网上收集的交通数据(如地图数据)连接起来,整合成一个信息系统,并添加了许多算法来预测一小时后的拥堵情况。然后形成参考指令,发送到交警指挥平台,改变了过去完全依赖交警“手动”指挥的情况。(照片不清楚,看看它的意思)

还有智能故障预测系统。

地图位置。

4月1日,阿里巴巴的人工智能小人工智能预测了《我是歌手》的前三名。虽然预测是正确的,但它的宣传震惊效果远低于AlphaGo。也许是因为计划太有趣了,想要接近公众,但没有网络公众的痴迷。谷歌总是战略性的,有点神秘。然而,在听了“行动”的演讲后,我对阿里巴巴的大数据和人工智能有了更多的理解。可放大地图。

他说,未来所有的业务都将是数据业务,数据将成为生产数据。这篇文章并不打算说得更多。就像金融一样,数据肯定会成为指挥生产过程和控制未来生产关系的武器。地图导航。

说大数据不等于数据统计,躺在硬盘上的数据是无用的,必须在线才能有价值。十多年前,阿里巴巴的数据也躺在硬盘上,以及它是如何生存的?

世界卫星地图。

11年前至2004年5月,淘宝成为一周年纪念日。当时,马云对攻城狮说:“我需要一份商业报告,看看过去一年哪种商品最畅销,哪个省份的卖家最多。”工程师冯兄弟说:“好吧,明天早上给你!”

今晚不容易实现不方便查询数据的架构。冯先写了拖数据的脚本,然后用几十个SQL语句从oracle数据库查询。第二天早上,他终于把报告发给了马云。马云说这个年轻人做得很好。将来,你将成为技术总监。(作者对上述信息的真实性不负责任)四川地图。

然后马云下达了一项任务命令:

然而,我无法坚持下去。到2008年,淘宝的业务量和数据量已经达到2004年的数千倍。根据这一趋势,底层技术架构迫切需要升级。或者说数据库根本无法支撑如此庞大的数据量,存储成本将使阿里入不敷出。存储数据非常昂贵!

今年,阿里巴巴决定从底层重建阿里巴巴云计算和大数据技术。同时,为了实现自主可控,阿里巴巴金融成立。它的意义在于,整个管理层真正看到了未来数据公司的原型。

阿里巴巴于2009年开始描绘大数据平台的愿景。当时,马云在王健博士的提醒下提出了这个想法,我们不太明白。

约炮地图

后来他们明白了,做了这个ppt:中国交通地图。

建设大数据平台有哪些困难?

没有统一的组织和结构,一个人晚上熬夜研究数据,早上回去,继任者不能理解他的逻辑,等他来解释清楚,被称为补充小王子。其他问题看上面的图片,风兄弟很少拍一张可以看清楚的照片。聊天软件。

约炮地图。

上图中的每一步都需要专业人士。例如,“数据清洗”需要专门研究这一点的工程师。特别是,我们应该统一不同格式的数据,浪费老鼻子的力量。

阿里金融暴露了更深层次的问题。例如,缺乏历史数据相当于缺乏生产数据。在过去,淘宝的存储数据是有限的。例如,该系统只记录买方的最新交易状态,没有人意识到丢失数据的价值。然后他们都记录了下来。

数据平台部成立于2012年,开始实施“登月计划”,听这个名字很有野心!

登月计划面临的问题是:数据重复存储(70个淘宝类别表),烟囱林立(大风哥注:比喻小工厂独立,系统独立);使用成本高:小集群众多(大风哥比喻:藩镇割据);不同标准:淘宝有6个成交额;获取数据需要很长时间:需要等半年才能获取数据(原来这么久!);很难找到数据:meta标签不集中,有300多万张数据表(我勒出来,我的网络媒体只有100张表);研发数据应用成本高。

解决办法是建立数据平台部(打破藩镇割据状态);管理和操作数据,解决数据“通用存储”的问题。

存储:Maxcompute(原ODPS)数据集中存储;通:统一规范和ID,开放各业务单位;使用:促进各业务单位共享,促进发展,养生态。

登月计划是将几十个小集群统一成maxcomputer大集群。

大风哥不禁觉得:治大国就像煮小鲜,但治数据就像建大国。集中、统一、发展,多么像大国治理。

2012年至2013年,原数据仓库更名为大数据计算服务(ODPS),并将所有金融业务所需的数据放在云中,集中在ODPS上。

登月计划已经成功。但是做产品开发就是要不断面对新的问题:

其中一个叫做“缺乏行业知识:你与客户谈论平台,客户与你谈论行业应用程序。”哈,做技术产品开发,让自己成为各行业的专家。那么,有没有期望与绘画和模型艺术家交谈的大数据专家呢?如有,请联系大丰兄弟(电子邮件:yuliang@guancha.cn)

另外,看下图,阿里提到机器学习和智能交互显然是基于大数据开发人工智能的。

演讲结束后,大风哥和行在哥简短地聊了几句。真的是70后,具有典型的阿里风格,从基层扎实工作,不擅长表演,非常真实。当然,阿里巴巴系统也有像王健这样的海归博士,但更多的非名校毕业生,如马云,但勤于学习和了解公众需求的努力工作者已经成为该系统的坚实支持。有点像当年土龟兔的创业模式,华为也是这样的企业。

听着对自己更有信心。贴一张大风哥年会做的数据图,展示观察者网一年内全球新闻点击热度的统计:

从这张照片中,我们可以感觉到世界上的热点真的是“一带一路”。

顺便说一句,大丰哥团队开发的一带一路大数据图集。十张大数据图包括一带一路国家政治、经济、金融、交通、能源等。这是你在家旅行和投资杀人的必备药物。

需要联系电子邮件(study@guancha.cn),顺便说一句,这本图册耗资巨大,收费~

(余亮上海报道)

触摸水滴,进入智能国家

本文心得:

网友发表了看法:
(责编:admin)

分享让更多人看到