工业互联网

充足利用人工智能,实现加倍高效的下一代数据存储

2025China.cn   >2019年05月17日

——作者:Noam Mizrahi(Marvell CTO办公室,技术副总裁兼首席科学家)

  如今,数据天生的速率远超人咱咱们的想象。在曩昔,人是数据发生的重要来源;而如今,图像设备、传感器、无人机、互联汽车、物联网设备及工业设备组件等,远嘌的途径天生各种格式的数据。 然而,咱咱咱们不应该将数据与信息混为一谈,对两个概念停止区分至关重要。

  从价值角度衡量,目前仅有一小部分已收集数据可称作是真正的资产。以图像处理设备为例,一分钟时长的相干运动于此至关重要,而非长光阴的无关紧要的视频片段。以此类推,如果将“数据”比作矿山,大家想要发掘的金块便是“信息”。将该类数据改变成有价值信息的能力(所谓“发掘”)称为“阐发”。

图 1: 2009 年至 2020 年数据存储必要涨幅

  图 1 所展现的图表由阐发公司 Statista 绘制,显示了曩昔十年间数据存储容量呈现惊人的增长。据预测,停止 2020 年,存储必要将到达 42,000 EB以上。但是,绝大多数的数据存储(大多数估算显示占比至少为 80%)毫无布局化可言,在应用这类数据停止阐发时,无疑会带来诸多艰难。据估计,仅有 5% 的数据存储可以或许真正用于阐发。如果有一种办法可应用元数据在履行阐发的环境中有用描述这类非布局化数据,则可以或许用来阐发的数据量将显著增长,企业所拥有的数据可发生的价值将获得大幅晋升。

  人工智能 (AI)是对现代社会的各个领域带来严重影响的技术,这些领域包含电子商务、自然语言翻译、金融科技、平安、偏向辨认/检测甚至可疾速确认危及性命癌细胞地位(或其余异常症状)的医学领域。尽管应用领域多样,但它咱咱们都有一个共同点:能颠末过程采纳一项可高效扫描大批非布局化数据(视频、文本、声音、图像等)并对其停止处理的技术,从而获得真正的价值。

  详细而言,Marvell 不只可以或许利用人工智能技术履行阐发过程,还可以或许颠末过程此技术前置处理非布局化的原始数据,以便为其供给标记的元数据,从而采纳简略又精确的办法表示这类数据。颠末过程上层阐发软件可以或许阐发此简化版数据库并从中收集有用的信息。在此之前,企业不停期盼颠末过程人工智能技术从其存储的数据中发掘更多的价值,但却不停毫无头绪。

  基于上述环境,Marvell 盼望天生的元数据可以或许或许晋升阐发软件运行效力,而且将人工智能技术作为从大批非布局化数据库中创建元数据库的对象。如今只必要将大批数据导入人工智能计算机中停止处理即可。但是,这是否真的是正确的办法?

  如果考虑到如今天生和存储数据的两种重要办法,即“云端” (‘the Cloud’) 和“边缘设备”(‘the Edge’),可以或许很快联想到移动这些大批数据将发生昂贵用度。有了新技术,这些可以或许获得有用解决。在云端传输大批数据,会对数据中央构建网络的基础举措措施带来压力,并会消耗大批电力及增长延迟程度,从而延长了全体处理光阴。对付边缘设备而言,分歧之处在于可用的计算机和电力资源有限。因为地点地位的小型设备的网络功效限制,因此无法将大批数据上传至云端。在这两种环境下,最大化操纵效力的关键在于尽量削减移动数据量并应用元数据取而代之。

  在来源处(例如存储设备中的数据存储地位)分派元数据会比四处转移数据加倍高效。固态硬盘 (SSD)已经包含作为计算机实体所需的基本元素。这些设备通常只能用于与硬盘相干的操纵,但也可以或许或许转换其用途,用于与功效相干的任务和卖力标记处理,或颠末过程集成式硬件/软件/固件模块的辅助,实现上述功效。此中的一种操纵情势为应用空闲的硬盘窗口履行后台映射任务,另外一种办法则为写入硬盘数据时同时对其停止处理。如果在存储地位支配这种加快办法并应用于正确的用例中,其益处不只在于勤俭电量及用度,还可以或许或许尽量削减数据移动并大幅低落延迟,和低落全体网络流量。此办法固有的可扩大性意味着企业和云效劳供给商利用人工智能技术可扩大其业务规模。

  去年八月在美国圣克拉拉举行的全球闪存峰会(Flash Memory Summit)上,Marvell 发表了极具创始性的 AI SSD概念验证节制器,展现了如何在不必要访问主机 CPU 处理资源的环境下,有用履行数据标记,同时防止上述提及的用度和延迟成就。Marvell 现场向参会者展现了 Marvell 数据中央及应用开源 NVIDIA 深度学习加快器 (NVDLA) 技术的客户端 SSD 节制器 IC 如何继承受过训练的人工智能模子,将其编译到集成式人工智能推断IP,和在硬盘中扫描存储于本地的非布局化数据的大型数据库(例如视频库)。由此可天生标记并在搜索环境中创建可代表数据的元数据库。

  如果将检测和辨认物体或场景作为偏向,人工智能推断引擎可扫描存储于硬盘的视频文件,并创建可列出其出现光阴点的元数据。基于这项新型人工智能增强存储技术,可在固态硬盘中本地存储元数据库并可供阐发软件应用。

  当法律机构在时长无休止的视频文件中寻找可疑点时,他咱咱们可以或许加载受过训练的模子。该模子可以或许精确辨别上述可疑点并可在统统适用的视内容中停止推断,此类推断可作为后台任务运行于统统存储视内容的硬盘中。这种办法可以或许记载及标记上述可疑点的踪迹,更易于后续停止深入阐发。

  同样,此架构会使类似于后台聊天机械人 (ChatBot)的阐发加倍高效,此类阐发触及必要扫描聊天机械人通话的大型数据库以便改良效劳品格。颠末过程上述做法,可以或许或许判断用户在什么时候对其收到的回复觉得称心/生气,或许通话时长是否合适等。创建可追踪这些判断模范的人工智能模子后,则可将这些模范编译到人工智能存储推断引擎内,并离线扫描通话。对付类似于电视点播(VOD)效劳的共性化广告插入、人物/物体搜索及利用数据近似度的各种密集型输入/输入 (IO-intensive)用例,其也可带来显著的机能优势。

  在无需昂贵的定制化 IC 的环境下,Marvell 首创的人工智能 SSD 节制器技术展现了如何履行新型数据存储架构以处理难以计算的“大数据”相干应用程序的扩数据阵列。颠末过程向市场中已有的固态硬盘硬件供给加倍智能化的附加逻辑的访问,可间接处理对下一代阐发工作负载至关重要的元数据和标记,而无需衔接专属处理资源。

  遵守这种依赖传统会合式处理的替代计谋,可使全体过程加倍高效。只需占用最少的可用网络带宽,而且不会发生瓶颈成就。将人工智能加快器间接集成到具有本钱效益的固态硬盘节制器 IC 中,可疾速实现阐发任务,不只可以或许削减处理容量及低落相应的电费预算,还可以或许完全防止从新开拓专属集成电路芯片(ASIC)的必要。 可编程架构的应用为更新所用人工智能模子带来诸多便利条件,以便在开拓新用例时随时解决任何成就。

标签:人工智能 Marvell 我要反馈 
智造中国
专题报导
2019 施耐德电气工业主动化卡车巡展约请函
2019 施耐德电气工业主动化卡车巡展约请函

2019年 “触摸聪慧未来,开启数字征程 - 2019施耐德电气工业主动化卡车巡展”行将启行。届时,施耐德电气精心打造的

多层级显示 可视化监管  研华工业级平板电脑  助力工场信息化项目落地
多层级显示 可视化监管 研华工业级平板电脑 助力工场信息化项目落地

跟着工业4.0概念的逐渐升温,越来越多的工场开端停止数字化、信息化改革。研华工业级平板电脑,以其精彩的机能、稳固靠得住的品

施想私塾——揭秘智能工场
施想私塾——揭秘智能工场

临盆投资打水漂,经营办理黑箱困境路在何方?制作企业三大成就:看不清、理还乱、剪赓续,怎么破? 这些成就归根到底都是办理

友情链接:中国教育资源网  三戟企业品牌设计网  mc喊麦网  mc喊麦网  中国九年教育网  中国贷款网  阿尔迪姆LED新闻网  深圳服装定制网  钓鱼学习网  科技日报网