• [行业资讯] 超级计算机如何为物联网作贡献?
    「万物互联」的AIoT物联网时代,将有巨量的设备连接到网络上。这些设备很多都内置有传感器,它们工作过程中会产生许多数据,这些数据一些是设备运行必不可少的,一些则可以帮助相关厂商更好地运营。分析这些数据,也可以挖掘出不少价值。 很多大中小企业都有投入或多或少的资源对这些数据进行分析、挖掘,也有些企业,利用超级计算机实现了更快速、及时、深度的挖掘。 有资源行业人士建议,「当数据分析的时效性是非常重要时,企业可以(或者说「应该」)考虑选择利用超级计算机的计算能力来进行数据分析」。 例如,要将物联网的数据快速输入模拟器或数据模型,以便及时得到数据输出,这种时候、这种应用场景下,利用超级计算机的计算能力可以非常有效地突破系统的瓶颈。 很多企业解决这些方面问题的首选方案是云计算,但其实超级计算机可以帮他们有效提升数据分析速度(当然,往往也意味着更高的成本)。 云计算方案和超级计算机方案的差别关键在于数据分析速度。 云计算方案可以处理大量数据,一定程度上也可以处理复杂问题,但是如果分析速度是影响很大的关键因素,相关企业如果希望极大提高数据分析效率(如将原本要花几个小时时间分析的工作,缩短到几分钟乃至几秒钟),短时间内获取分析结果,那么,超级计算机的解决方案就是一个很好的解决方案。
  • [其他] 实用AutoML系统所面临的关键技术难题和挑战
    自动化机器学习作为一项能够帮助AI快速落地的关键技术,已经得到了国内外学术界和工业界的广泛关注。经过近几年的研究发展,AutoML在基本技术方法和任务上,已经取得显著的进展和成果。一、关键技术难题和挑战(1)开发一个高效全流程数据分析模型难度大大部分实际应用的模型往往是端到端的机器学习流水线。典型的数据分析流程涉及到多个阶段,包括数据预处理、特征工程、算法选择、模型评估及超参数优化等,而且每个分析阶段又包含了多种方法。数据分析人员需要了解每个阶段中每个方法的适用场景、运行原理以及超参数调优技巧,并通过不断尝试各种算法模型,反复迭代和试错,最终针对实际业务数据特征设计性能优异的机器学习流水线。因此,开发一个高效的全流程的数据分析模型具有技术难度大、严重依赖专家经验、周期较长等困难。目前主流的贝叶斯优化方法将机器学习流水线自动化设计问题抽象成模型选择和超参数调优的联合高维优化问题。然而,大部分贝叶斯优化方法在高维场景下性能较差。另外,基于遗传算法的自动化算法又面临着效率较低、耗时过长的问题。(2)概念漂移场景下的AutoML建模问题现有的AutoML技术方法大都用来解决静态数据集的自动化建模问题,但是在一些现实场景下,数据是持续产生的,数据特征是动态发生变化的。这种数据特征的动态改变也称为概念漂移。例如,在许多实际应用场景中,比如在线广告、推荐系统、情绪分析、欺诈检测等,数据按天、周、月甚至年依次到来,并且随着时间推移,数据分布会发生变化。由于存在概念漂移,一个时间段下训练所得到的模型,有可能难以适应下一个时间段的数据,从而导致预测准确性下降。终身学习(Lifelong Learning ) 的目的就是能够捕获数据概念漂移,使机器学习模型能够随着数据集的变化而动态更新。(3)特征工程中的问题和挑战特征提取的主要目标是通过从输入数据中提取突出的特征来提高机器学习模型的准确性,同时还可能从输入中消除噪声和冗余。 必须考虑特征的可扩展性,因为用于机器学习的数据集大小的增长使得提取特征变得困难且不可行。十年前,要对数千个特征运行特征选择算法是一个挑战,而现在的挑战是要对数百万个输入维执行此操作。这就提出了一个巨大的挑战:我们如何使特征提取具有可扩展性?特征工程通常需要相关领域的专业知识,并且涉及反复试验和错误,模型测试和评估。将原始数据转换为功能部件通常需要大量人员参与有关该问题的领域知识,因为它主要是由直觉驱动的。二、如何解决这些问题和挑战?(1)超参数重要性分析工具大多数 AutoML 工具常常只能机械地给出最优的参数配置,却无法洞察超参数与模型性能之间的关系。针对该问题,超参数重要性分析工具应运而生,它对 AutoML 工具运行过程中产生的算法性能数据进行离线分析,获得关于不同算法的超参数是如何影响模型性能的见解,这有助于算法开发人员深入理解算法的工作原理。 键超参数选择类似于特征选择,它可通过量化超参数重要性,以精简搜索空间的方式来加速搜索过程,提升 AutoML 效率,帮助专家洞察搜索空间。(2)提高计算效率和得到良好结果为了达到高计算效率和得到具有良好结果的目标,目前主要使用经验技术来提升 AutoML 的性能和效率。根据所使用的技术不同,可大致分为三类:基于集成学习的优化技术、基于元学习的优化技术和基于迁移学习的优化技术。 基于集成学习的优化技术将多个基础学习器合成一个强学习器,以达到提高学习器泛化能力的目的,在 AutoML 工具中使用集成学习技术可以提升工具所得结果的泛化性能。基于元学习的优化技术从历史经验中提取元知识(如数据集和模型的元特征、配置的性能等等),并基于元知识训练元学习器再应用于新问题中。元学习技术是 AutoML 性能优化中最常见的优化技术,常应用于在配置生成、动态配置自适应和配置评估等阶段进行性能提升,例如 Auto-Sklearn。基于迁移学习的优化技术使用来自原域的知识尝试改进目标域,它与基于元学习的优化技术的区别在于是否利用提取的知识训练模型,如果训练模型则是元学习,若直接使用知识则是迁移学习。(3)根据实际应用场景搭建算法框架文献1面向全流程数据分析中的自动化机器学习流水线设计场景,首先分析全流程数据分析特点,定义一种由五阶段构成的机器学习流水线,可以同时处理离散型和连续型特征面向终身学习场景,针对普遍存在的概念漂移和数据不平衡问题,研究提出了一种基于加权集成学习的算法框架Auto-LEE。作者:Python码一码转载自:简书
  • [经验交流] 月入4W码农的忠告:没有这项底层能力,别想拿高薪
    如果有程序员问:2021年,最有“钱”途的岗位是什么?数据分析一定榜上有名。2021 年起,有一件事已是不可逆的趋势 ——未来商业世界里,没有一家公司不是数据公司。任何一家公司,都需要拥有驾驭数据的能力,学会用数据做精细化运营,利用数据驱动业务的增长。所以,数据分析,是未来 5 年内,无论什么行业都有持续需求、非常值得深扎的方向。根据UN中国商业联合会数据分析专业委员会统计,在BAT企业招聘的职位里,60%以上都在招大数据人才,给出的薪资也一个比一个高。但是,根据主流数据媒体调查:全国目前的大数据分析人才仅46万,未来3-5年大数据分析的人才缺口将高达150万,属于高度稀缺。雷军曾说过经:站在风口上,猪都能飞。面对如此大的市场需求,现在选择数据分析,绝对是最明智的选择。 而这个风口对程序员群体也更加友好,给你看一张数据岗的晋升路线和能力要求,就会发现:如果你想从事技术方向,编程语言就已经掌握了一些,而且数据领域的技术岗越往后薪资越高;如果想从事业务方向,各种数据分析工具对你来说也是小菜一碟,同时更接近业务的工作内容也会更有趣,话语权也将更多。总之,在今天这个数字化环境下,不管是技术方向还是业务方向,能成为数据领域的人才,你将同时拥有高薪、话语权、不可替代性和成就感。但并不是所有站在风口上的人都能飞得起来。如果你想要在职场飞得更高更远更辽阔,除了选择数据分析这个风口外,更重要的是稳扎稳打,学到真本领。所以,在通往数据分析大牛的道路上,不管是工具方法,还是思维模型或者是更高深的数据探索能力,都建议你一步步通关。
  • [其他] Nature计算科学综述:经由准实验从观察数据中推测因果关系
    在许多数据科学问题中,由观测数据估计因果关系是一项极具挑战但又十分必要的环节。基于观察数据、利用数据的随机波动——即借助准实验判定因果关系的方法。同时,作者展示了如何将该方法与机器学习相结合,在典型的数据科学环境中回答因果问题。该文还强调了数据科学家如何能够帮助推进这些方法,从而对来自医学、工业和社会中的高维数据进行因果估计。https://www.nature.com/articles/s43588-020-00005-8
  • [其他] 机器学习笔记之数据挖掘
    谈到对数据进行分析利用,很多人会想到 “数据挖掘"(data mining),这 里简单探讨一下数据挖掘与机器学习的联系数据挖掘领域在二十世纪九十年 代形成它受到很多学科领域的影响,其中数据库、 机器学习、 统计学无疑影响最大[Zhou, 2003].数据挖掘是从淘量数据中发掘知识,这就必然涉及对 “ 陇量数据" 的管理和分析.大体来说,数据库领域的研究为数据挖掘提供数据管 理技术,而机器学习和统计学的研究为数据挖掘提供数据分析技术.由千统计 学界的研究成果通常需要经由机器学习研究来形成有效的学习算法,之后再进入数据挖掘领域,因此从这个意义上说,统计学主要是通过机器学习对数据挖 掘发挥影响,而机器学习领域和数据库领域则是数据挖掘的两大支撑.
  • [行业资讯] 华为云IoT数据分析服务(IoTA)于2021年3月26日00:00(北京时间)转商通知
    尊敬的华为云客户:华为云计划于2021/03/26 00:00(北京时间)将IoT数据分析服务(IoTA)正式转商用,服务商用后将于2021/03/26 00:00(北京时间)开始收费。华为云在此提醒您,请仔细阅读IoTA的收费规则及免费配额信息,基于您的业务选择,及时作出必要的调整,比如设置合适的数据存储时长,避免产生不必要的费用。更多关于IoTA的产品介绍,请您点击了解。如您有任何问题,可随时通过工单或者服务热线( 4000-955-988或950808 )与我们联系。感谢您对华为云的支持!
  • [干货分享] 基于人工智能的组学数据建模“ModelArts人工智能应用开发指南” 学习笔记
    上一门生物课在过去,高通量测序技术的出现和成熟彻底改变了生物医学领域的面貌。改技术能够一次并行地得到几十万甚至上千万的DNA分子的数据信息,随着测序成本的降低,该技术已经应用于生物医疗领域的各个方面研究,并产生了大量的组学数据。如何能够更好地利用生物医疗的各方面研究,并产生了大量的组学数据,如何能够更好地利用大规模组学数据对生物医学问题进行建模就显得尤为重要。常见组学数据类型1)  在基因组学领域,微陈列技术和下一代DNA测序技术广泛用于全基因组拷贝数变异和单核苷酸多态性等DNA突变的鉴定。2)在表观基因组学领域,甲基化DNA免疫沉淀和亚硫酸盐测序用于分析DNA甲基化,染色质免疫沉淀测序用于鉴定染色质相关蛋白的结合位点。3)在转录组学领域,微陈列和RNA测序用于定量整个转录组的表达谱。4)在蛋白质组学领域,液相色谱-串联质谱法和同位素标记和标签用于分析代谢标志物5)在代谢组学领域,核磁共振和质谱仪用于分析代谢标记物组学数据可提供DNA,RNA,组蛋白修饰,蛋白质,代谢物等不同分子系统水平的全面信息,已广泛用于生物科研,合成生物,药物研发,个性化治疗等领域。一,定点组学数据特征通过高通量测序技术对不同分子水平的组学信息进行定量后,得到的数据都是非序列数据,如基因突变,全基因组的基因拷贝数变异,RNA表达式,蛋白质表达量,这些数据具有以下特征;1)原始数据含有几千或者几万个特征,大部分特征之间是相互独立的2)特征点的数目比较多,一般大于训练样本数目或者训练样本数目处于同一个数量级3)原始数据的特征之间没有明显的时间维度和空间维度相关性有严格的先后关系和前后左右关系4)原始数据的特征之间存在层次性的相互作用二,基因组学建模方法CNN算法中的卷积操作能够抽取层次特征,进而组合形成高层次特征对数据进行建模。RNN虽然在结构上和CNN有比较大的区别,但是其本质也是通过整合序列上前后特征来实现提取信息的功能,CNN和RNN非常适合从图像,文本,语音等数据中提取特征,这些数据之间具有局部相关性,即输入的特征值和周围的特征值存在相关性,如果将输入特征的顺序,则可能影响其语义信息。随着ResNet等算法的出现,训练深度神经网络更加容易,因此有必要将MLP,AE,VAE等向更深的方向做扩展,然而,由于组学数据的特殊性,需要投入大量的精力去试错才能找到最优的神经网络结构,随着AutoML技术的逐渐成熟,可以将很多模型框架的设计问题转为自动搜索问题。因此,可以构建面向基因组学建模的自动化人工智能系统,可以在提升基因组学数据分析和建模效果的同时,大幅度降低人工技能要求的门槛。
  • [其他] 数据分析“ModelArts人工智能应用开发指南” 学习分享
    数据分析对数据整体的统计分析,以及对单个数据进行细粒度分析诊断,才可以更加深入地了解数据,及时发现更深层次的问题并优化1,数据集特征分析和优化特征分析主要是更快速方便的了解数据集的特点,并制定后续的优化和处理方案,ModelArts特征分析模块主要支持特征,分辨率,图像亮度,图像饱和度,清晰度,图像色彩丰富等常规图像特征,面积标准度,堆叠度等选择数据集版本,在选择类型,在根据自己需要的指标进行查看选择自己需要的数据集版本选择类型清晰度图片高度比分辨率图像亮度图像彩色的丰富程度图片的饱和程度全选
  • [问题求助] 智慧园区-智慧物流园-数据分析
    【功能模块】智慧园区-智慧物流园-数据分析【操作步骤&问题现象】智慧园区-智慧物流园-数据分析模块,需重点关注哪方面的数据?市面上有可以购买的 物流园的数据分析系统吗?
  • [问题求助] 智慧园区-智慧物流园-数据分析
    【功能模块】智慧园区-智慧物流园-数据分析【操作步骤&问题现象】智慧园区-智慧物流园-数据分析模块,需重点关注哪方面的数据?【截图信息】【日志信息】(可选,上传日志内容或者附件)
  • [课程打卡] 【7天玩转网络AI模型】sxj795打卡
    2、数据建模已发布成功
  • [近期热门] 机器学习模型部署都有哪些坑?剑桥研究者梳理了99篇相关研究
    原文链接:https://www.jiqizhixin.com/articles/2020-12-12-5本文转载自:机器之心在生产环境中部署机器学习模型是一个复杂的过程,需要考虑诸多因素,也存在很多挑战。近日,来自剑桥的研究者梳理了该流程常见的问题。近年来,机器学习在学术研究领域和实际应用领域得到越来越多的关注。但是,在生产系统中部署机器学习模型存在许多问题和担忧。近日,来自剑桥的研究者做了一项调查,综述了在各个用例、行业和应用中部署机器学习解决方案的报告,并提取了机器学习部署工作流程各阶段需要实际考量的因素。论文地址:https://arxiv.org/pdf/2011.09926.pdf该调查表明,机器学习从业者在部署模型的每一个阶段都面临挑战。该论文的意义是制定研究议程,以探索解决这些挑战的方法。该调查主要考虑了三种类型的论文:用例研究型论文:这类论文提供单个机器学习部署项目的经过,通常会深入讨论作者面临的每个挑战以及克服方式。综述文章:这类文章描述了机器学习在特定领域或行业中的应用,通常总结了在所涉及领域中部署机器学习解决方案最常遇到的挑战。经验总结型论文:作者通常会回顾他们在生产中部署机器学习模型的经验。为确保本次调查聚焦当前挑战,剑桥大学研究人员仅考虑近 5 年发表的论文,只有少数例外。此外,他们还引用了其他类型的论文,例如实践指导报告、访谈研究、规则制度。需要注意的是,该论文没有进行新的访谈。机器学习部署流程该论文使用 Ashmore 等人 [14] 提出的机器学习部署工作流程定义。根据该定义,在工业环境中开发 ML 解决方案的过程包含 4 个阶段:数据管理:重点是准备构建机器学习模型所需的数据。模型学习:模型选择和训练。模型验证:确保模型符合特定功能和性能要求。模型部署:将训练好的模型集成到运行模型所需的软件基础架构中。此阶段还涵盖模型维护和更新的问题。以上每个阶段还可以进一步细分。但需要注意的是其顺序与现实场景未必完全相符,这些阶段并行执行或存在反馈循环是很正常的。本文探讨了每个阶段会出现的常见问题,以及会对各阶段带来影响的跨领域问题,参见下表:数据处理数据是任何机器学习解决方案中不可或缺的部分,训练和测试数据对解决方案整体效果的影响不比算法少。创建高质量数据集通常是生产级机器学习流程的第一步。该论文介绍了数据管理的四个步骤:数据收集、数据预处理、数据增强和数据分析。数据收集数据收集旨在发现和了解可用数据,以及组织数据的存储结构。发现和寻找数据本身就是一项挑战,特别是在大型生产环境中。查找数据源并了解其结构是主要任务,对于后续数据科学家开展实际应用开发具有重要作用。数据预处理预处理步骤通常涉及一系列数据清洗步骤:插补缺失值、将数据缩减为有序且简化的形式、从原始格式映射为更便于处理的格式。数据增强数据增强的原因有多种,其中最重要的原因之一是数据缺少标签。现实世界中的数据通常没有标签,缺少标注数据的可能因素有三个:专家访问受限、缺乏高方差(high-variance)数据、数据量过大。数据分析数据分析旨在发现数据中的潜在偏差或意外分布。高质量工具对于任何类型的数据分析都至关重要,其中数据剖析(data profiling)的可视化是极具挑战性的。模型学习近年来,机器学习方法的研究倾向于在模型学习阶段更好地选择和使用各种模型和方法。六年来,机器学习顶会 NeurIPS 的论文提交量翻了两番,从 2014 年的 1678 篇到 2019 年的 6743 篇。尽管如此,模型学习阶段仍然受到许多实际因素的影响。本文主要阐明了与模型选择、训练和超参数选择 3 个步骤有关的问题。模型选择在许多实际例子中,模型选择通常取决于模型的一个关键特性:复杂度。尽管深度学习和强化学习在研究界越来越受欢迎,但实际情况中往往会选择比较简单的模型。常用的模型包括:浅层网络架构,基于 PCA 的简单方法、决策树、随机森林。训练模型训练最受关注的问题之一是因计算资源导致的经济成本。在自然语言处理(NLP)领域,尽管单个浮点运算的成本在降低,但训练 NLP 模型的总成本却在增长。Sharir 等人选择 SOTA 模型之一 BERT 进行实验,结果发现根据所选模型的大小,完整训练过程的经济成本可能在 5 万到 160 万美元不等,而这是大多数研究机构甚至企业无法承受的。此外,训练数据集的大小、模型参数的数量和训练过程中用到的操作数量都会对总成本产生影响。值得一提的是,模型参数量是尤其重要的影响因素:新的 NLP 模型已经达到了数十亿的参数量,未来这一数字还可能进一步增加。超参数选择除了在训练过程中学习到的参数以外,许多机器学习模型还定义了一些超参数。超参数优化(HPO)是选择这些超参数最佳集合的过程。大多数 HPO 技术涉及机器学习模型的多个训练周期。此外,HPO 任务的规模随着每个新的超参数呈指数式增长,因为它为搜索空间增加了新的维度。正如 Yang 和 Shami 所说,这些考虑因素使 HPO 技术在实践中非常昂贵且耗费资源,尤其是对于深度学习的应用而言。即使 Hyperband 和贝叶斯优化这类专门设计用来最小化所需训练周期的方法,由于模型复杂度和数据集大小等问题,有些问题仍然无法解决。模型验证模型验证阶段的目标是多方面的,因为机器学习模型应该很好地泛化到未见过的输入,显示出对边缘情况的合理处理和整体鲁棒性,并满足所有的功能需求。该论文讨论了与模型验证中的三个步骤——需求编码、形式验证和基于测试的验证有关的问题。需求编码定义机器学习模型的需求是测试活动的关键前提,但实际情况中经常会发现模型性能提升并不能转换为商业价值的增益。形式验证形式验证是指验证模型功能是否符合项目范围内所定义的要求。这类验证包括对其正确性的数学证明,也可以包括输出误差范围的数值估计,但是这种情况实际上很少发生,往往是通过广泛的监管框架形式化设置高质量标准。基于测试的验证基于测试的验证旨在确保模型能够很好地泛化到未见过的数据。尽管收集验证数据集通常不是问题,但对于生产部署而言这可能还不够。模型部署在生产环境中运行的机器学习系统是复杂的软件系统,需要根据时间的变化进行维护。这给开发人员带来了新的挑战。其中一些挑战在运行常规软件服务时也存在,而有些挑战则是机器学习特有的。模型集成模型集成步骤包括两个主要活动:构建运行模型的基础架构,以可使用和支持的形式实现模型。前者几乎是完全属于系统工程的主题,后者则属于机器学习领域,它揭示了机器学习与软件工程交集中的重要问题。模型监测模型监测是维护机器学习系统方面的问题之一。社区正处于理解待监测数据和模型的关键指标以及如何启动警报的早期阶段。监测不断变化的输入数据、预测偏差和机器学习模型的整体性能是一个尚未解决的问题。该论文强调的另一个维护问题与数据驱动决策有关,即反馈循环。生产级机器学习模型可以通过定期的再训练影响自己的行为。在确保模型保持最新状态的同时,我们可以创建反馈循环,即调整模型的输入以影响其行为。模型更新模型完成初始部署后,通常还需要更改,以确保模型始终反映数据和环境的最新趋势。有多种技术可以使模型适应新数据,包括按计划定期再训练和持续学习。但在生产环境中,模型更新会受到多种实际因素的影响。除了与机器学习模型部署工作流程四阶段相关的问题以下,该论文还探讨了伦理、用户信任、安全性相关的问题,详情参见原论文。
  • [问题求助] 业界唯一同时支持OLAP数据分析、时序流引擎的企业数仓
    业界唯一同时支持OLAP数据分析、时序流引擎的企业数仓  客户收益是啥? 为啥强调“同时”,时序流引擎 是指时序数据库吗?
  • [上云精品] 会计事务所借力泛微OA系统,实现项目-客户-函证-合同一体化
    泛微OA系统围绕会计事务所业务特征,以“项目管理”为中心,为会计事务所打造“项目管理平台”、“电子函证管理平台”、“内外协同客户管理中心”、“全程电子化合同管理助手”以及“大数据分析平台”等5大特色应用,全面驱动事务所“会计、管理人员以及合伙人等”不同岗位人员通过一套系统高效沟通、协作推进项目实施。方案看点:项目管理/电子函证/电子签约会计事务所属于项目型组织,“审计、评估、咨询、代理记账等”项目的运转,需要各岗位人员协作推进。此外,今年9月16日,财政部等7部门联合发文,推动会计事务所函证数字化转型。传统独立运行的业务软件只能实现业务审批,缺乏电子签章能力,无法支撑协同办公以及电子函证应用需求。>>>泛微OA会计事务所协同管理平台:以“OA项目管理”模块为中心,全面集成“财务软件、审计业务系统、工程造价业务系统、BI报表、函证管理系统以及电子签章”等多套系统,通过连接企业微信帮助会计事务所统一内外部办公入口,让所内人员、信息、印章与外部客户以及合作伙伴在流程驱动下协作推动项目“立项、审批、签约、费控、监督、查询、报告签发以及数据分析”。(会计事务所协同OA办公系统整体架构)5大应用管理体系,全面支撑会计事务所协同办公需求一、“9大”项目管理工具,助力审计、工程造价项目全程电子化管理“项目审计、工程造价”是会计事务所的两大核心项目,传统线下管理,由于保密要求高,项目文件审批只能由专人定期送回所里集中审批,时效差、成本高,审批人员工作量大。泛微OA会计协同管理平台,支持电子签章,全流程体系智能驱动“项目承接、计划、实施、工时计算、项目核算、效益分配、进度跟踪、报告签发、底稿归档、质量管控以及考核打分”全程电子化管理,简化项目运转成本,提升协作效率。(会计事务所项目管理过程梳理)1)项目上报立项:形成项目卡片,智能关联信息审计、工程造价项目通过“项目立项”流程智能上报事务所审批,OA电子表单帮您自动关联项目相关合同、收费金额、项目负责人等信息,审批一通过,项目委托方、报告、任务信息自动沉淀到OA系统形成项目电子信息卡片。(项目立项登记)项目负责人、项目合伙人、事务所管理者打开OA系统通过“项目卡片”就能快速了解所有与该项目有关的合同、进度、任务安排、报告、账单以及函证信息。(项目卡片智能关联项目信息)2)快速制定项目计划:规范、及时督促项目完成已经立项的审计、工程造价项目,项目负责人通过OA流程表单就能快速根据模板提交项目执行计划,计划阶段、现场实施阶段以及报告签发阶段的时间和分工安排智能上报,形成清晰执行计划。(在线制定项目阶段实施计划)结合OA任务管理模块,通过流程为不同环节负责人指定任务,下发工作要求,帮助把项目任务及时落实到人,确保项目按计划实施。(项目任务分解,细化人员工作)3)项目进度跟踪:及时反馈执行情况,超期预警泛微OA电子表单可以帮助智能标记“立项、计划制定、外勤、报告签发”进度,是否开始、完成了没有、合同回款多少、有没有超期风险一目了然。(全生命周期跟踪反馈项目执行进度)4)会计人员状态智能标记:精准了解人员派工情况为了实现人员合理派工,泛微OA系统借助流程帮助各大项目负责人、主任会计师跟踪事务所会计人才工作状态,手上有没有项目、资质如何、是否休假等详细信息打开表单一看便知。(人员状态)5)项目工时精准上报:智能辅助项目结算项目工时是事务所业务结算的重要依据之一,为了确保工时统计及时、准确,项目负责人每天可以在泛微OA系统智能填报工时,具体哪项任务、耗时多少清晰记录。(工时智能记录)(按项目智能汇总工时)6)审计报告在线签发:底稿自查,安全、防篡改审计报告是事务所注册会计师出具的关于企业会计基础工作(计量、记账、核算)、会计档案等会计工作是否符合会计制度,企业内控是否健全等事项的报告,是事务所全面执行审计后给出的客观评价报告。①在线签发交付:此类报告,在事务所不仅审批程序多,还要合伙人签名下发、加盖事务所印章后才能生成交付。为了提升报告签发效率,确保报告内容权威,泛微OA会计事务所管理系统支持电子签章,为会计事务所的审计报告签发业务提供合法、有效的电子签章应用,权威CA数字证书全程校验审批人、合伙人身份,推动审计报告在线“提交、审批、签发、根据电子模板一键装订、盖电子印章、交付客户”,全程防篡改。(报告签发流程)全程电子化环境,帮助会计事务所实现审计报告远程在线签发,无需纸质报告,安全、高效交付,提升服务质量,降低运转成本。②审计底稿在线自查为了提升审计报告权威性,事务所审计工作都要进行底稿自查,为了提升自查效率做好自查结果存证,泛微OA可以帮助事务所制定自查电子表单,审计人员在OA系统,验证身份后自动填写自查报告,自查结果自动存入OA系统,随时查验。(在线自查)7)项目财务核算中心:收款、开票、收益核算快泛微OA帮助会计事务所无缝集成财务管理软件,打造用于支撑项目账款核算的电子财务共享中心。各个项目的账单信息一张表单就能全面汇总,项目收费、已开票金额、应收金额、收款明细等财务信息一目了然。(账单信息)①开票、收款在线流程审批,账目清晰全流程化的财务管理环境下,每个项目的收款、开票都要由电子流程上报审批,自动记入系统,作为账目核算依据。②精准实施项目决算,成本、收益智能核算借助智能化的财务核算设置体系,OA系统中的项目信息可以自动关联财务数据,经过系统智能核算人力、业务外聘费用,以及项目利润。(项目决算)③高效分配项目收益,项目人员收益分配快会计事务所的每个项目都有标准效益分配要求,为了提高财务人员效益分配效率,泛微OA结合财务管理软件,帮助会计事务所智能提取项目人员服务工时,通过效益分配比例在电子表单内智能核算人员收益。(效益分配智能化)8)项目质量监督:成果定期上报,及时反馈意见为了提升会计事务所项目整体服务质量,项目人员可以将项目成果定期通过OA电子表单上报给总所,及时获得审批意见,项目问题发现快。(成果上报)9)精准实施考核:标准落实快,打分过程可查询为了帮助会计事务所建立标准的项目服务考核体系,泛微OA借助电子流程表单驱动项目考核实施,每次项目验收交付后,总所项目负责人可以发起项目考核流程,根据考核标准对项目人员进行服务考核,智能调取人员服务数据,打分更加公正、打分过程记录全,及时提供查询。(项目考核)二、电子函证全生命周期管理平台,引入电子签章,全流程驱动、全程跟踪、全程电子化“函证”是指注册会计师为了获取影响财务报表或相关披露认定的项目信息,获取和评价审计证据的过程。主要为审计师获取认定层次的充分审计证据,降低检查风险。9月16日,财政部等7部门联合发布推动会计事务所函证数字化转型,传统函证纸质打印、交换、保存的方式,已经无法适应当前的信息化管理需求。泛微OA通过全流程体系将会计事务所的“函证信息收集、编号、发函、客户回函、归集等”流程全面搬到线上,引入合法、有效的电子签章,为会计事务所的函证业务提供权威CA数字身份证书,帮助被审计企业实现在线身份认证,制作电子函件在线回函,全流程驱动、全过程跟踪、全程电子化管理。(函证信息档案库)(在线发函)三、内外协同的客户资源管理中心,商机、客户需求记录全,激活潜在客户做好“客户资源”管理是会计事务所提升收益的重要需求之一,泛微OA客户管理系统结合企业微信帮助会计事务所打造内外协同的客户管理渠道,在记录“潜在业务需求、客户来源”的同时,帮助事务所与客户微信保持密切联系,借助企业微信二维码、客户朋友圈等多种营销工具激活潜在客户需求,全程跟踪反馈客户跟进情况。(客户需求登记表)1)建立统一的事务所客户资源库泛微OA通过和企业微信连接,帮助会计事务所及时抓取会计人员手机里的客户资源,通过企业微信添加的客户微信智能记入内部OA系统,根据需求分类沉淀,方便安排人员跟踪服务。2)与客户保持密切联系,及时激活需求泛微OA客户管理系统联通企业微信,可以让会计事务所的业务人员、会计人员与客户微信保持密切联系,及时服务、精准实施营销,提升转化。四、全程电子化合同管理助手,在线制作、审批、盖章、签约、归档作为保密要求高、业务制度多的行业,保证会计事务所的合同规范、安全、高效签署并保存,可以为事务所排除不少业务风险。泛微OA合同管理系统支持电子签章,通过企业微信帮助会计事务所打造全程电子化的在线签约、管理平台。各类审计、造价、咨询合同,在OA系统一键草拟,通过企业微信一键转发给客户微信,在线验证身份、几分钟完成签署,自动存档。五、会计事务所大数据分析系统,数据智能收集、统计、分析,掌控项目情况为了提升会计事务所对业务全局的掌控,泛微OA智能整合BI报表系统,为会计事务所提供数据智能分析服务,多样化报表自动呈现业务信息情况,财务情况、审计报告以及业务收费情况、收益情况,直观展现项目信息。总结泛微OA会计事务所协同管理方案创新引入电子签章技术,与企业微信、微信互联互通,不断帮助各大会计事务所结合当前数字化管理需求,制定全程电子化、内外协同的OA管理方案。
  • [交流吐槽] 物联网大数据分析的意义
    我们先来看一组数据:百度每天采集的用户行为数据有1.5PB以上全国各地级市今天的苹果价格数据有2MB1998年Google抓取的互联网页面共有47GB(压缩后)一台风力发电机每天产生的振动数据有50GB百度每天的行为数据1.5个PB够大吧?我们毫无怀疑这是大数据。但全国各个地级市今天的苹果价格只有2MB大小,是典型的小数据吧?但如果我们基于这个数据,做一个苹果分销的智能调度系统,这就是个牛逼的大数据应用了。Google在刚成立的时候,佩奇和布林下载了整个互联网的页面,在压缩后也就47GB大小,现在一个U盘都能装的下,但Google搜索显然是个大数据的应用。如果再来看一台风机每天的振动数据可能都有50GB,但这个数据只是针对这一台风机的,并不能从覆盖面上,起到多大的作用,这我认为不能叫大数据。这里就是在强调大,是Big不是Large,我们强调的是抽象意义的大。我们再来看关于美国大选的三次事件:2012年Nate Silver通过互联网采集社交、新闻数据,预测大选结果《文学文摘》所收集的问卷有240万,绝对是够大的,但为什么预测错误了呢?当时《文学文摘》是通过电话调查的,能够装电话的就是一类富人,这类人本身就有不同的政治倾向,调查的结果本身就是偏的。而盖洛普只收集了5万人的意见,但是他采用按照社会人群按照比例抽样,然后汇集总体结果,反而预测正确了。因为这次预测,盖洛普一炮而红,现在成了一个著名的调研公司。当然,后来盖洛普也有预测失败的时候。到了2012年,一个名不见经传的人物Nate Silver通过采集网上的社交、新闻数据,这是他预测的情况和真实的情况:两者是惊人的接近的。从这点我是想强调要全量而不是抽样,大数据时代有了更好的数据采集手段,让获取全量数据成为可能。在2013年9月,百度知道发布了一份《中国十大吃货省市排行榜》,在关于“××能吃吗?”的问题中,宁夏网友最关心“螃蟹能吃吗?”内蒙古、新疆和西藏的人最关心“蘑菇能吃吗?”浙江、广东、福建、四川等地网友问得最多的是“××虫能吃吗?”而江苏以及上海、北京等地则最爱问“××的皮能不能吃?”。下图是全国各地关心的食物:用户在问什么能吃吗的时候,并不会说“我来自宁夏,我想知道螃蟹能吃吗”,而是会问“螃蟹能吃吗”,但是服务器采集到了用户的IP地址,而通过IP地址就能知道他所在的省份。这就是数据多维度的威力,如果没有IP这个维度,这个分析就不好办了。而现有的采集手段,能够让我们从多个维度获取数据,再进行后续分析的时候,就能对这些维度加以利用,就是“细”。我们现在对CPI已经不再陌生,是居民消费价格指数(consumer price index)的简称。我们努力工作,起码要跑过CPI。那你有了解过CPI是怎么统计的吗?这里包括两个阶段,一个是收集商品价格数据,一个是分析并发布数据。我从百度百科上了解到,中国CPI采样500多个市县,采价调查点6.3万个,近4000名采价员,次月中旬发布报告。我还曾找国家统计局的朋友确认了这个事情。而在美国有一家创业公司叫Premise Data。它通过众包方式,25000个采价员(学生、收银员、司机等),使用手机APP采集数据,每条6~40美分,比美国政府数据提前4~6周发布。这就是“时”,强调实时收集数据和实时分析数据。当然,在CPI的例子中,我们可以让价格上报更智能一些,不需要人工的方式。从上面的大、全、细、时四个字,我们就可以对大数据的概念有个较为清晰的认识。这四点主要强调的数据的获取和规模上,和以往传统数据时代的差异。有了这个基础,我们还要看怎么对大数据加以利用。这里就要看看大数据思维。我们也来看两个例子。85前应该都用过智能ABC,一种古老的输入法,打起来特别慢。到了2002年左右,出了一个叫紫光的输入法,当时我就震惊了。真的输入很快,仿佛你的按键还没按下去,字就已经跳出来了。但渐渐的发现紫光拼音有个问题是许多新的词汇它没有。后来有了搜狗输入法,直接基于搜索的用户搜索记录,去抽取新的词库,准实时的更新用户本地的词库数据,因为有了大量的输入数据,就能直接识别出最可能的组合。我们以前都用纸质的地图,每年还要买新的,旧的地址可能会过时,看着地图你绝对不知道哪里堵车。但有了百度地图就不一样了,我们上面搜索的地址都是及时更新的,虽然偶尔也会有被带到沟里的情况,但毕竟是少数。可以实时的看到路面堵车情况,并且可以规划防拥堵路线。我们想想这种做事方式和以前有和不同?我们发现不是在拍脑袋做决定了,不是通过因果关系或者规则来决定该怎么办了,而是直接通过数据要答案。我们获取的数据越全面,越能消除更多的不确定性。也就是用数据说话,数据驱动。在百度文化的29条中,我第二认可的一条就是“用数据说话”,数据有时候也会欺骗人,但大部分时候它还是客观冷静的,不带有感**彩。据说在硅谷用数据说话都是一种很自然的工作习惯,但你放眼望去你周围,你会发现许多没有数据的例子,拍脑袋的,拼嗓门的,拼关系的,拼职位的,这一点都不科学。那我们再来看看互联网领域的数据驱动。许多公司的情况是这样的:不管是运营、产品、市场、老板,都通过数据工程师老王获取数据,老王忙的痛不欲生。但数据需求方都对数据获取的速度很不满意,有的等不及,还是决定拍脑袋了。这样极大的阻碍的迭代的速度。还有的公司情况是这样的:对老板来说,有个仪表盘还不错,终于知道公司的总体运营情况了,可以基于总体情况做决策了。但如果发现某天的销售额下跌了20%,肯定是要安排下面的人追查的。对于实际干活的运营、产品同学来说,光看一个宏观的指标是不够的,解决不了问题,还要想办法对数据进行多维度的分析,细粒度的下钻,这是仪表盘解决不了的。那么理想的数据驱动应该是什么样子的?应该是人人都能够自助式(Self-Service)的数据分析,每个业务人员和数据之间,有一个强大的工具,而不是苦逼的老王。或者只是能看到数据的冰山一角。在数据源头上,又可以获取到全面的数据。我们接下来看看现有的解决方案上,离真正的数据驱动还有多远的距离。常见的方案有三种:我们先来看看第三方统计服务,目前国内用的比较多的有三家,友盟、百度统计和TalkingData,他们都类似Google Analytics(简称GA,谷歌分析)。这些工具的优势是使用简单,并且免费。