返回介绍

Data

发布于 2025-01-31 22:20:48 字数 14198 浏览 0 评论 0 收藏 0

Data / Information

在计算机科学当中,数据的本身称做“资料”,数据的含义称作“资讯”。简中翻译成“数据”与“信息”。

Media / Multimedia

在计算机科学当中,“媒体”就是记载资讯的媒介,诸如文字、声音、图片、动画都是媒体。“多媒体”就是複合多种媒体,例如网页、影片、电玩都是多媒体。

每一种媒体都有专门的研究领域,而且分工相当细緻:

Data Processing 资料处理
应用:搜寻引擎、资料库

Text Processing 文字处理
应用:文字编辑器、输入法

Natural Language Processing 自然语言处理
应用:自动翻译、自动写作、搜寻引擎、智慧型输入法

Audio Processing 音讯处理
应用:MP3 播放软体、混音、去除杂音(例如手机通话)

Speech Processing 语音处理
应用:语音输入(例如手机的语音输入法)
   语音输出(例如语音客服专线、语音朗读)
   辨识说话者、与电脑对话、歌唱评分

Image Processing 影像处理
应用:修图、合成照片、数位相机、视觉特效、美术作品

Video Processing 视讯处理
应用:DVD、电视、摄影、Youtube、视讯会议、合成场景

Geometry Processing 几何处理(3D 模型处理)
应用:模型设计、3D 扫描、3D 列印

Computer Music 电脑音乐
应用:电子乐器、谱曲、网路合奏

Computer Graphics 电脑绘图
应用:设计图表、设计模型(例如建筑、产品)、虚拟实境
   医学影像(例如超音波、断层扫描)、视觉特效、美术作品

Computer Animation 电脑动画
应用:好莱坞电影特效、迪士尼卡通动画、电视广告、虚拟偶像

Computer Vision 电脑视觉
应用:图片鑑识比对(例如指纹、人像、车牌号码)、手写输入
   自动驾驶、国道收费系统、战斗力眼镜、检查产品瑕疵

语音处理不是研究麦克风、耳机,电脑绘图不是研究萤幕。因为电脑的功能是数学计算,所以上述领域通通都是数学计算!将现实问题对应到数学问题,运用数学计算解决现实问题。

“懂得程式设计”与“懂得数学计算”是两码子事,上述这些领域通通是在鑽研后者。大多数民众喜欢前者,却完全忽略后者,进而影响了台湾资讯产业的发展方向。

Sensor

在计算机科学当中,“感测器”是获取资料的设备。

想要创造资料,可以透过电脑设备,手动输入资料;或者透过感测器,自动获取资料。比方说气象观测、健康检查、交通设备,就用上了各式各样的感测器。维基百科整理了一份感测器大全:

https://en.wikipedia.org/wiki/List_of_sensors

对于不喜欢数学的民众来说,也许是个不错的发展方向。

Data Mining

Data Mining(Knowledge Discovery)

资料探勘。从资料获得资讯,甚至从资讯获得知识。经过组织、具备架构的资讯,称作知识。

资料探勘的工程经验远多于科学理论。大多数的方法,缺乏理论依据、缺乏严谨的数学证明,想怎麽说、就怎麽说。

这裡收集形形色色的课程网站,专注的重点都不一样:

http://www.mmds.org/
https://mycourses.aalto.fi/course/view.php?id=13081
http://www.csie.ntu.edu.tw/~htlin/mooc/
http://www.cs.columbia.edu/~blei/courses.html
http://people.seas.harvard.edu/~jthaler/COSC548.html
http://www.redbook.io/
http://www.csd.uoc.gr/~hy460/
http://www.csie.ntu.edu.tw/~tonytan/teaching/2015b-adb/2015b-adb.html

这裡收集一些乍听是专业术语,但是其实缺乏内涵、或者无法使用数学描述、或者源自其他领域,参考看看就好:

Data Storage           存储 
Data Warehousing       仓储 
Data Integration       整合 
Data Aggregation       聚合 
Data Analysis          分析 
Data Modeling          建模 
Data Acquisition       撷取 
Data Dredging          挖掘 
Data Cleansing         清洗 
Data Augmentation      增强 
Data Publishing        发佈 
Data Compression       压缩 
Data Transmission      传输 
Data Integrity         完整 
Information Security   安全 
Information Retrieval  检索 
Information Seeking    寻求 
Information Management 管理 

Database

资料库 。存取资料的设备。知名工具如 MySQLMongoDBElasticsearch

Information System

资讯系统 。资料库系统加强版,供人分享资讯。用来收集、储存、处理资料,甚至统计、分析、预测资料。

例如管理资讯系统 Management Information System。运用电脑的储存能力、传输能力,简化公司行政管理流程,减少人工工作份量。诸如人员上下班签到、会议室登记、会计财务、表单文件、……等等,都可以透过电脑来处理,增加公司的营运效率。另外还有 ERP 企业资源规划、CRM 客户关係管理、SCM 供应链管理、……等等,让公司确切掌握资源、衡量成本。

MIS 是为了减少成本而生──开发软体、建构硬体的成本,低于雇用人力、管理资源的成本。有钱的大企业找专业公司打造 MIS,没钱的小公司雇用程式设计师自造 MIS。虽然老闆都想导入 MIS 来省钱,但是 MIS 是不是方便合用,那又是另外一回事了。

另外,在台湾,MIS 也经常是指负责维护这套系统的工作职位。系统上的疑难杂症,就找 MIS 处理,类似工友。

Knowledge-based System

知识系统 。资讯系统加强版,供人活用知识。

Database Query Processing

查询。从资料库捞出想要的资料。两大方向:

Database Query Processing:设计查询指令、设计资料结构。

Top-k Query Processing:参考各栏位的数值大小,分析利弊,找到前几名的资料。经典演算法是 Fagin's Algorithm。

Data Stream Processing

串流。应付源源不绝的资料。两大方向:

Data Stream Processing:平行处理、分散式处理的机制。

Data Stream Algorithm:即时处理资料,获得各项统计指标。经典演算法是 Count-Min SketchHyperLogLog

Association Rule Mining

关联规则 。找到资料栏位的关联。

用于广告投放、风险投资、社会研究。从大量资料当中得到资讯,决定政策方针,甚至利用资讯不对称来获利。经典范例是 尿布、啤酒、星期五

经典演算法是 Apriori AlgorithmFP-Growth Algorithm

UVa 12560

Information Recommendation(Collaborative Filtering)

推荐 。找出值得关注的资讯。

用于购物平台、影音平台、社群平台、搜寻引擎。掌握流行趋势,发掘第一名、最后一名。根据用户喜好,推荐喜欢的人事物,以增加人流金流。经典范例是 Netflix 推荐系统

经典手法是 Matrix Factorization 和 Implicit Feedback。

UVa 12420

Knowledge Representation

表示 。组织资料,梳理思路,奠定架构。

目前尚无知名成果,关键字也许是 Semantic WebSemantic Reasoner

Data Visualization / Information Visualization

视觉化视觉化 。将资料变成图表。与其说是数学,不如说是艺术。已经有人 整理成册整理成表 。知名工具如 D3.js。

Digital Content

Digital Content【For use in Taiwan only】

“数位内容”是商业术语,也是产业名称。

数位内容在国外不是词彙,在台湾反而成了政府支持的重要产业。想深入了解,请读 2015 年的官方报告

台湾的产业主力不是软体业,没有特别培育计算机科学。缺乏基础建设的情况之下,大家只好朝向不需要基础知识的方向发展,因而创造出这种产业。因为价值是人类的主观认定,所以只要不断地宣扬好处,就能创造经济价值吸金了。

下面的标题都是台湾人自创的。即便国外有类似的词彙,也不会是台湾人所讲的意思。

数位学习

这段影片出现的东西,都是世界上各个实验室正在研究、已有初步成果的技术。这部影片的宗旨是集成当今所有技术,尝试用于教学,构造未来光景。重点在于整合规划。

对于缺乏基础建设的台湾人或中国人来说,却是另外一回事。这段影片非常新奇、富含创意。一些有志之士,也觉得自己国家应该群起效尤。于是成立团队、成立公司、办理演讲、办理活动,教育社会大众、呼吁政府重视。但是实际上国内没有任何人致力于学习这些技术、整合这些技术,一切的努力说穿了只是敲敲边鼓而已。

既然无能为力,务实的作为是另闢蹊径。下面影片是台湾人的作为,强调兴趣动机、强调学习成效、强调锄强扶弱、强调先进尖端。重点在于思想创新。

数位出版

大致上可以分为两大类:电子书、网页。

电子书,大致分为三部分:书籍档案的储存设备,书籍档案的浏览和收费介面,书籍档案的阅读设备。

国际知名的电子书,例如 Amazon Kindle。台湾自制的电子书,例如慈济与华硕合作的静思电子书。

网页,尚在发展当中。台湾没有任何动静。台湾目前最接近的概念是电子报纸、部落格,已经行之有年,没有再进化。

直接讲结论:台湾市场很小,台湾出版社却比中国还多。分崩离析,各自为政,做不起来。

既然无能为力,务实的作为是另闢蹊径。下面影片是台湾人的作为,强调国人应培养阅读习惯、强调心路历程、强调文化深度、强调环境保护。重点在于思想创新。

数位典藏

记录具有历史价值的事物,例如书册、图卷、古文物、古蹟,让后人得以瞻仰。同时也制作便捷美观的介面,方便后人查阅学习。值得一提的经典作品是 电子动态版《清明上河图》

数位影音

发展路线是卫星电视、数位电视、宽频电视、网路电视。

卫星电视。台湾所谓的“老三台”。讯号传至人造卫星,人造卫星发射讯号,电视接上天线、小耳朵即可收看。

数位电视。台湾所谓的“第四台”。由数位电视公司拉一条电视线到家裡。最近政府正在要求大家安装机上盒,接收数位讯号。

宽频电视。由宽频网路公司拉一条网路线到家裡,可以看电视,也可以上网。台湾知名的产品是中华电信 MOD,可以随时选择想看的节目。关键字 IPTV。

网路电视。将电视内容制做成影片档案,放在网路上,供大家即时下载即时观看。国际知名的企业是 Netflix,中国知名的软体是 PPS 网络电视。台湾是大家自己看著办。

除了影视节目以外,也可以提供其他内容,例如 Youtube 和 Vimeo 提供个人影片、KKBox 提供流行歌曲、Coursesa 和 Udacity 提供教育影片。

数位游戏

台湾游戏业就像经营小吃摊一样,独立创业,做做小生意, 常常有人满腹辛酸 。详情请参考 游戏产业职业树一览表

我觉得很纳闷。如果想要制做游戏,然后又缺资金、缺人脉、缺计画、缺实力,那麽为何不去新力、任天堂应徵工作?如果想要建立游戏公司,那麽为何不在家中事先试做几个小型游戏,直到客人满意再来大量生产兜售?为何不先出週边,再做游戏?

国际知名的游戏发行商,例如 Armor Game、Kongregate。国际知名的游戏经销商,例如 Steam。现在流行的模式,是成立个人工作室,制作出游戏之后,与前述公司签约合作。

数位媒体

大专院校有此科系。内容是文宣设计、影片制作,不是计算机科学所谓的媒体。简单来说,就是活用 photoshop 跟发明 photoshop 的差别,数位媒体属于前者。

主要的应用是商业广告、电视影集、纪录片,非常实用。

数位文化

记录在地民俗风情。我觉得其实就是数位典藏的一种。因为现在中国政府对文创观光兴趣盎然、台湾政府积极鼓吹文创观光,所以就出现数位文化这个词彙了。

Information Service

Information Service

“资讯服务”是商业术语,也是产业名称。

资讯服务不一定跟计算机科学有关,电脑网路设备仅是其中一个环节。想深入了解,请读 官方报告

下面介绍的主题,都是商业术语,不是科学术语。由商业人士率先喊出,再由科学家尝试跟进。

Over The Top【尚无中文翻译】

公司推出的产品或者服务,本身必须使用网路,但是公司不负责建构网路、维护网路。例如大家熟悉的 Line。这种类型的商品或服务,称做 Over The Top。

耗损网路商的频宽、电力、设备,但是赚了钱却不用分给网路商。这门生意就是这麽神奇。

Electronic Commerce 电子商务

白话的说法就是网路购物。

电子商店:例如美国 eBay、中国淘宝网、台湾 Yahoo 奇摩、日本楽天市场。

电子钱包:例如信用卡、悠游卡、PayPal、Bitcoin 等等。

台湾的物流业已臻完善,快递与便利商店无所不在。网路购物以物流业为基础,简化了购物流程。对于老闆来说,经营店面需要花钱,储存货物需要花钱,雇用人员需要花钱;对于顾客来说,前往购物需要花钱,寻找货物需要花时间──而网路购物简化了整个流程,节省了这些支出,是人类的一大进步。

APP 行动应用程式

人人都有手机、处处都有基地台,基本建设已臻完善。

手机就是电脑,而且装备著网路连线、录像和显示、录音和播放等设备,不但比家用电脑还要齐全,甚至还可以随身携带。手机就像电脑一样,可以安装各种软体,处理事务。脑筋动得快的人,专门替手机打造软体,让大家可以随时用手机处理日常生活各种事务。这样的软体叫做 APP。

结合电子商务的概念,有些公司建立了 Google Play、iOS App Store 等 专门提供 APP 的购物网站 。老闆可以在网路上公开贩售软体;顾客可以在网路上随时购买软体,立即安装到自己的手机。

Cloud 云端

商业人士的云端是指:在网路上提供各种服务,例如随时存取文件音乐影片、购物消费、沟通办公等等。商业人士的云端是无所不在的网路、无所不在的行动装置、背后有个储存一切的大型资料库。大家可以随时随地上网,随时掌握资讯。相关的口号还有 软体即服务

工程师的云端是指:将所有软体从单机版变成网页版,软体不需要安装在自己电脑裡面,资料不需要储存在自己电脑裡面。

计算机科学鲜少使用这个词彙。比较接近的概念是 网格计算

云端具有集中管理的特质。中国政府实施资讯管制,政策上支持云端发展,想当然台湾政府也就不落人后了。

政府、企业主、投资客眼中的云端:

据说是台湾演算法先驱眼中的云端:

据说是台湾云端运算计画负责人眼中的云端:

http://pingyeh.blogspot.com/2011/02/blog-post.html

据说曾经是台湾首富眼中的云端:

据说曾经是亚洲最大软体公司的老董眼中的云端:

所以有谁知道如何实作云端?老话一句,重点在于思想创新。

Big Data 大数据

紧随云端之后出现的商业术语。目前大家都不清楚这是什麽,目前没有共识。大家看到跟数据有关係的事情,不管三七二十一,通通纳入大数据。目前比较多人支持的说法是:所有东西都已经数位化,资料非常多,大家想办法从中捞出资讯吧。

也许跟大数据有关的学问:数学领域的统计学、数值分析,计算机科学领域的资料探勘、机器学习、分散式系统。

也许跟大数据有关的工具:统计学软体 R、分散式计算引擎 Apache Spark。

也许与大数据有关的职称:资料科学家。不过没有人知道资料科学家到底该学什麽、要做什麽,大家各自表述。老话一句,重点在于思想创新。

Open Data 开放资料

想要推广大数据,首先要有数据。于是有人呼吁大家免费公开资料,让资料创造更多价值。

掌握最多资料的地方,就是政府。政府的本质是收取税金、为民服务,因此政府开放资料给民众是天经地义的事情,世界上的先进国家都是这麽做。然而台湾的状况比较特殊。台湾过去採用恐怖统治、极权统治,政府控管所有资源,没有必要公开资料让民众知道,导致现在的台湾政府没有公开资料的习惯。近年正在积极改善当中。

台湾有名的相关组织是 g0v。

Internet of Things 物联网

所有东西通通装上网路连线设备,可以随时随地收集资讯、随时应变、随时控制。中国和台湾正在极力推动。相关的口号还有“区块链 Blockchain”。

Smart City 智慧城市

所有东西通通装上网路连线设备,可以随时随地收集资讯、随时应变、随时控制,融入每个人的日常生活。台湾的商业人士正在极力鼓吹。

附录:产业生态

这个产业的本质十分类似炒地盖房。商业人士负责宣传生活圈机能,程式设计师负责盖出房子。前面介绍的主题,都是商业术语,不是科学术语。由商业人士率先喊出,再由科学家尝试跟进。由于商业人士对于科学技术一知半解,导致这些术语不是基于既有的科学技术,于是常常发生“没有人知道怎麽做”、“缺少人才”的情况。不过这些情况都不是商业人士所关心的事情。商业人士的计画是:我负责喊口号以吸引资金,好死不死有工程师实做出来,我便成功改变世界;做不出来,再换一个口号就好。至于这会不会对人类有帮助,不是最重要的事情,只是为做而做。

商业人士呼喊口号,鼓吹思想创新,运用媒体渲染,使得大众相信有前景,不断投入资金。没有人知道怎麽做的情况下,闹人才荒,导致工作薪资提高,就连毫无经验的非本科系人士也想参与其中。更有一些人异想天开,尝试创业,以为自己追上了浪潮,其实却是在虚耗社会资源。亦有一些人深谙此道,公司不研发任何技术,而是发明简单点子、四处推广好处、快速拓展业务、迅速卖掉公司,玩起金钱游戏。这个产业通常无须事先从事科技研发、规划调查,就可以贸然创业,也导致大多数新创公司以失败收场。当年的“ .com 泡沫化 ”就是如此。现在的硅谷、中关村仍旧如此,差别只在于多了一些创投人负责把关。

这个产业是台湾资讯相关科系的主要出路。这方面的工作职位非常多,例如前端后端工程师、网页设计师、网路管理师、系统工程师、……,学习方式是靠讨论区、部落格、电脑补习班、坊间书籍,五花八门什麽都有。公司多半没有提供完善的教育训练,员工必须自己开读书会学习程式语言与开发工具,然后对外宣称说那是在研究技术,甚至有些公司标榜这是特色。

在台湾,这个产业一直以来都有自己随兴发挥,自称做了一些听起来不得了的事情,藉由媒体报导、研讨会活动捧红身价,最后成为名人(仅限台湾)的案例。在台湾,媒体不时吹捧国外的创业成功案例、尖端科技产品,持续炒作硅谷、苹果、互联网等等名词,塑造高尚形象。这些举动让大家精神上获得满足,愿意认真打拼,宛如极权国家控制人民的手段。

凡事都是一体两面。虽然这个产业的本质是投机取巧,但是换个角度来看,这个产业其实有许多好处:一、激发人类的爱与勇气,促使人类改变世界。二、炒房炒股的投资报酬率总是有天花板。让钱多到不知道放哪裡的人,不会把钱拿去挖鑽石、买武器,而是尝试创造新事物。三、让新颖的科学理论、科学技术得以马上发挥实际作用,甚至反过来促进科学发展。

当商业术语凌驾科学发展,那就是虚华;当科学发展凌驾商业术语,那就是匠气。目前来说,这是一个虚华的产业。参与这个产业之前,最好事先做好心理准备。

在台湾,这个产业的知名商业人士如贺元、叶平、林之晨,知名工程师如高嘉良、简志宇、郑伊廷,知名公司如 gogolook、阿码科技。他们的成功故事都非常值得借鑑。例如贺元与高嘉良的官司。例如无名小站宣称永不商业化,一边向民众求救募款,一边私下与投资客合作,把无名小站卖给雅虎。例如阿玛科技的服务跟 CTF 无关。希望这些人生赢家的案例,能帮助大家理解这个产业的本质,进一步找到自己的方向,让台湾更好、让世界更好。

附录:产业分类

在台湾,“资讯服务业”总是被大众误认为“软体业”。

国际标准产业分类 :J63 是资讯服务业,J582 是软体业。

台湾行业标准分类 :承袭国际标准,内容大致相同。

北美产业分类系统 :51 是资讯,细分为 511210 软体出版、518210 资料处理与保管相关服务、……。

台湾的公司行号营业项目代码 :I3 是资讯服务业,细分为 I301010 资讯软体服务业、I301020 资料处理服务业、I301030 电子资讯供应服务业、I301040 第三方支付服务业。

美国的标准产业分类码(证卷交易专用) :73 是商业服务,737 是电脑程式与资料处理等电脑相关服务,细分为 7371 电脑程式服务、7372 套装软体、……。

举例来说,谷歌、百度、脸书、领英、微博、推特注册为 7370,微软、Oracle、Adobe、AutoDesk、趋势注册为 7372,雅虎注册为 7373,阿里巴巴注册为 7389。

由国内外产业分类、国内外营业代码,可以发现资讯服务业和软体业是两回事。然而台湾的工程师多半分不清楚,例如有人宣称 台湾软体业发展迟缓台湾没有软体业 ,却把资讯服务业和软体业混在一起讲。他们的分类方式也许是要不硬体、要不软体吧。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文