Skip to main content

Posts

Showing posts from July 15, 2012

Screen scraping

Screen scraping is normally associated with the programmatic collection of visual data from a source, instead of parsing data as in web scraping. Originally, screen scraping referred to the practice of reading text data from a computer display terminal's screen. This was generally done by reading the terminal's memory through its auxiliary port, or by connecting the terminal output port of one computer system to an input port on another. The term screen scraping is also commonly used to refer to the bidirectional exchange of data. This could be the simple cases where the controlling program navigates through the user interface, or more complex scenarios where the controlling program is entering data into an interface meant to be used by a human. As a concrete example of a classic screen scraper, consider a hypothetical legacy system dating from the 1960s — the dawn of computerized data processing. Computer to user interfaces from that era were often simply text-based dumb termi...

大型计算机

大型计算机(英语:mainframe computer),又称大型机、大型主机、主机等,是从IBMSystem/360开始的一系列计算机及与其兼容或同等级的计算机,主要用于大量数据和关键项目的计算,例如银行金融交易及数据处理、人口普查、企业资源规划等等。 目录     1 特征     2 市场     3 历史     4 与超级计算机的区别     5 参考文献     6 参见     7 外部链接 特征 现代大型计算机并非主要通过每秒运算次数MIPS来衡量性能,而是可靠性、安全性、向后兼容性和极其高效的I/O性能。主机通常强调大规模的数据输入输出,着重强调数据的吞吐量。 大型计算机可以同时运行多操作系统,因此不像是一台计算机而更像是多台虚拟机,因此一台主机可以替代多台普通的服务器,是虚拟化的先驱。同时主机还拥有强大的容错能力。 主机的投资回报率取决于处理数据的规模、减少人力开支、实现不间断服务和其他成本的缩减。由于主机的平台与操作系统并不开放,因而很难被攻破,安全性极强。 大型机使用专用的操作系统和应用软件,在主机上编程采用 COBOL语言 (Common business Oriented Language),同时采用的数据库为IBM自行开发的DB2。在大型机上工作的DB2数据库管理员能够管理比其他平台多3~4倍的数据量[1]。 市场 IBM目前控制主机市场超过90%的市场份额。[2] 历史 在六十年代,大多数主机没有交互式的界面,通常使用打孔卡、磁带等等。 1964年,IBM 引入了 System/360,它是由 5 种功能越来越强大的计算机所组成的系列,这些计算机运行同一操作系统并能够使用相同的 44 个外围设备。[3] 1972年,SAP公司 为 System/360 开发了革命性的“企业资源计划”系统。 1999年,Linux 出现在 System/390 中,第一次将开放式源代码计算的灵活性与主机的传统可伸缩性和可靠性相结合。[1] 与超级计算机的区别 超级计算机有极强的计算速度,通常由于科学与工程上的计算,这些计算的速度受运算速度与内存大小...

终端

终端,是一台电子计算机或者计算机系统,用来让用户输入数据,及显示其计算结果的机器。终端有些是全电子的,也有些是机电的。其又名终端机,它与一部独立的电脑有分别。 目录     1 历史     2 图形终端     3 目前     4 技术讨论 历史 终端其实就是一种输入输出设备,相对于计算机主机而言属于外设,本身并不提供运算处理功能。早期的计算机终端一般是机电的电传打字机,比如ASR33。但是对于大多数应用来说它们太慢了。1970年代初许多电脑公司认识到电视输入终端比穿孔卡片要好得多,而且可以使得计算机更加容易与用户互动,产生新的应用。当时的毛病在于相对于当时的小型计算机来说要显示一页文字所需要的内存太大了。在集成电路普及以前要显示电视信号所需要的速度对当时的逻辑门所提出的技术挑战也太高了。当时有一家公司宣布要生产一台价值15,000美元的视频终端,吸引了许多购户,但是最后它的工程师们决定这个计划无法完成。另一个解决方法是泰克公司发明的存储管,这台机器可以显示输出给它的信息,但是无法刷新。 约1982年左右的一台ASCII视频终端 早期的视频终端使用特别的逻辑门,没有自己的中央处理器。发展微处理器的动机之一就是要简化终端里的电子元件的复杂性。大多数终端的屏幕是绿色或者橙色的,它们与大型计算机相连。典型的终端使用RS-232之类的串行数据通信与主机相连,IBM使用它自己的系统网络体系结构协议通过同轴电缆来连接其主机与终端。 后来所谓的智能终端(如VT52和VT100)被引入。今天依然有许多这两个终端的模拟软件。这些终端之所以被称为“智能”是因为它们理解转义序列,可以定位光标和控制显示位置。重要的非VT100终端有IBM 3270、不同的慧智模型和Tektronix 4014。1970年代里世界上有十数个终端生产商,大多数终端的指令不兼容。1970年代和1980年代初最重要的终端生产商有迪吉多、慧智、Televideo、利尔·西格勒公司和Heathkit。 早期的IBM个人计算机虽然也适用绿色的荧光屏,但是它不算终端。个人计算机的荧光屏不包括任何产生字母的硬件,所有的视频信号是在个人计算机的视卡里产生的。但是使用相应的模拟程序一台个人计算机可以与大型计...

虚拟终端

虚拟终端是在个人电脑上虚拟的一个终端以及为此目的而写的软件。虚拟终端的目的是达到个人电脑及其用户能够与大型计算机的连接。一般来说需要连接的大型计算机是IBM的大型计算机或者所谓的超小型计算机(过去往往是迪吉多的VAX)。 虚拟终端使得个人电脑的用户可以直接使用他的个人电脑来与大型计算机联系,而不必使用专门的终端。 通过虚拟终端的软件虚拟终端还可以扩展大型计算机的标准终端的功能,通过虚拟终端不但可以将个人电脑上的数据传递给大型计算机,而且还可以将大型计算机的数据传递给个人电脑,并在个人电脑上继续加工。 一般大型计算机的终端是字母式的输入和输出接口,因此一个虚拟终端至少需要一个能够模拟这样的字母式(比如ASCII)输入和输出接口的能力。最常见的平台是图像式的用户表面。要使得新的、图像式的程序能够使用老的字母式的或者没有图像式输入和输出能力的程序也需要虚拟终端。 现代的大型计算机也内部使用虚拟终端,这样它们可以向老的、需要终端的程序假装一个终端,而实际上它则将程序的显示转到显示卡上。比如Linux以及其它大多数基于个人电脑的类似Unix的操作系统假装有六至十个这样的“虚拟”的终端。 字母程序 <---> 虚拟终端 <---> 图像显示 shell <---> xterm <---> X11 结构 虚拟终端使得一个字母式的程序可以通过图形用户界面与用户通讯。它们使得用户可以使用不能直接使用图像接口的程序(比如因为在它们编程时还没有图像接口,或者因为字母式接口比较简单)。虚拟终端向字母式程序“假装”出一个字母终端,而向图像接口“假装”出一个图像式的程序。 工作方式 虚拟终端完成一个终端程序的任务。不过一个虚拟终端是一个普通的、在一个操作系统上、在电脑中央处理器上运行的普通程序,而不是一个存储在终端只读内存中的、在终端的中央处理器上运行的程序。虚拟终端分析一个字母式的程序的输出,将它转换为图像接口(比如X11)的输出。 终端窗口内的键盘输入传递给大型计算机中与终端连接的行程,一般这个行程是一个命令行解释器。这个行程以为自己是与一个终端相连,而实际上它是与一个虚拟终端相连。 例子     Unix系统中的Xterm、rxvt、aterm、Eterm、wterm、gnome-terminal、Konsole...

猎头公司教我改简历

发信人: zygotes (rolltide), 信区: JobHunting 标  题: 猎头公司教我改简历 发信站: Unknown Space - 未名空间 (Mon Feb 21 23:29:42 2005), 转信 这是analyticrecruiting.com一个人给我发的,让我如何改简历,我想还是和大家 一起分享一下。 --------------------------------- Thanks for sending in your resume. In considering your credentials against some job opportunities we're working on,  it became clear there are two  things you must do to improve your resume. One, you need to write a SKILLS section in your resume that summarizes all your developed skills:         -Business [Finance, Economics, Marketing, Engineering, Etc.] if applicable.         -Quantitative.         -Computer. Two, describe each of your important research projects/papers on your resume [3-6 lines] to:         - fully communicate what you contributed, solved ,or developed.      ...

STEM OPT的几点事项

一直以来,学生毕业都可以申请12个月的OPT (Optional Practical Training)。去年4 月4日,美国国土安全局宣布某些F-1 OPT学生可以再申请延长17个月的OPT, 如果这些 学生有一个科学、科技、工程、数学方面的学位(Science, Technology, Engineering , or Mathematics, or called STEM)而且他们的雇主加入了E-verify的program. 这 项政策对于广大理工科学生而言,从一定程度上缓解了H-1B名额有限的问题。 1. 假如一位学生拥有一个STEM的本科学位,但是硕士确实读了一个非STEM的学位, 他是否可以申请延长17个月的OPT呢? 根据新的法律规定,是否能申请17个月的OPT extension 取决于现有OPT申请时所基于 的学位。换句话说,如果这位学生当初用的是非STEM专业的degree申请的OPT, 那么他 就不能弄用他之前获得的STEM学位申请17个月的OPT extension。 2. 假如一位学生拥有两个主修学位(dual major),其中一个学位是STEM专业,而 且他的工作是和这个STEM 专业的相关的,他是否可以申请17个月的OPT extension呢? 这个是可以的,但是必须是主修学位,而不能是辅修学位(minor)。 3. OPT期间失业时间的限制 学生在常规的OPT期间可以有90天的unemployment。 如果是STEM专业的学生,另外可以有30天的unemployment,也就是说总共可以有120天 的unemployment。 例外的是: 在前一份工作和下一份工作的转换之间,有10天是可以不用记入总的 unemployment时间之内的。 4. 如果一位学生现有的OPT EAD卡在STEM OPT extension批准之前已经过期了,该 怎么办? 在新的法律规定下,这位学生可以继续工作(不超过180天),直到extension的EAD卡 批准下来,但条件是这位学生在现有OPT过期以前申请了STEM OPT的extension。 5. OPT与H-1B Cap Gap 的问题 在以前,学生如果5月份毕业,然后申请12个月的OPT,再来年申请H-1B, 就会有一个身 份GAP的问题。因为他的OPT会...

高盛

高盛 ( 英语 : Goldman Sachs )为跨国 银行控股公司 集团,为 《财富》杂志 评选的美国 财富500强 企业之一,总部位于 美国 纽约 。高盛的业务涵盖 投资银行 、 证券 交易 和 财富管理 ;业务对象为 企业 、 金融机构 、(国家) 政府 及富人。业务按地域分为三大块,即美国、 亚太地区 和 欧洲 ,在全球23个国家和地区设有代表处;包括 纽约 、 芝加哥 、 法兰克福 、 伦敦 、 东京 、 台北 、 北京 、 上海 和 香港 。亚太地区总部设于 香港 。在中国大陆设有北京办事处、上海办事处,并成立合资证券公司 高盛高华 。 目录 1 历史 1.1 1869-1930 1.2 1930-1980 1.3 1980-1999 1.4 1999-现在 1.5 2007年应对美国次级债务危机 1.6 问题资产援助计划及伯克希尔哈撒韦公司的投资 2 公司事务 2.1 投资银行 2.2 交易与自营投资 2.3 资产管理和证券服务 3 社会责任 4 税收贡献 5 参考文献 历史 1869-1930 高盛公司是由德国移民 马库斯·高曼 于1869年创立的。1882年,他的女婿 萨缪尔·萨克斯 加入了公司。1885年, 马库斯·高曼 把他的儿子亨利和Ludwig Dreyfuss带入了公司,并且把公司取名为高盛。公司成为了在此阶段最初从事 商业票据 交易的先锋,并于1896年加入了 纽约证券交易所 。创始人 马库斯·高曼 每天沿街打折收购商人们的本票,然后在某个约定日期里由原出售本票的商人按票面金额支付现金,其中差额便是马可斯的收入。 二十世纪初, 股票包销 包括 首次公开募股 业务使高盛成为真正的投资银行,公司1906年帮助Sear Roebuck公司发行了当时规模最大的 首次公开募股 。高盛还成为了当时最喜欢招聘名牌商学院MBA学位学生的公司之一,这一习惯一直延续到今天。 1928年12月4日,公司宣布成立高盛股票交易公司,在高曼狂热的推动下,高盛以每日成立一家信托投资公司的速度,进入并迅速扩张类似今天互助基 金的业务,股票发行量短期膨胀1亿美元。公司一度发展得非常快,股票由每股几美元,快速涨到100多美元,最后涨到了200多美元。但...

找到工作回报本版——分享一点个人经验

发信人: lmcshl (lmcshl), 信区: Statistics 标  题: 找到工作回报本版——分享一点个人经验 发信站: BBS 未名空间站 (Fri Jul 13 18:25:54 2012, 美东) 先要感谢LD!!!感谢LD每天在旁边看电视剧,感谢LD每天等我在家做好饭...当然更 要感谢LD在郁闷的时候安慰我,在偷懒的时候督促我,在丧失斗志的时候激励我,并且 给了我大量找工作的宝贵经验!!! 说一下本人背景,烂校生物phd转了master,之后又花一年读了个本校的统计master, 九门课加一个project,感觉也没学到多少东西。Project还是悲催的做了个跟之前生物 实验室合作的项目,cluster analysis和machine learning相关的statistical computing,听起来可能比较fancy,但也就是做些最浅显的东西。Project是用R做的, SAS也就regression,ANOVA之类的课上用过,也没去考certificate。另外两个课程的 project,一个是missing data,感觉这个还有点用,面试也能吹一吹,毕竟大多数数 据都会遇到missing value,还有一个是ampling的,除了个别survey相关的工作,好像 基本没有要求这方面的。 因为是暑假毕业,所以春季学期开始的时候根本没把找工作放在心上,等期中的时候看 着春季毕业的同学已经有好几个面试了,才意识到自己也应该开始投简历了,不然很多 坑就被人先填了...零零星星的投了30+,期末的时候又停了。考完试开始给project收 尾,一直忙到五月底答辩完。期间也拿到一学校research center的工作,用SAS的data step做data manipulation和management...虽然价性比还说得过去,但觉得工作内容 太无聊,而且自己都没怎么开始找呢,所以毅然决然的拒了。 答辩完开始大规模的投简历,整个六月大概投了100+,其中五个phone screen,一个 onsite(就是最后拿到offer的),另外还有两个约好的电面,被人放了和放了别人鸽 子各一次...在onsite后五天,七月初的时候拿到oral offer,之后又因为 Indepe...

[合集] 下定决心转行了,求建议

发信人: Ginobili (潘帕斯雄鹰), 信区: JobHunting 标  题: [合集] 下定决心转行了,求建议 发信站: BBS 未名空间站 (Mon Jul 16 22:03:38 2012, 美东) ☆─────────────────────────────────────☆   blackyou (Douglas) 于 �(h 提到: 俺是博后,在德国,也准备就在这找工作。俺滴专业嘛,就是那个万能的百无一用的物 理,具体是computational physics/first principles condensed matter theory/ blabla。。。 (物理的童鞋们一定知道的) 现在打算彻底和学术say goodbye,不过具体的转行方向还不是很清晰。考虑到自己身 上可能还有点用的就是一点点 math+numerical skills,所以方向有2or3 个,大家帮 我参谋参谋 1. medical physics (basically radiation related)    看买买提上说这是物理转行一个比较不错的去处,而且最近有个师兄海归就是去干 这个了。MS他就是去做numerical analysis/calculation的    2. finance/quant    这个要重新学很多东西,而且职位不多,但这是个人最想去的。 3. general R&D/simulation in industry    看了一些这类的职位,好像都是要求很特定的某一类技能,比如就要求finite element,就要求fluid dynamics, 都和我之前的经验不大相关。这样我准备起来其实 风险蛮大,而且可能以后的工作也就很局限。但是这类位子好像很多,所以也把它考虑 着。   物理想转行也就这些可能性了吧。真心求大家建议/拍砖   ☆─────────────────────────────────────☆   helpme (范坚强) 于 (Sun Oct 23 08:55:16 2011, 美东) 提到...

如何秒杀99%的海量数据处理面试题

发信人: rongxuer (蓉儿), 信区: JobHunting 标  题: 如何秒杀99%的海量数据处理面试题 发信站: BBS 未名空间站 (Thu Apr  5 02:08:57 2012, 美东) 海量数据处理:十道面试题与十个海量数据处理方法总结 作者:July、youwang、yanxionglu。 时间:二零一一年三月二十六日 说明:本文分为俩部分,第一部分为10道海量数据处理的面试题,第二部分为10个海量 数据处理的方法总结。 本文之总结:教你如何迅速秒杀掉:99%的海量数据处理面试题。有任何问题,欢迎随 时交流、指正。 出处:http://blog.csdn.net/v_JULY_v。 ------------------------------------------ 第一部分、十道海量数据处理面试题 1、海量日志数据,提取出某日访问百度次数最多的那个IP。       首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中 。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把 整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash _map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最 大的IP中,找出那个频率最大的IP,即为所求。 或者如下阐述(雪域之鹰): 算法思想:分而治之+Hash 1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理; 2.可以考虑采用“分而治之”的思想,按照IP地址的Hash(IP)%1024值,把海量IP日志 分别存储到1024个小文件中。这样,每个小文件最多包含4MB个IP地址; 3.对于每一个小文件,可以构建一个IP为key,出现次数为value的Hash map,同时记录 当前出现次数最多的那个IP地址; 4.可以得到1024个小文件中的出现次数最多的IP,再依据常规的排序算法得到总体上出 现次数最多的IP; 2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询 串的长度为1-255字节。  ...

Excel in Your Career

Employers look to retain workers who continue to excel and deliver value to the company on a consistent basis. As a result, it has become more important than ever to leverage your initiative, experience and education to demonstrate long-term value to employers. Below are a few tips on how to improve your career and ensure future job security. Go Beyond Expectations – The best way to be viewed as a valued employee is to act like a valued employee. Going above and beyond the call of duty is key to standing out in any job and demonstrating value to a company. It is important to volunteer often and take on new challenges. Anticipate Trends in Your Industry – Research and understand trends affecting your industry so you can make informed career decisions. Be sure that your knowledge and skills are in line with future trends so employers will view you as a valuable asset to their company and your career will continue to grow. ...

SQL 简介

SQL 是用于访问和处理数据库的标准的计算机语言。 什么是 SQL? SQL 指结构化查询语言 SQL 使我们有能力访问数据库 SQL 是一种 ANSI 的标准计算机语言 编者注: ANSI,美国国家标准化组织 SQL 能做什么? SQL 面向数据库执行查询 SQL 可从数据库取回数据 SQL 可在数据库中插入新的纪录 SQL 可更新数据库中的数据 SQL 可从数据库删除记录 SQL 可创建新数据库 SQL 可在数据库中创建新表 SQL 可在数据库中创建存储过程 SQL 可在数据库中创建视图 SQL 可以设置表、存储过程和视图的权限 SQL 是一种标准 - 但是... SQL 是一门 ANSI 的标准计算机语言,用来访问和操作数据库系统。SQL 语句用于取回和更新数据库中的数据。SQL 可与数据库程序协同工作,比如 MS Access、DB2、Informix、MS SQL Server、Oracle、Sybase 以及其他数据库系统。 不幸地是,存在着很多不同版本的 SQL 语言,但是为了与 ANSI 标准相兼容,它们必须以相似的方式共同地来支持一些主要的关键词(比如 SELECT、UPDATE、DELETE、INSERT、WHERE 等等)。 注释: 除了 SQL 标准之外,大部分 SQL 数据库程序都拥有它们自己的私有扩展! 在您的网站中使用 SQL 要创建发布数据库中数据的网站,您需要以下要素: RDBMS 数据库程序(比如 MS Access, SQL Server, MySQL) 服务器端脚本语言(比如 PHP 或 ASP) SQL HTML / CSS RDBMS RDBMS 指的是关系型数据库管理系统。 RDBMS 是 SQL 的基础,同样也是所有现代数据库系统的基础,比如 MS SQL Server, IBM DB2, Oracle, MySQL 以及 Microsoft Access。 RDBMS 中的数据存储在被称为表(tables)的数据库对象中。 表是相关的数据项的集合,它由列和行组成。

浅谈“中国人为什么不团结”

发信人: drawnnow (11), 信区: WaterWorld 标  题: 浅谈“中国人为什么不团结” 发信站: BBS 未名空间站 (Sun Jul 15 16:57:02 2012, 美东)    首先很抱歉取了这么一个标题,因为这个现象不是中国人特有的,只是身为中国人 对中国人的现象比较关注。中国人到底团不团结,相比其它人种文化的团结程度怎么样 ,不是本文要讨论的话题(也就是说这个命题的真伪不是本文要讨论的话题)。本文讨 论的是针对各大媒体,网络论坛反复提到的“中国人喜欢内斗,中国人不团结”这一现 象背后原因进行简要的分析。     首先人有两重属性,作为个体的人和作为社会的人。作为一个独立的个体,每个人 都会尽力给自己争取最大的利益来获得更好的生存条件。但人不能脱离社会而存在,每 个人在这个社会中都必然会属于某一个团体,小到家庭,班级,学校,大到民族,文化 ,国家。一般来讲一个团体的形成都是基于某种利益联系的,也就是说每个团体都必然 以某种共同利益为基础的。     个体在社会上一般通过经济手段(交换自己的脑力,体力,或者其它资源)来换取 自己需要的资源。但是整个社会的资源分配不全是以经济手段为基础的。很多时候需要 人与人之间来进行协商,妥协来达到共存的目的(我们称之为政治)。当然很多时候协 商妥协达不成一致的时候我们会付诸于武力(也就是军事),拳头大的拥有利益分配权 。但在一个文明的武力冲突不经常发生的社会,政治是主旋律。小到家庭,大到国家, 有人的地方就有政治。     要想在协商谈判中获得更大的筹码,人需要加入一个有着共同利益的团体,因为一 个人的力量太渺小。因为每个人都有同等的生存权,政治谈判中一般人数是最大的筹码 。一般加入一个团体(有些团体是不可以选择的,比如国家,种族等)都意味着你会或 多或少的牺牲一些你的个人利益因为大多数人想要的不一定正好是你想要的。但一般情 况下如果身为团体的一员能够为你争取到的利益大于你牺牲的个人利益,积极参与团体 的活动以及支持团体的决定还是有好处的。    一个团体要形成政治力量,必须要有代表,不然人多口杂什么都...