由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
StartUp版 - 问一个大批量数据要人工进一步处理的问题
相关主题
贴个刚起步的数据服务网站,欢迎拍砖, 欢迎合作伙伴加州注册LLC的问题
打算创业,第一步, 办公司, 请教前辈?H1b身份开公司, 作为公司股东
开一个成立公司的研究学习贴 希望志同道合者一起交流小网站 刚刚做好,大家给点建议
请问有人用过BIZFILINGS成立公司吗?我有个问题,为啥在纺织品上复制eforcity/dealextrem这样模式的
哪里能查各州annual report filing fee?如何在中国购买裸计算机
代注册公司会计师收费700刀贵吗?H4 注册公司的几个问题,请大虾们指点下!
has anyone done corp-to-corp consulting?有没有印名片和flyer的公司推荐?
Basics of Corporations请问谁知道美国红枫呀
相关话题的讨论汇总
话题: abc话题: api话题: 地址话题: 数据话题: 进一步
进入StartUp版参与讨论
1 (共1页)
B*D
发帖数: 5016
1
偶有1.7万个厂家的名称和厂家网站这两个信息。
需要进一步人工整理出标准化的地址数据。
这样的活,国内什么网站上去找人做比较合适?
偶不太想到大学的BBS上去找兼职。
b******y
发帖数: 9224
2
如果不复杂,我可以免费帮你做。如果复杂,收一点点工本费,可以帮你。站内联系吧
b******y
发帖数: 9224
3
补充:如果需要编程解决的话。否则纯手工,偶帮不上啦
k******t
发帖数: 1498
4
amazon's human cloud:
https://www.mturk.com/mturk/welcome

【在 B*D 的大作中提到】
: 偶有1.7万个厂家的名称和厂家网站这两个信息。
: 需要进一步人工整理出标准化的地址数据。
: 这样的活,国内什么网站上去找人做比较合适?
: 偶不太想到大学的BBS上去找兼职。

e****7
发帖数: 4387
5
Re,
排除去国内找便宜劳力,这个算是很好的选择

【在 k******t 的大作中提到】
: amazon's human cloud:
: https://www.mturk.com/mturk/welcome

a***s
发帖数: 206
6
Shouldn't this be an ETL issue? I thought there was a guy doing it on this
board?
B*D
发帖数: 5016
7
我想只能人工处理
否则那么多不同的网站,你怎么抓取每个公司的地址信息,并且标准化呢?
自动抓我觉得数据质量肯定很低?

【在 a***s 的大作中提到】
: Shouldn't this be an ETL issue? I thought there was a guy doing it on this
: board?

e****7
发帖数: 4387
8
是啊,除非这些公司的信息都在同一网站

【在 B*D 的大作中提到】
: 我想只能人工处理
: 否则那么多不同的网站,你怎么抓取每个公司的地址信息,并且标准化呢?
: 自动抓我觉得数据质量肯定很低?

ET
发帖数: 10701
9
我还面试过这个组的manager

【在 k******t 的大作中提到】
: amazon's human cloud:
: https://www.mturk.com/mturk/welcome

d*****n
发帖数: 3084
10
看起来是牛人来了,请教一个入门级问题。自己租空间搞的购物系统,没有专人维护的
话,安全性如何?不保存信用卡信息就没安全问题了?Amazon上开店的话,安全应该就
是amazon负责了吧?

【在 ET 的大作中提到】
: 我还面试过这个组的manager
相关主题
代注册公司会计师收费700刀贵吗?加州注册LLC的问题
has anyone done corp-to-corp consulting?H1b身份开公司, 作为公司股东
Basics of Corporations小网站 刚刚做好,大家给点建议
进入StartUp版参与讨论
L******w
发帖数: 5407
11
你这程序这么聪明?

【在 b******y 的大作中提到】
: 补充:如果需要编程解决的话。否则纯手工,偶帮不上啦
b******y
发帖数: 9224
12

过奖,没那么聪明。另外,我从来不喜欢artificial intelligence的东东,认为都是
忽悠。我的计算机领域是distributed systems and information retrieval.

【在 L******w 的大作中提到】
: 你这程序这么聪明?
L******w
发帖数: 5407
13
那你怎么抓地址?

【在 b******y 的大作中提到】
:
: 过奖,没那么聪明。另外,我从来不喜欢artificial intelligence的东东,认为都是
: 忽悠。我的计算机领域是distributed systems and information retrieval.

a***s
发帖数: 206
14
通过screen scraping/browser automation查关键字,打开新的url,再模糊匹配,最
后查邮局的服务纠正地址。有冲突就根据公司名字去政府注册表查一下。
这个问题细节有点复杂,有的公司贴出多个地址,只有一个是headquarter。总之这一
类的doable

【在 L******w 的大作中提到】
: 那你怎么抓地址?
L******w
发帖数: 5407
15
政府注册表去哪里查?就算能查,也不能自动吧, 太花时间了。
邮局的服务怎么纠正地址,能给你接口白用?

【在 a***s 的大作中提到】
: 通过screen scraping/browser automation查关键字,打开新的url,再模糊匹配,最
: 后查邮局的服务纠正地址。有冲突就根据公司名字去政府注册表查一下。
: 这个问题细节有点复杂,有的公司贴出多个地址,只有一个是headquarter。总之这一
: 类的doable

a***s
发帖数: 206
16
yes it is a detailed work but you can automate it
and yes it is a free api. USPS has a stake in this since the inaccurate
address increases their side of cost as well.
只有想不到的,没有做不到的。

【在 L******w 的大作中提到】
: 政府注册表去哪里查?就算能查,也不能自动吧, 太花时间了。
: 邮局的服务怎么纠正地址,能给你接口白用?

b******y
发帖数: 9224
17

赞,就是看花多大功夫的问题。至少可以半自动化的解决

【在 a***s 的大作中提到】
: yes it is a detailed work but you can automate it
: and yes it is a free api. USPS has a stake in this since the inaccurate
: address increases their side of cost as well.
: 只有想不到的,没有做不到的。

a***s
发帖数: 206
18
Actually the validation of business names can be done fully automated, with
some code. The challenge is when the business name has a conflict or is not
complete (e.g. ABC Tech on website, ABC Technologies Incorporated in the
registry) the logic has to somehow resolve it.
I once parsed SEC Filings and encountered similar problems.

【在 b******y 的大作中提到】
:
: 赞,就是看花多大功夫的问题。至少可以半自动化的解决

L******w
发帖数: 5407
19
registry在哪里可以找到? 也有API?
这些缩写就要程序处理了,比如ctr和center自动转换,两个都试试。

with
not

【在 a***s 的大作中提到】
: Actually the validation of business names can be done fully automated, with
: some code. The challenge is when the business name has a conflict or is not
: complete (e.g. ABC Tech on website, ABC Technologies Incorporated in the
: registry) the logic has to somehow resolve it.
: I once parsed SEC Filings and encountered similar problems.

i**i
发帖数: 1500
20
你先贴几个比较典型的数据,不需要真实数据。看看格式怎么样。
应该不难吧。

【在 B*D 的大作中提到】
: 偶有1.7万个厂家的名称和厂家网站这两个信息。
: 需要进一步人工整理出标准化的地址数据。
: 这样的活,国内什么网站上去找人做比较合适?
: 偶不太想到大学的BBS上去找兼职。

b******y
发帖数: 9224
21

我怀疑API都是要钱的。

【在 L******w 的大作中提到】
: registry在哪里可以找到? 也有API?
: 这些缩写就要程序处理了,比如ctr和center自动转换,两个都试试。
:
: with
: not

w*****e
发帖数: 748
22
做中文的要用猪八戒,mturk上放过中文的东西,不但慢、少,而且质量不高。
1 (共1页)
进入StartUp版参与讨论
相关主题
请问谁知道美国红枫呀哪里能查各州annual report filing fee?
谁在国内有渠道大批量进奶粉吗代注册公司会计师收费700刀贵吗?
帮国内亲友推销初级问题,莫见怪。has anyone done corp-to-corp consulting?
大批量2手药厂仪器设备Basics of Corporations
贴个刚起步的数据服务网站,欢迎拍砖, 欢迎合作伙伴加州注册LLC的问题
打算创业,第一步, 办公司, 请教前辈?H1b身份开公司, 作为公司股东
开一个成立公司的研究学习贴 希望志同道合者一起交流小网站 刚刚做好,大家给点建议
请问有人用过BIZFILINGS成立公司吗?我有个问题,为啥在纺织品上复制eforcity/dealextrem这样模式的
相关话题的讨论汇总
话题: abc话题: api话题: 地址话题: 数据话题: 进一步