2019๋
์ผ๋ผ์ค ๊ณต๊ฐ SW ์ปจํธ๋ฆฌ๋ทฐํค ํ๋ก์ ํธ ์ค ํ๋์ธ ์ผ๋ผ์ค ๊ธฐ๋ฐ ์ฑ๋ด ๋ง๋ค๊ธฐ
์ ์ฐธ๊ฐํ์ฌ ํด์ํ๊ทธ ๊ธฐ๋ฐ์ผ๋ก ๊ธ์ ์์ฑํด์ฃผ๋ ์ฑ๋ด์ ๋ง๋ค์์ต๋๋ค.
๋ฐํ์๋ฃ์ ์์ธ ๋ด์ฉ์ README.pdf์์ ์ฐธ๊ณ ํ์ค ์ ์์ต๋๋ค.
- ์ฑ๋ด์ ํด์ํ๊ทธ๋ฅผ ์ ์ผ๋ฉด ์ฌ์ ์ ์์งํ ๋ฐ์ดํฐ์ ์์ ๋๋ค์ผ๋ก ๋ฌธ์ฅ๋ค์ ๋ฝ์์ค๋๋ค.
- ๋ฝํ ๋ฌธ์ฅ๋ค์ ๋ฒ์ญ / ๋ชจ๋ธ ๋ฑ์ ๊ฑฐ์ณ ์๋ก์ด ๋ฌธ์ฅ์ผ๋ก ๋ณํ๋์ด ์ฑ๋ด์ ์์ํ ๊ฐ์ผ๋ก ๋ฐํ๋ฉ๋๋ค.
๊ฐ๋ฐ ์ธ์ด : python
๋ชจ๋ธ ํ๋ ์ ์ํฌ : Keras
ํํ์ ๋ถ์๊ธฐ : Konlpy
- Mentee
- ๊น์ฐ์ [์์ฃผ๋ํ๊ต ์ปดํจํฐ๊ณตํ๊ณผ ๋ํ์์ gks3284@ajou.ac.kr]
- ๋ฐฐํ์ง [์๋ช ์ฌ์๋ํ๊ต IT๊ณตํ์ ๊ณต ์ฌํ gloria9705@sookmyung.ac.kr]
- ์์์ง [์ฐ์ธ๋ํ๊ต Economics ํ๋ถ์ young_ahn@yonsei.ac.kr]
- ๋ฐฑ์น์ฃผ [์์ฃผ๋ํ๊ต ์ฐ์ ๊ณตํ๊ณผ / halucinor0@gmail.com]
- Mento
- ๊น์ฌ๊ธฐ ๋ฉํ ๋
์ธํ๋ฃจ์์ ๋ฆฌ์คํธ์ / ์ธ์คํ ๊ทธ๋จ ๊ฒ์๊ธ ํฌ๋กค๋ง / ์ด๋ฏธ์ง ๋ค์ด ์ผ๋ก ๋ฐ์ดํฐ์ ์ ์์งํ์์ต๋๋ค.
instagram crawler: https://github.com/huaying/instagram-crawler
- [๊ฒ์๊ธ ์์ฑ์, ๊ฒ์๊ธ ์ฌ์ง(jpg/png), ๊ฒ์๊ธ ๋ณธ๋ฌธ(string), ํด์ํ๊ทธ, ๊ฒ์๊ธ ๋๊ธ] ์ ๋ณด๋ฅผ ๋ด๊ณ ์๋ json ํ์ผ์ ์์ฑ
- ํด๋น json ์ด๋ฏธ์ง ํ์ผ์ ๋ค์ดํ๊ณ Google Vision API๋ฅผ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง ๋ณ ํ ์คํธ ์ถ์ถ
- ์ต์ข ๋ฐ์ดํฐ ํตํฉ (์ธ์คํ๊ทธ๋จ crawling ๋ฐ์ดํฐ + ์ด๋ฏธ์ง๋ก๋ถํฐ OCR์ ์ด์ฉํด ์ถ์ถํ ๊ธ ํ ์คํธ)
<USER_ID | CONTENT_ID | CONTENT_IMAGE_ID | Image_Content_txt | Content_txt | Hashtags>
- ์ด ๋ฐ์ดํฐ : 32,099, ๋์ผ ๊ฒ์๊ธ ๋ณํฉ : 25,196
- ig_query_parser.py : URL ์์์ ์ ์ ์ ์์ด๋๋ฅผ ๋ฝ์๋ด๋ ์์ค์ฝ๋
- json_image_crawler.py : json์ url์ ํตํด ์ธ์คํ ๊ฒ์๊ธ ์ด๋ฏธ์ง๋ฅผ ๋ค์ด๋ก๋ ๋ฐ๋ ์์ค์ฝ๋
- googleapi.py : OCR์ ์๋์ํค๋ ์์ค
- _human_parsing : ๊ฒ์๊ธ์ ๋ถ์ํ์ฌ json ํ์ผ์ ๋ง๋๋ ์์ค์ฝ๋
- ์ด๋ฏธ์ง ์ฝํ ์ธ ๋ด์ ํด์ํ๊ทธ๊ฐ ๊ฑธ๋ ค ์๋ ๊ฒฝ์ฐ๊ฐ ์์ด ์ ์ ์๋ช ์ญ์ ์ฒ๋ฆฌ๋ฅผ ํ๊ธฐ ์ ์ ์ ๊ฑฐํด์ฃผ์์ต๋๋ค.
- ์ ์ ๊ฐ ์ด ๊ธ๋ง๋ค ์ ์ ์ ํ๋ช ๋ฑ์ด ์๋ช ์ฒ๋ผ ๋ค์ด๊ฐ์์ต๋๋ค. ๊ธ์ ์๋ถ๋ถ์ด๋ ๋ท๋ถ๋ถ์์ ํ ์ ์ ๋น ๋์ผํ ์ด์ ์ด ์ ์ ๋น ๊ฒ์๊ธ์ 50% ์ด์์ผ ์ ์ ๊ฑฐ ์ฒ๋ฆฌํด์ฃผ์์ต๋๋ค. ์๋ช ์ด ๋ ์ด์ ์ด์์ธ ๊ฒฝ์ฐ๋ ์์ด, ์ ๊ฑฐ ์์๊ฐ ๋์ค์ง ์์ ๋๊น์ง ๋ฐ๋ณต ์ฒ๋ฆฌํด์ฃผ์์ต๋๋ค.
- ๋์ผํ ํด์ํ๊ทธ๊ฐ ๋ชจ๋ ๊ธ์ ๋ฐ๋ณต์ ์ผ๋ก ๋ฑ์ฅํ๋ ๊ฒฝ์ฐ๊ฐ ์ฆ์์ต๋๋ค. ๋ชจ๋ ์ ์ ์ ํด์ํ๊ทธ ๋ฐ์ดํฐ๋ฅผ ์นด์ดํธํด ๋น๋์ 1ํ์ด๊ฑฐ๋ ์ต๋ค ๋น์ถ 3๊ฐ ์ด์์ธ ํ๊ทธ๋ ์ ๊ฑฐํด์ฃผ์์ต๋๋ค.
- ๋ง์ถค๋ฒ์ด ํ๋ฆฐ ๊ธ์ ๊ฒ์ฌํ์ฌ ์์ ํด์ฃผ๋ ์์
์ ๊ฑฐ์ณค์ต๋๋ค.
hanspell: https://github.com/ssut/py-hanspell/blob/master/README.md
ํด๋น ๋ง์ถค๋ฒ ๊ฒ์ฌ๊ธฐ๋ฅผ ์ด์ฉํ์ฌ ์ถ์ถ๋ ์ด๋ฏธ์ง ํ ์คํธ์ ๋ง์ถค๋ฒ์ ๊ฒ์ฌ
๋ง์ถค๋ฒ ๊ฒ์ฌ๋ py-hanspell ๋ด๋ถ์ ์ผ๋ก ๋ค์ด๋ฒ ๋ง์ถค๋ฒ ๊ฒ์ฌ๊ธฐ๋ฅผ ์ฌ์ฉ
gpt2 colab https://colab.research.google.com/drive/1VLG8e7YSEwypxU-noRNhsv5dW4NfTGce
Modeling
- RNN, Seq2Seq ์๋ฃ์กฐ์ฌ
- GPT-2๋ฅผ ์ด์ฉํ ์์ฑ ๋ชจ๋ธ ํ์ต ์งํ ์ค
๋ฐ์ดํฐ ๋ณํ
-
Translation (ํ๊ธ โ ๋ค๋ฅธ ๋๋ผ ์ธ์ด โ ํ๊ธ)
-
Google Translation API ์ด์ฉ
-
translateAPU.py : ์ ๋ ฅ๋ ๊ธ์ ์์ด๋ก ๋ฒ์ญํ ๋ค ํ๊ตญ์ด๋ก ๋ค์ ๋ฒ์ญํด์ฃผ๋ ์ฝ๋
-
๋ช ์ฌ ์ ์์ด๋ก ๋ณ๊ฒฝํ๊ธฐ
- Word2Vec
-
word2vec_train_and_save.py : ์ฌ์ฉ์์ ๋ฐ์ดํฐ๋ฅผ ํ์ตํด์ Word2Vec ๋ชจ๋ธ๋ก ๋ฐํํด์ฃผ๋ ์ฝ๋
-
word2vec_train_and_save.py : Word2vec ๋ชจ๋ธ์ ์ด์ฉํด ๋ฐ์๋ธ ๋จ์ด ๋ณ ์ ์์ด๋ฅผ ๋ฌธ์ฅ ๋ด ๋ชจ๋ ๋ช ์ฌ์ ์ ์ฉ์์ผ ๋ฌธ์ฅ์ ๋ณํํด์ฃผ๋ ์ฝ๋
NLP
- BERT ์ธ๋ฏธ๋ ์๋ฃ: https://www.slideshare.net/WonIkCho/1909-bert-whyandhow-code-seminar
- ๋ฅ ๋ฌ๋์ ์ด์ฉํ ์์ฐ์ด ์ฒ๋ฆฌ ์ ๋ฌธ: https://wikidocs.net/book/2155
- ์ฝ๊ฒ ์์ด์ง Word2Vec: https://dreamgonfly.github.io/machine/learning,/natural/language/processing/2017/08/16/word2vec_explained.html
๋ฐ์ดํฐ ์์ง
- instagram-crawler: https://github.com/huaying/instagram-crawler
- Vision API Tutorial: https://www.evernote.com/l/AZQhDK3EG1dPlYYGM7nz--qf_IpgswSIbQw/
๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ
๋ชจ๋ธ๋ง
- gpt-2: https://github.com/nshepperd/gpt-2
- gpt-2 colab: https://colab.research.google.com/github/ilopezfr/gpt-2/blob/master/gpt-2-playground_.ipynb?fbclid=IwAR21GZFZ2gWHFwZmWss5osQpxDRuZOQsx_RXdvSbBWbyTYBogYru9bRB6qY#scrollTo=_QIdaQn5WkSf
2020 ์ธ๊ณต์ง๋ฅ ๋ฐ์ดํฐ์
๊ฒฝ์ง๋ํ ์ธ์คํ๊ฐฌ์ฑํฐ์ง
ํ, 3๋ฑ ์์
์ฃผ๊ด : ์
๋ ํธ์คํ