<aside> ๐ก DIYA์์ ํ๋ํ๋ ๋ฉค๋ฒ๋ค๋ก ๊ตฌ์ฑ๋์ด์์ผ๋ฉฐ ์ถํ ์ธ์ ๋ณด๊ฐ ์์ !
<aside> ๐ก K-MolOCR์ ํํ ๊ณ์ด ์ฐ๊ตฌ ์ข ์ฌ์๋ค์ ์ํ ๋ถ์ ๊ตฌ์กฐ ์ด๋ฏธ์ง ๊ฒ์ ๊ธฐ๋ฅ์ ์ ๊ณตํด์ฃผ๋ ์๋น์ค์ ๋๋ค. ์ฌ์ฉ์ ์นํ์ ์ธ ๊ด์ ์์ ๋ณด๋ค ์ฝ๊ฒ ์ ๊ทผํ ์ ์๋๋ก ์น ์๋น์ค ํํ๋ก ๋ฌด๋ฃ๋ก ์ ๊ณตํด์ฃผ๋ ์ํ์ฉ ์๋น์ค์ ๋๋ค.
โฌ๏ธ
C=CC(=O)N1CC(Nc2ncnc3c(F)c(-c4ccc(F)c5sc(N)nc45)c(Cl)cc23)C1
</aside>
<aside> ๐ก ๋ฌด์์ ์ ๊ณตํ ๊ฒ์ธ๊ฐ?
ํ์กด ๋ค๋ฅธ ์๋น์ค
Molecule OCR ๊ธฐ๋ฅ์ ์ ๊ณตํ๋ ์๋น์ค๋ค์ ์ฃผ๋ก
single image โ single smiles
pdf โ list of smiles (dataframe)
๋ ์ค ํ๋์ ๋ฐ์ดํฐ ๊ตฌ์กฐ๋ก ๊ฒฐ๊ณผ๋ฅผ ๋ด๋๋ ์๋น์ค์.
User-friendly ํ์ง ๋ชปํจ.
Markush ๊ตฌ์กฐ๋ฅผ ๋ฐ๋ OCR ๋ชจ๋ธ์ ๋ฐ๋ก ์์.
์ฐธ์กฐ ๋ด์ฉ
Chemical diagram OCR : by mathpix
Chemical diagram OCR and search
ChemoCR - by Fraunhofer SCAI
Introduction to Markush
</aside>
<aside> ๐ก ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ ์น ์๋น์ค ๊ธฐํ โ ์น ์๋น์ค ๋ฐฐํฌ์ ์ด๋ฅด๊ธฐ๊น์ง ํ๋ก์ ํธ๋ฅผ ์๋์ ๊ฐ์ ์์๋ก ์งํํ ์์ ์ ๋๋ค.
POC ์์ค์ ๋ชจ๋ธ ๊ฐ๋ฐ
image-to-text model
: ๋ถ์ ๊ตฌ์กฐ๋ฅผ ๋ด๊ณ ์๋ image์ ๋ํ text(smiles or smarts) ์์ฑ
inference ์๋๊ฐ ๋นจ๋ผ์ผ ํจ
๋ชจ๋ธ์ด ๊ฐ๋ฒผ์์ผ ํจ
๋ชจ๋ธ์ ์ ํ๋๊ฐ ๋งค์ฐ ๋์์ผ ํจ
์์ธก์ด ํ๋ ธ์ ๋ ์์ ํ ์ ์๋ Tool์ ์ ๊ณตํด์ผ ํจ.
GitHub - EBjerrum/rdeditor: Simple RDKit molecule editor GUI using PySide
molecule image detection model
: ์ ์ฝ ํนํ pdf ํน์ ๋ ผ๋ฌธ pdf ๋ด์ ์๋ ๋ถ์ ์ด๋ฏธ์ง detection
Agile ๋ฐฉ๋ฒ๋ก ์ ์ ์ฉํ ์น ์๋น์ค ๊ธฐ๋ฅ ๊ฐ๋ฐ
๋๋ต์ ์ธ ๊ตฌ์กฐ : ๋ชจ๋ธ ํ์ต / ๋ฐฐํฌ + ์น ์๋น์ค ์ด์
๋ชจ๋ธ โ ์๋ฒ + ํด๋ผ์ด์ธํธ ์ฌ์ด๋์์ ๋์ํ ์ ์๋ UI + ๋ฐ์ดํฐ๋ฒ ์ด์ค
DevOps + MLOps๋ฅผ ์ ์ฉํ ์ง์์ ์ด์ ๋ฐ ๋ฐฐํฌ๋ฅผ ๊ณ ๋ คํ ์๋น์ค ๊ฐ๋ฐ </aside>
<aside> ๐ก Preprocessing
: label(smiles)์ด ์ฃผ์ด์ง real image(pdf๋ด์ ๋ถ์ ์ด๋ฏธ์ง)๋ฅผ ๋๋์ผ๋ก ์ป๋ ๊ฒ์ ์ด๋ ค์.
ex) C=CC(=O)N1CC(Nc2ncnc3c(F)c(-c4ccc(F)c5sc(N)nc45)c(Cl)cc23)C1
โฌ๏ธ
โฌ๏ธ
</aside>
<aside> ๐ก Model
: CNN(Encoder) + Transformer(Decoder)
</aside>